دانشمندان علم داده‌ موفق شدند از داده‌های واقعی نمونه جدید بسازند!

یکی از نکات جالب در مورد عصر حاضر این است که تقریبا در مورد همه چیز می‌توان داده‌های مناسبی پیدا کرد. این داده‌ها ابزار بسیار مناسبی برای کشف دانش و یافته‌های تازه هستند. مثلا به کمک داده‌های مربوط به هواشناسی می‌توان در مورد آینده زمین پیش‌بینی‌های مناسبی انجام داد. همچنین از داده‌های مکانی می‌توان برای مسیریابی استفاده کرد. با این حال یک مشکل عمده در مورد دسترسی به این داده‌ها وجود دارد و آن حفظ حریم خصوصی افراد است.

بسیاری از افراد در مقابل افشای اطلاعات شخصی خود برای کارهای تحقیقاتی حساس بوده و علاقه‌ای به در اختیار گذاشتن داده‌های خود نزد محققان ندارند. این در حالی است که پژوهشگران فعال در زمینه علم داده‌ها بدون دسترسی به داده‌های کافی قادر به کشف الگوهای نهان و با ارزش نخواهند بود. در حقیقت حفظ حریم خصوصی افراد سد بزرگی برای پیشرفت علم داده‌ها محسوب می‌شود.

با این حال محققان دانشگاه MIT برای حل این مشکل، موفق به پیاده‌سازی الگوریتمی شده‌اند که به وسیله آن می‌توان از داده‌های حقیقی، داده‌های ساختگی مناسبی تولید کرد. این الگوریتم که SDV نامگذاری شده، از تکنیک‌های یادگیری ماشین برای تولید پایگاه داده جدید بر اساس پایگاه داده حقیقی که شامل اطلاعات خصوصی است بهره می‌گیرد. بدین ترتیب دانشمندان می‌توانند از اطلاعات جدید تولید شده به جای داده‌های حقیقی و خصوصی استفاده کنند.

پایگاه داده تولید شده به گونه‌ای خواهد بود که بدون افشای اطلاعات خصوصی موجود در پایگاه داده حقیقی، شامل الگوهای مهم موجود در آن می‌شود. در آزمایشات صورت گرفته، الگوریتم SDV تقریبا مشابه به داده‌های اولیه عمل کرده است، به طوری که نتایج حاصل نشان از دقت ۷۰ درصدی این الگوریتم می‌دهد، اما نکته مهمتر در مورد این الگوریتم، مخفی ماندن اطلاعات خصوصی موجود در پایگاه داده اصلی است.

اگرچه دقت ۷۰ درصدی در پیش‌بینی، دقت بالایی برای استفاده در علم واقعی نیست اما برای بسیاری از کاربردها از جمله تست مدل‌های پیشگویانه و آموزش دانشجویان مناسب خواهد بود. با این حال می‌توان پیش‌بینی کرد که با افزایش دقت این الگوریتم در آینده شاهد استفاده از داده‌های ساختگی در علم واقعی نیز باشیم.

پیام بگذارید