یکی از نکات جالب در مورد عصر حاضر این است که تقریبا در مورد همه چیز میتوان دادههای مناسبی پیدا کرد. این دادهها ابزار بسیار مناسبی برای کشف دانش و یافتههای تازه هستند. مثلا به کمک دادههای مربوط به هواشناسی میتوان در مورد آینده زمین پیشبینیهای مناسبی انجام داد. همچنین از دادههای مکانی میتوان برای مسیریابی استفاده کرد. با این حال یک مشکل عمده در مورد دسترسی به این دادهها وجود دارد و آن حفظ حریم خصوصی افراد است.
بسیاری از افراد در مقابل افشای اطلاعات شخصی خود برای کارهای تحقیقاتی حساس بوده و علاقهای به در اختیار گذاشتن دادههای خود نزد محققان ندارند. این در حالی است که پژوهشگران فعال در زمینه علم دادهها بدون دسترسی به دادههای کافی قادر به کشف الگوهای نهان و با ارزش نخواهند بود. در حقیقت حفظ حریم خصوصی افراد سد بزرگی برای پیشرفت علم دادهها محسوب میشود.
با این حال محققان دانشگاه MIT برای حل این مشکل، موفق به پیادهسازی الگوریتمی شدهاند که به وسیله آن میتوان از دادههای حقیقی، دادههای ساختگی مناسبی تولید کرد. این الگوریتم که SDV نامگذاری شده، از تکنیکهای یادگیری ماشین برای تولید پایگاه داده جدید بر اساس پایگاه داده حقیقی که شامل اطلاعات خصوصی است بهره میگیرد. بدین ترتیب دانشمندان میتوانند از اطلاعات جدید تولید شده به جای دادههای حقیقی و خصوصی استفاده کنند.
پایگاه داده تولید شده به گونهای خواهد بود که بدون افشای اطلاعات خصوصی موجود در پایگاه داده حقیقی، شامل الگوهای مهم موجود در آن میشود. در آزمایشات صورت گرفته، الگوریتم SDV تقریبا مشابه به دادههای اولیه عمل کرده است، به طوری که نتایج حاصل نشان از دقت ۷۰ درصدی این الگوریتم میدهد، اما نکته مهمتر در مورد این الگوریتم، مخفی ماندن اطلاعات خصوصی موجود در پایگاه داده اصلی است.
اگرچه دقت ۷۰ درصدی در پیشبینی، دقت بالایی برای استفاده در علم واقعی نیست اما برای بسیاری از کاربردها از جمله تست مدلهای پیشگویانه و آموزش دانشجویان مناسب خواهد بود. با این حال میتوان پیشبینی کرد که با افزایش دقت این الگوریتم در آینده شاهد استفاده از دادههای ساختگی در علم واقعی نیز باشیم.