دیپ‌فیک صوتی چیست و آیا تهدیدی برای جوامع بشری به حساب می‌آید؟

دیپ‌فیک ویدیویی بدین معنا است که ما نمی‌توانیم به هر آنچه که می‌بینیم، اعتماد کنیم. حال دیپ‌فیک صوتی نیز بدین معنا است که دیگر گوش‌های ما قابل اعتماد نیستند. چنین فناوری‌هایی باعث می‌شوند تا مشکلات بشر روزبه‌روز افزایش یابند. در قرن بیستم تنها نگرانی تکنولوژیک انسان‌ها، به مسائلی همانند بمب‌های اتمی و شیمیایی مربوط می‌شد، اما اکنون این دامنه گسترش یافته است.

در چند سال گذشته نگرانی‌های مختلفی در مورد ماشین‌ها و بیماری‌های همه‌گیر به وجود آمده و حال نیز نوبت به دیپ‌فیک صوتی رسیده است؛ چیزی که باعث می‌شود تا مردم اعتماد به صدای یکدیگر را نیز از دست بدهند.

دیپ‌فیک صوتی چیست؟

به احتمال زیاد، ویدیوهای دیپ‌فیک را مشاهده کرده‌اید. در این ویدیوها از الگوریتم‌های یادگیری عمیق استفاده شده و بدین ترتیب رفتارهای دو نفر با یکدیگر جایگزین می‌شوند. در صدای دیپ‌فیک یک صوت شبیه‌سازی شده غیرقابل تشخیص استفاده شده تا بدین ترتیب بتوان صدای مصنوعی فرد موردنظر را تولید کرد؛ دقیقا همانند فتوشاپ کردن صدا.

حداقل فتوشاپ‌های غیرحرفه‌ای را می‌توان تشخیص داد، اما در مورد دیپ‌فیک صوتی فقط می‌توان حدس زد، آن هم با میزان درستی 57 درصد! علاوه بر این، از آنجایی که بسیاری از ضبط‌های صدا توسط میکروفن گوشی‌ها انجام می‌پذیرد (یا در محیط‌های پر سروصدا)، پس دیپ‌فیک صوتی می‌توانند بهتر کار خود را انجام دهد. حال سؤال اینجا است که چرا یک شخص باید به فتوشاپ کردن صدا بپردازد؟

توجیه تولید صدای مصنوعی

یکی از این موارد به صنعت بازی‌های ویدیویی مربوط می‌شود. در گذشته امکان نداشت که صدا را به محض درخواست، ایجاد کرد. حتی در عناوین تعاملی که از گرافیک سینمایی نیز برخوردار هستند، ارتباطات کلامی با شخصیت‌های غیرقابل بازی، چندان پویا به نظر نمی‌رسند.

حال با پیشرفت فناوری، استودیوهای بازی‌سازی نیز می‌توانند صدای شخصیت‌ها را شبیه‌سازی کرده و با استفاده از یک موتور تبدیل کننده متن به صوت، سخنان شخصیت‌های درون بازی‌ها را پویاتر نشان دهند. در واقع این فرایند در زمان واقعی رخ داده و از پیش تعیین و رندر نمی‌شود.

البته این فناوری استفاده‌هایی نیز در تبلیغات، فناوری و خدمات پشتیبانی از مشتریان دارد. در اینجا نیز صدای یک انسان قابل اعتماد شبیه‌سازی شده و متون گفتار نیز توسط هوش مصنوعی تعیین و ادا می‌شوند. شرکت‌های شبیه‌سازی صدا، در مورد کاربردهای پزشکی این فناوری نیز هیجان‌زده هستند. البته این موضوع چندان جدید نبوده و در واقع استیون هاوکینگ نیز از صدای مصنوعی استفاده می‌کرد. اما حال چنین مواردی می‌توانند بهبود بیشتری را تجربه کنند.

‌در سال 2008، شرکت شبیه‌سازی صدای CereProc، صدای راجر ایبرت (Roger Ebert) را پس از سرطان گرفتن وی، شبیه‌سازی کرد. همچنین این شرکت وب‌سایتی را نیز ایجاد کرده بود که در آن مردم می‌توانستند متنی را تایپ کرده و سپس این متن با صدای جورج بوش، بیان شود.

صدای شبیه‌سازی شده چگونه کار می‌کند؟

شبیه‌سازی صدا در حال حاضر از محبوبیت مناسبی برخوردار است. شرکت‌هایی همانند Resemble AI و Descript وب‌سایت‌هایی را دایر کرده‌اند که می‌توانید در آن‌ها به‌صورت رایگان، صدای خود را شبیه‌سازی کنید. در این زمینه هوش مصنوعی و مخصوصا الگوریتم‌های یادگیری عمیق هستند که می‌توانند صدای ضبط شده را با متن مربوطه تطبیق داده و در نتیجه صدای شما را شبیه‌سازی کنند. در ادامه هوش مصنوعی از بلوک‌های ساختاری زبان استفاده کرده تا بدین ترتیب بتواند تقریبی از کلماتی را که تا به حال از زبان شما نشنیده، به دست آورد.

متیو آیلت (Matthew Aylett)؛ مدیر ارشد علمی شرکت CereProc می‌گوید: “پایه این فناوری مدت‌ها است که وجود دارد، اما تنها به مقداری کمک نیاز دارد. کپی کردن صدا همانند درست کردت شیرینی است. این کار کمی سخت بوده و همچنین راه‌های مختلفی نیز جهت انجام آن وجود دارند.”

توسعه‌دهندگان جهت کسب نتایج مورد قبول، به مقادیر زیادی از صداهای ضبط شده نیاز دارند. چند سال پیش، دانشمندان شبکه‌های GAN را توسعه ‌دادند. بدین ترتیب برای اولین بار، امکان قیاس از داده‌های موجود فراهم شد. آیلت می‌گوید: “به جای اینکه یک رایانه، تصویری را از یک اسب مشاهده کند و بگوید که این اسب است، مدل من اکنون می‌تواند یک اسب را به یک گورخر تبدیل کند. بنابراین پیشرفت‌های شبیه‌سازی صدا، مدیون تلاش‌های آکادمیک حوزه رایانه هستند.”

یکی از مهم‌ترین پیشرفت‌ها در زمینه شبیه‌سازی صدا، مربوط به کاهش حجم صدای اولیه موردنیاز است. در گذشته حجم بالایی از صدای شخص موردنیاز بود، اما اکنون تنها چند دقیقه کافی است.

ترس ناشی از بی‌اعتمادی به همه‌چیز

فناوری‌هایی همانند انرژی هسته‌ای، فناوری نانو، چاپ سه‌بعدی و CRISPR، در عین هیجان‌انگیز بودن، ترسناک نیز هستند. در اخبار نیز مواردی به چشم می‌خورند که طی آن‌ها، دیپ‌فیک صوتی توانسته که مردم را فریب دهد.

در کانال‌های یوتیوبی، می‌توان ویدیوهایی از رؤسای جمهور پیشین آمریکا را مشاهده کرد که در آن‌ها، این اشخاص مشغول خواندن یک آهنگ هستند. موسیقی و صداهای پس‌زمینه باعث می‌شوند تا حرکات رباتیک کمتر به چشم آیند، اما در هر صورت پتانسیل زیادی در این موضوع وجود دارد.

می‌توان به‌آسانی تصور کرد که این فناوری به مرور زمان بهتر خواهد شد. سیستم‌های صدای دیپ‌فیک به ورودی‌های کمتری احتیاج خواهند داشت و همچنین پردازش‌های سریع‌تر نیز می‌توانند شبیه‌سازی را در آن واحد انجام دهند. به مرور هوش مصنوعی بهتر نیز می‌تواند لحن و ریتم صدای اشخاص را بهتر شبیه‌سازی کند.

مسائل اخلاقی مرتبط با دیپ‌فیک صوتی

اکثر شرکت‌های فعال در این زمینه سعی دارند تا این فناوری را به جهت ایمن و درستی راهنمایی کنند. مثلا شرکت Resemble AI، یک بیانیه اخلاقی را در وب‌سایت خود قرار داده که در زیر به گزیده‌ای از آن اشاره می‌کنیم:

“ما نسبت به شرکت‌های مختلف، سختگیری‌هایی را اعمال کرده و مطمئن می‌شویم که صدای شبیه‌سازی شده توسط آن‌ها استفاده شده و همچنین رضایت کامل صدا پیشه‌ها را نیز جلب کرده‌اند.”

کاندان کومار (Kundan Kumar)؛ بنیان‌گذار Lyrebird (که اکنون بخشی از Descript است)، می‌گوید که Lyrebird از ابتدا نسبت به سوءاستفاده حساس بوده و به همین دلیل است که اکنون Descript به مردم اجازه می‌دهد که فقط صدای خود را شبیه‌سازی کنند.

خوب است که می‌شنویم بازیگران مطرح این صنعت، به موازین اخلاقی پایبند هستند. اما در هر صورت ابزارهای دیپ‌فیک صوتی دیگری نیز وجود دارند که چنین رویه‌ای را در پیش نگرفته و حتی جهت سوءاستفاده از آن‌ها، به دانش کدنویسی نیز نیازی ندارید.

متخصصان امنیت، پیش‌تر نیز با چنین مواردی مواجه شده‌اند

پیش‌ از اینکه دیپ‌فیک صوتی قابل استفاده باشد، کلاهبرداران همیشه سعی کرده‌اند که به‌صورت تلفنی، نسبت به سرقت پول اقدام کنند، اما متخصصان امنیت در این‌گونه مواقع نیز حاضر بوده‌اند. شرکت‌هایی همانند Pindrop به این کار مشغول بوده و طبق ادعاهای این شرکت، آن‌ها 1.2 میلیارد مکالمه صوتی را تحلیل کرده و توانسته‌اند که از سرقت 470 میلیون دلار پول، جلوگیری کنند.

پیش از دیپ‌فیک صوتی، کلاهبرداران از مکانی دیگر تماس می‌گرفتند و با ارائه اطلاعات شخصی هدف خود، سعی می‌کردند که وجوه وی را انتقال دهند. ویجی بالاسوبرامانیان (Vijay Balasubramaniyan)؛ مدیرعامل Pindrop، می‌گوید: امضای صوتی به ما اجازه می‌دهد که ویژگی‌های صوتی را تشخیص داده و بدین ترتیب بفهمیم که تماس موردنظر از نیجریه و با استفاده از اسکایپ صورت گرفته است. در حالی که می‌دانیم مشتری واقعی از گوشی AT&T استفاده کرده و از آتلانتا نیز تماس می‌گیرد. گاهی اوقات با کلاهبردارهایی مواجه می‌شویم که صدای جوجه و یا گریه کودک را در پس‌زمینه تماس‌های خود استفاده می‌کنند تا بدین ترتیب بتوانند کارمندان ما را فریب دهند. حتی مواردی نیز داشته‌ایم که در آن‌ها مردها سعی کرده‌اند تا با استفاده از ابزارهای شبیه‌سازی، فرکانس صدای خود را افزایش داده و بدین ترتیب صدای خود را زنانه جلوه دهند. اما گاهی اوقات نرم‌افزار مورد استفاده آن‌ها خوب کار نکرده و صدایی شبیه به شخصیت‌های کارتونی تولید می‌کند.”

آیا کسی می‌تواند دیپ‌فیک صوتی را تشخیص دهد؟

اگر پس از گوش دادن به صدای یک شخص، به سختی بتوانیم مصنوعی بودن آن را متوجه شویم، آنگاه این موضوع می‌تواند حاوی خبرهای خوب و بدی برای ما باشد. خبر خوب این است که هوش مصنوعی و سیستم‌های یادگیری عمیق در حال تکامل بوده و جهت تولید صدایی واقعی، به ورودی‌های کمتری احتیاج دارند. خبر بد هم این است که تشخیص موارد تقلبی و همچنین کلاهبرداری‌ها نیز مشکل‌تر می‌شود.

هر چقدر طول یک فایل کمتر باشد و در محیط‌های شلوغ‌تری نیز ضبط شده باشد، آنگاه تشخیص دیپ‌فیک بودن آن نیز سخت‌تر خواهد شد. نکته‌ای که در این بین وجود دارد، این است که اگر انسان‌ها قادر به تشخیص صدای تقلبی نباشند، در هر صورت کامپیوترها قادر به انجام این کار خواهند بود. خوشبختانه ابزارهای تصدیق هم‌اکنون نیز وجود دارند. شرکت Pindrop ابزاری را استفاده می‌کند که حتی اگر تمامی صداهای فایل مورد بررسی نیز توسط شخص واقعی ضبط شده باشند، بازهم بتواند مصنوعی بودن صدای شبیه‌سازی شده را تشخیص دهد.

بسته به کیفیت صدا، هر ثانیه از مکالمه می‌تواند بین 8000 الی 50000 نمونه داده جهت تحلیل را در بر داشته باشد. بالاسوبرامانیان می‌گوید: “چیزی که ما به دنبال آن هستیم، محدودیت‌های گفتاری ناشی از تکامل انسان‌ها هستند. به‌عنوان مثال، دو صدای آواز، حداقل تفاوت‌هایی را با یکدیگر دارند، زیرا به دلیل محدودیت‌های فیزیکی، نمی‌توان برخی از عبارات را از حدی سریع‌تر بیان کرد. مثلا با شنیدن برخی از صداهای ترکیبی، می‌گوییم که امکان ندارد این صدا متعلق به یک انسان باشد، زیرا برای ادای آن، فرد باید یک گردن 7 فوتی داشته باشد.”

برخی صداها نیز وجود دارند که سایشی نامیده می‌شود (حروفی همانند F ،S ،V و Z). سیستم‌های یادگیری عمیق به‌سختی می‌توانند این صداها را از نویزها تمایز دهند. الگوریتم‌های هوش مصنوعی به‌سختی می‌توانند پایان کلمات را از نویز پس‌زمینه تمایز دهند، بنابراین محو شدن کلمات در چنین مدل‌هایی، بیش از گفتار واقعی انسان‌ها رخ می‌دهد. به همین دلیل رایانه‌ها آسان‌تر می‌توانند مصنوعی بودن صدا را تشخیص دهند.

مقابله با دیپ‌‎فیک، هوشیاری می‌طلبد

پیش‌بینی دقیق آینده دیپ‌فیک صوتی، دشوار است. اما می‌توان گفت که ما در آستانه کلاهبرداری‌های صوتی قرار داریم، هر چند که خطر وقوع چنین مواردی در حال حاضر پایین بوده و ابزارهای تشخیصی نیز می‌توانند کار خود را به‌خوبی انجام دهند.

هنری آجِر (Henry Ajder)؛ مدیر بخش تهدید اطلاعاتی در Deeptrace، می‌گوید: “اگر مردم ابزارهای دیپ‌فیک صوتی متن-باز را به یکدیگر متصل کرده و سپس آن‌ها را در قالب اپلیکیشن و یا سرویس‌های کاربرپسند (و بدون تعهدات اخلاقی) عرضه کنند، آنگاه مشکلات متعددی در این زمینه به وجود خواهند آمد.”

بدین ترتیب، حیاتی است که شرکت‌های امنیتی خود را در برابر چنین تهدیدهایی مقاوم کرده و به‌عنوان مثال بتوانند آسیب‌پذیری روز-صفر بعدی را بهتر درک کنند که طبیعتا دیپ‌فیک صوتی کاندیدای اصلی این موضوع خواهد بود.