دیپفیک ویدیویی بدین معنا است که ما نمیتوانیم به هر آنچه که میبینیم، اعتماد کنیم. حال دیپفیک صوتی نیز بدین معنا است که دیگر گوشهای ما قابل اعتماد نیستند. چنین فناوریهایی باعث میشوند تا مشکلات بشر روزبهروز افزایش یابند. در قرن بیستم تنها نگرانی تکنولوژیک انسانها، به مسائلی همانند بمبهای اتمی و شیمیایی مربوط میشد، اما اکنون این دامنه گسترش یافته است.
در چند سال گذشته نگرانیهای مختلفی در مورد ماشینها و بیماریهای همهگیر به وجود آمده و حال نیز نوبت به دیپفیک صوتی رسیده است؛ چیزی که باعث میشود تا مردم اعتماد به صدای یکدیگر را نیز از دست بدهند.
دیپفیک صوتی چیست؟
به احتمال زیاد، ویدیوهای دیپفیک را مشاهده کردهاید. در این ویدیوها از الگوریتمهای یادگیری عمیق استفاده شده و بدین ترتیب رفتارهای دو نفر با یکدیگر جایگزین میشوند. در صدای دیپفیک یک صوت شبیهسازی شده غیرقابل تشخیص استفاده شده تا بدین ترتیب بتوان صدای مصنوعی فرد موردنظر را تولید کرد؛ دقیقا همانند فتوشاپ کردن صدا.
حداقل فتوشاپهای غیرحرفهای را میتوان تشخیص داد، اما در مورد دیپفیک صوتی فقط میتوان حدس زد، آن هم با میزان درستی 57 درصد! علاوه بر این، از آنجایی که بسیاری از ضبطهای صدا توسط میکروفن گوشیها انجام میپذیرد (یا در محیطهای پر سروصدا)، پس دیپفیک صوتی میتوانند بهتر کار خود را انجام دهد. حال سؤال اینجا است که چرا یک شخص باید به فتوشاپ کردن صدا بپردازد؟
توجیه تولید صدای مصنوعی
یکی از این موارد به صنعت بازیهای ویدیویی مربوط میشود. در گذشته امکان نداشت که صدا را به محض درخواست، ایجاد کرد. حتی در عناوین تعاملی که از گرافیک سینمایی نیز برخوردار هستند، ارتباطات کلامی با شخصیتهای غیرقابل بازی، چندان پویا به نظر نمیرسند.
حال با پیشرفت فناوری، استودیوهای بازیسازی نیز میتوانند صدای شخصیتها را شبیهسازی کرده و با استفاده از یک موتور تبدیل کننده متن به صوت، سخنان شخصیتهای درون بازیها را پویاتر نشان دهند. در واقع این فرایند در زمان واقعی رخ داده و از پیش تعیین و رندر نمیشود.
البته این فناوری استفادههایی نیز در تبلیغات، فناوری و خدمات پشتیبانی از مشتریان دارد. در اینجا نیز صدای یک انسان قابل اعتماد شبیهسازی شده و متون گفتار نیز توسط هوش مصنوعی تعیین و ادا میشوند. شرکتهای شبیهسازی صدا، در مورد کاربردهای پزشکی این فناوری نیز هیجانزده هستند. البته این موضوع چندان جدید نبوده و در واقع استیون هاوکینگ نیز از صدای مصنوعی استفاده میکرد. اما حال چنین مواردی میتوانند بهبود بیشتری را تجربه کنند.
در سال 2008، شرکت شبیهسازی صدای CereProc، صدای راجر ایبرت (Roger Ebert) را پس از سرطان گرفتن وی، شبیهسازی کرد. همچنین این شرکت وبسایتی را نیز ایجاد کرده بود که در آن مردم میتوانستند متنی را تایپ کرده و سپس این متن با صدای جورج بوش، بیان شود.
صدای شبیهسازی شده چگونه کار میکند؟
شبیهسازی صدا در حال حاضر از محبوبیت مناسبی برخوردار است. شرکتهایی همانند Resemble AI و Descript وبسایتهایی را دایر کردهاند که میتوانید در آنها بهصورت رایگان، صدای خود را شبیهسازی کنید. در این زمینه هوش مصنوعی و مخصوصا الگوریتمهای یادگیری عمیق هستند که میتوانند صدای ضبط شده را با متن مربوطه تطبیق داده و در نتیجه صدای شما را شبیهسازی کنند. در ادامه هوش مصنوعی از بلوکهای ساختاری زبان استفاده کرده تا بدین ترتیب بتواند تقریبی از کلماتی را که تا به حال از زبان شما نشنیده، به دست آورد.
متیو آیلت (Matthew Aylett)؛ مدیر ارشد علمی شرکت CereProc میگوید: “پایه این فناوری مدتها است که وجود دارد، اما تنها به مقداری کمک نیاز دارد. کپی کردن صدا همانند درست کردت شیرینی است. این کار کمی سخت بوده و همچنین راههای مختلفی نیز جهت انجام آن وجود دارند.”
توسعهدهندگان جهت کسب نتایج مورد قبول، به مقادیر زیادی از صداهای ضبط شده نیاز دارند. چند سال پیش، دانشمندان شبکههای GAN را توسعه دادند. بدین ترتیب برای اولین بار، امکان قیاس از دادههای موجود فراهم شد. آیلت میگوید: “به جای اینکه یک رایانه، تصویری را از یک اسب مشاهده کند و بگوید که این اسب است، مدل من اکنون میتواند یک اسب را به یک گورخر تبدیل کند. بنابراین پیشرفتهای شبیهسازی صدا، مدیون تلاشهای آکادمیک حوزه رایانه هستند.”
یکی از مهمترین پیشرفتها در زمینه شبیهسازی صدا، مربوط به کاهش حجم صدای اولیه موردنیاز است. در گذشته حجم بالایی از صدای شخص موردنیاز بود، اما اکنون تنها چند دقیقه کافی است.
ترس ناشی از بیاعتمادی به همهچیز
فناوریهایی همانند انرژی هستهای، فناوری نانو، چاپ سهبعدی و CRISPR، در عین هیجانانگیز بودن، ترسناک نیز هستند. در اخبار نیز مواردی به چشم میخورند که طی آنها، دیپفیک صوتی توانسته که مردم را فریب دهد.
در کانالهای یوتیوبی، میتوان ویدیوهایی از رؤسای جمهور پیشین آمریکا را مشاهده کرد که در آنها، این اشخاص مشغول خواندن یک آهنگ هستند. موسیقی و صداهای پسزمینه باعث میشوند تا حرکات رباتیک کمتر به چشم آیند، اما در هر صورت پتانسیل زیادی در این موضوع وجود دارد.
میتوان بهآسانی تصور کرد که این فناوری به مرور زمان بهتر خواهد شد. سیستمهای صدای دیپفیک به ورودیهای کمتری احتیاج خواهند داشت و همچنین پردازشهای سریعتر نیز میتوانند شبیهسازی را در آن واحد انجام دهند. به مرور هوش مصنوعی بهتر نیز میتواند لحن و ریتم صدای اشخاص را بهتر شبیهسازی کند.
مسائل اخلاقی مرتبط با دیپفیک صوتی
اکثر شرکتهای فعال در این زمینه سعی دارند تا این فناوری را به جهت ایمن و درستی راهنمایی کنند. مثلا شرکت Resemble AI، یک بیانیه اخلاقی را در وبسایت خود قرار داده که در زیر به گزیدهای از آن اشاره میکنیم:
“ما نسبت به شرکتهای مختلف، سختگیریهایی را اعمال کرده و مطمئن میشویم که صدای شبیهسازی شده توسط آنها استفاده شده و همچنین رضایت کامل صدا پیشهها را نیز جلب کردهاند.”
کاندان کومار (Kundan Kumar)؛ بنیانگذار Lyrebird (که اکنون بخشی از Descript است)، میگوید که Lyrebird از ابتدا نسبت به سوءاستفاده حساس بوده و به همین دلیل است که اکنون Descript به مردم اجازه میدهد که فقط صدای خود را شبیهسازی کنند.
خوب است که میشنویم بازیگران مطرح این صنعت، به موازین اخلاقی پایبند هستند. اما در هر صورت ابزارهای دیپفیک صوتی دیگری نیز وجود دارند که چنین رویهای را در پیش نگرفته و حتی جهت سوءاستفاده از آنها، به دانش کدنویسی نیز نیازی ندارید.
متخصصان امنیت، پیشتر نیز با چنین مواردی مواجه شدهاند
پیش از اینکه دیپفیک صوتی قابل استفاده باشد، کلاهبرداران همیشه سعی کردهاند که بهصورت تلفنی، نسبت به سرقت پول اقدام کنند، اما متخصصان امنیت در اینگونه مواقع نیز حاضر بودهاند. شرکتهایی همانند Pindrop به این کار مشغول بوده و طبق ادعاهای این شرکت، آنها 1.2 میلیارد مکالمه صوتی را تحلیل کرده و توانستهاند که از سرقت 470 میلیون دلار پول، جلوگیری کنند.
پیش از دیپفیک صوتی، کلاهبرداران از مکانی دیگر تماس میگرفتند و با ارائه اطلاعات شخصی هدف خود، سعی میکردند که وجوه وی را انتقال دهند. ویجی بالاسوبرامانیان (Vijay Balasubramaniyan)؛ مدیرعامل Pindrop، میگوید: امضای صوتی به ما اجازه میدهد که ویژگیهای صوتی را تشخیص داده و بدین ترتیب بفهمیم که تماس موردنظر از نیجریه و با استفاده از اسکایپ صورت گرفته است. در حالی که میدانیم مشتری واقعی از گوشی AT&T استفاده کرده و از آتلانتا نیز تماس میگیرد. گاهی اوقات با کلاهبردارهایی مواجه میشویم که صدای جوجه و یا گریه کودک را در پسزمینه تماسهای خود استفاده میکنند تا بدین ترتیب بتوانند کارمندان ما را فریب دهند. حتی مواردی نیز داشتهایم که در آنها مردها سعی کردهاند تا با استفاده از ابزارهای شبیهسازی، فرکانس صدای خود را افزایش داده و بدین ترتیب صدای خود را زنانه جلوه دهند. اما گاهی اوقات نرمافزار مورد استفاده آنها خوب کار نکرده و صدایی شبیه به شخصیتهای کارتونی تولید میکند.”
آیا کسی میتواند دیپفیک صوتی را تشخیص دهد؟
اگر پس از گوش دادن به صدای یک شخص، به سختی بتوانیم مصنوعی بودن آن را متوجه شویم، آنگاه این موضوع میتواند حاوی خبرهای خوب و بدی برای ما باشد. خبر خوب این است که هوش مصنوعی و سیستمهای یادگیری عمیق در حال تکامل بوده و جهت تولید صدایی واقعی، به ورودیهای کمتری احتیاج دارند. خبر بد هم این است که تشخیص موارد تقلبی و همچنین کلاهبرداریها نیز مشکلتر میشود.
هر چقدر طول یک فایل کمتر باشد و در محیطهای شلوغتری نیز ضبط شده باشد، آنگاه تشخیص دیپفیک بودن آن نیز سختتر خواهد شد. نکتهای که در این بین وجود دارد، این است که اگر انسانها قادر به تشخیص صدای تقلبی نباشند، در هر صورت کامپیوترها قادر به انجام این کار خواهند بود. خوشبختانه ابزارهای تصدیق هماکنون نیز وجود دارند. شرکت Pindrop ابزاری را استفاده میکند که حتی اگر تمامی صداهای فایل مورد بررسی نیز توسط شخص واقعی ضبط شده باشند، بازهم بتواند مصنوعی بودن صدای شبیهسازی شده را تشخیص دهد.
بسته به کیفیت صدا، هر ثانیه از مکالمه میتواند بین 8000 الی 50000 نمونه داده جهت تحلیل را در بر داشته باشد. بالاسوبرامانیان میگوید: “چیزی که ما به دنبال آن هستیم، محدودیتهای گفتاری ناشی از تکامل انسانها هستند. بهعنوان مثال، دو صدای آواز، حداقل تفاوتهایی را با یکدیگر دارند، زیرا به دلیل محدودیتهای فیزیکی، نمیتوان برخی از عبارات را از حدی سریعتر بیان کرد. مثلا با شنیدن برخی از صداهای ترکیبی، میگوییم که امکان ندارد این صدا متعلق به یک انسان باشد، زیرا برای ادای آن، فرد باید یک گردن 7 فوتی داشته باشد.”
برخی صداها نیز وجود دارند که سایشی نامیده میشود (حروفی همانند F ،S ،V و Z). سیستمهای یادگیری عمیق بهسختی میتوانند این صداها را از نویزها تمایز دهند. الگوریتمهای هوش مصنوعی بهسختی میتوانند پایان کلمات را از نویز پسزمینه تمایز دهند، بنابراین محو شدن کلمات در چنین مدلهایی، بیش از گفتار واقعی انسانها رخ میدهد. به همین دلیل رایانهها آسانتر میتوانند مصنوعی بودن صدا را تشخیص دهند.
مقابله با دیپفیک، هوشیاری میطلبد
پیشبینی دقیق آینده دیپفیک صوتی، دشوار است. اما میتوان گفت که ما در آستانه کلاهبرداریهای صوتی قرار داریم، هر چند که خطر وقوع چنین مواردی در حال حاضر پایین بوده و ابزارهای تشخیصی نیز میتوانند کار خود را بهخوبی انجام دهند.
هنری آجِر (Henry Ajder)؛ مدیر بخش تهدید اطلاعاتی در Deeptrace، میگوید: “اگر مردم ابزارهای دیپفیک صوتی متن-باز را به یکدیگر متصل کرده و سپس آنها را در قالب اپلیکیشن و یا سرویسهای کاربرپسند (و بدون تعهدات اخلاقی) عرضه کنند، آنگاه مشکلات متعددی در این زمینه به وجود خواهند آمد.”
بدین ترتیب، حیاتی است که شرکتهای امنیتی خود را در برابر چنین تهدیدهایی مقاوم کرده و بهعنوان مثال بتوانند آسیبپذیری روز-صفر بعدی را بهتر درک کنند که طبیعتا دیپفیک صوتی کاندیدای اصلی این موضوع خواهد بود.