رقابت هوش مصنوعی دیگر فقط روی متن و تصویر نمی چرخد؛ صدا حالا به میدان اصلی تبدیل شده است. شیائومی هم درست از همین نقطه وارد شده و با معرفی مدل جدید OmniVoice نشان داده که برای آینده فناوری گفتار، برنامه ای بسیار جدی دارد. این مدل متن به گفتار که توسط تیم نسل جدید Kaldi در آزمایشگاه هوش مصنوعی شیائومی توسعه یافته، به صورت متن باز منتشر شده و هدفش روشن است: تولید صدایی طبیعی، قابل شخصی سازی و قابل استفاده در صدها زبان.
اعلام رسمی این پروژه از طریق حساب وی چت شیائومی انجام شد؛ جایی که شرکت مدعی شد OmniVoice نه فقط در سناریوهای چینی و انگلیسی عملکرد قابل توجهی دارد، بلکه در برخی آزمون های چندزبانه حتی از سیستم های تجاری موجود هم جلو زده است. ادعای بزرگی است، اما جزئیاتی که شیائومی منتشر کرده، این مدل را به یکی از خبرهای مهم این روزهای دنیای TTS تبدیل می کند.
وقتی زبان های کم داده هم نادیده گرفته نمی شوند
نقطه قوتی که بیش از همه جلب توجه می کند، پشتیبانی OmniVoice از زبان های کم منبع است؛ همان زبان هایی که معمولا به دلیل کمبود داده آموزشی، سهم ناچیزی از پیشرفت های هوش مصنوعی دارند. شیائومی می گوید این مدل می تواند تقریبا به هر زبانی که تصورش را بکنید صدا تولید کند، حتی اگر داده های آنلاین آن زبان بسیار محدود باشد.
بر اساس اطلاعات منتشرشده، OmniVoice به عنوان نخستین مدل کلون سازی صدای متن به گفتار معرفی شده که پوششی در حد صدها زبان ارائه می دهد. در آزمون های چندزبانه، این مدل در 24 زبان از چند سیستم تجاری از نظر شباهت صدا و میزان وضوح گفتار بهتر عمل کرده؛ آن هم در شرایطی که آموزش آن فقط با دیتاست های متن باز انجام شده است. شیائومی همچنین می گوید در ارزیابی 102 زبان، میزان قابل فهم بودن خروجی OmniVoice به گفتار واقعی انسان نزدیک بوده و در بعضی موارد حتی از آن هم بهتر ظاهر شده است.
اهمیت ماجرا فقط در اعداد نیست. اگر این ادعاها در استفاده واقعی هم دوام بیاورند، OmniVoice می تواند برای زبان های محلی، گویش های کم شنیده شده و بازارهایی که تاکنون از فناوری گفتار باکیفیت محروم بوده اند، یک تغییر جدی ایجاد کند. جایی که کمتر از 10 ساعت داده آموزشی وجود دارد و با این حال هنوز امکان رسیدن به خروجی باکیفیت فراهم می شود، یعنی معادله قدیمی توسعه TTS در حال عوض شدن است.
معماری ساده تر، سرعت بیشتر، دردسر کمتر
بخش جالب دیگر داستان، طراحی فنی مدل است. بسیاری از سیستم های مدرن تبدیل متن به گفتار به چندین ماژول، لایه های پیش بینی مختلف و ساختارهای ترکیبی پیچیده متکی هستند. شیائومی می گوید OmniVoice این مسیر شلوغ را کنار گذاشته و با یک شبکه Transformer دوطرفه، متن را مستقیما به گفتار تبدیل می کند. نتیجه چه می شود؟ ساختاری ساده تر که هم توسعه را آسان تر می کند و هم از نظر سرعت مزیت دارد.
طبق ادعای شرکت، این مدل می تواند آموزش روی 100 هزار ساعت داده را تنها در یک روز کامل کند. در مرحله اجرا هم سرعتی تا 40 برابر زمان واقعی با استفاده از PyTorch ثبت شده است. این عددها برای محصولاتی که باید در اپلیکیشن ها، سرویس های مصرف کننده یا دستیارهای صوتی اجرا شوند، اهمیت بالایی دارند. سرعت بالا فقط یک ویژگی لوکس نیست؛ گاهی همان چیزی است که یک فناوری را از آزمایشگاه به بازار می رساند.
شیائومی دو انتخاب طراحی را عامل اصلی این بهبود می داند. نخست، استفاده از راهبردی با عنوان full codebook random masking که به گفته شرکت، هم بازده آموزش را بهتر کرده و هم توان کلی مدل را بالا برده است. دوم، بهره گیری از یک مدل زبانی بزرگ در مرحله پیش آموزش. شیائومی تاکید می کند این نخستین باری است که یک مدل زبانی بزرگ به شکلی موثر در یک سامانه TTS غیرخودرگرسیو به کار گرفته شده تا دقت تلفظ و وضوح گفتار بهتر شود. اگر این ادغام در عمل هم به همین اندازه موفق باشد، می تواند روی طراحی نسل بعدی موتورهای گفتار اثر بگذارد.
اما OmniVoice فقط یک پروژه تحقیقاتی خشک و دانشگاهی نیست. شیائومی مجموعه ای از قابلیت های کاربردی را هم در دل آن قرار داده که دقیقا به درد سناریوهای واقعی می خورند. مثلا کاربر می تواند صدایی سفارشی بسازد؛ تنها با توصیف ویژگی هایی مثل سن، جنسیت، زیر و بمی صدا، لهجه، گویش یا سبک بیان. حتی تولید صدای پچ پچ یا حالت های ویژه گفتاری هم ممکن است، آن هم بدون نیاز به فایل مرجع.
این بخش دقیقا همان جایی است که ماجرا برای تولیدکنندگان محتوا، توسعه دهندگان اپلیکیشن، بازی سازها و حتی کسب و کارهای خدماتی جذاب می شود. تصور کنید بدون استودیو، بدون دوبلور حرفه ای و فقط با چند دستور توصیفی، صدایی بسازید که به لحن برند یا شخصیت دیجیتال شما نزدیک باشد. این همان جهتی است که صنعت صدا به سمتش حرکت می کند.
یک قابلیت مهم دیگر هم به درد شرایط نه چندان ایده آل می خورد. شیائومی می گوید OmniVoice می تواند نویز پس زمینه را از فایل های مرجع حذف کند و ویژگی های صوتی واضح تری بیرون بکشد. این یعنی اگر نمونه اولیه صدا در محیطی شلوغ یا با کیفیت ضعیف ضبط شده باشد، باز هم امکان شبیه سازی صدای بهتر وجود دارد. برای کاربردهای روزمره، این ویژگی کمتر از یک برگ برنده نیست.
مدل جدید شیائومی از گفتار بیانی هم پشتیبانی می کند؛ یعنی فقط کلمات را پشت سر هم نمی خواند، بلکه می تواند با کنترل آهنگ صدا، حس بیشتری به خروجی بدهد. افکت هایی مثل خنده یا آه کشیدن هم در آن دیده می شود تا صدا طبیعی تر و مکالمه ای تر به گوش برسد. این همان شکافی است که سال ها بین صدای ماشینی و صدای انسانی وجود داشت.
در کنار همه این ها، OmniVoice ابزارهایی برای اصلاح دستی تلفظ هم ارائه می کند؛ قابلیتی که برای واژه های سخت، اسامی خاص انگلیسی یا نویسه های چندآوایی زبان چینی اهمیت زیادی دارد. در دنیای واقعی، اشتباه در تلفظ فقط یک ایراد فنی ساده نیست؛ گاهی مستقیما به تجربه کاربر، اعتبار برند یا کارآمدی یک سرویس آسیب می زند. از این زاویه، دقت تلفظ در OmniVoice فقط یک مزیت جانبی نیست، بلکه بخشی از ارزش اصلی آن به حساب می آید.
متن باز شدن OmniVoice می تواند پیام بزرگ تری هم برای بازار داشته باشد. شیائومی فقط یک مدل منتشر نکرده؛ در واقع وارد میدان رقابتی شده که بازیگرانش از غول های ابری گرفته تا استارتاپ های تخصصی صدا در آن حضور دارند. وقتی یک شرکت سخت افزاری و مصرف کننده محور، چنین مدل قدرتمندی را عمومی می کند، معنایش این است که آینده گوشی ها، دستگاه های هوشمند، خودروهای متصل و سرویس های دیجیتال بیش از قبل با صدا گره خواهد خورد.
حالا سوال مهم این است: آیا OmniVoice می تواند فراتر از نمایش های فنی، در محصولات واقعی هم همان قدر درخشان باشد؟ پاسخ این پرسش را زمان مشخص می کند. اما فعلا یک چیز روشن است؛ شیائومی با این پروژه فقط وارد بازی نشده، بلکه آمده تا قواعد آن را کمی جابه جا کند.




