در تحولی که ممکن است چشمانداز مدلهای زبانی بزرگ (LLM) را تغییر دهد، شرکت فناوری چینی شیائومی به تازگی و با کمترین هیاهو، از اولین مدل هوش مصنوعی متنباز خود برای عموم پرده برداشته است. این مدل جدید که با نام MiMo-7B معرفی شده، نشاندهنده ورود جدی شیائومی به عرصهای است که پیش از این تحت سلطه بازیگران قدیمیتر بوده است.
MiMo-7B نتیجه تلاشهای تیم تازهتأسیس “Big Model Core Team” در داخل شیائومی است. تمرکز اصلی توسعه این مدل، بر تقویت تواناییهای هوش مصنوعی در انجام وظایف پیچیدهای قرار دارد که نیازمند استدلال عمیق و منطقی هستند. شیائومی با اطمینان ادعا میکند که مدل جدید آنها در زمینههایی مانند استدلال ریاضی و خلق کد، عملکردی بهتر از برخی مدلهای توسعهیافته توسط شرکتهای پیشرو مانند OpenAI و علیبابا ارائه میدهد.
این مدل هفت میلیارد پارامتر دارد که در مقایسه با بسیاری از مدلهای زبانی بزرگ پیشرفته، نسبتاً کوچک به حساب میآید. با این حال، شیائومی مطرح میکند که MiMo-7B با وجود اندازه متواضع خود، توانایی رقابت شانه به شانه با مدلهای به مراتب بزرگتر و با قابلیت استدلال مشابه را دارد. از جمله مدلهایی که شیائومی MiMo-7B را با آنها مقایسه میکند، میتوان به o1-mini از OpenAI و Qwen-32B-Preview از علیبابا اشاره کرد که همگی به قابلیتهای استدلالی خود معروف هستند.
برای دستیابی به این سطح از عملکرد، شیائومی یک مجموعه داده آموزشی بسیار غنی و متراکم ایجاد کرده است. این مجموعه شامل ۲۰۰ میلیارد توکن استدلالی خالص است و مدل در مجموع بر روی ۲۵ تریلیون توکن در سه مرحله آموزشی متمایز تعلیم دیده است. این حجم عظیم داده، به مدل کمک کرده تا تواناییهای استدلالی خود را به شکل چشمگیری تقویت کند.
یکی از نوآوریهای جالب در رویکرد آموزشی شیائومی، استفاده از هدف پیشبینی چندتوکنی به جای روش استاندارد پیشبینی توکن بعدی است. شیائومی معتقد است که این تغییر در متدولوژی، به کاهش قابل توجه زمان لازم برای پردازش و تولید پاسخ توسط مدل (زمان استنتاج) منجر میشود، بدون آنکه کیفیت یا دقت خروجی کاهش یابد.
پس از مرحله پیشآموزش اولیه، مدل تحت یک فرآیند پسآموزش شامل ترکیبی از یادگیری تقویتی (Reinforcement Learning – RL) و بهینهسازیهای زیرساختی قرار گرفته است. شیائومی از الگوریتم سفارشی RL خود به نام “Test Difficulty Driven Reward” برای بهبود عملکرد مدل در وظایف پیچیده استفاده کرده و روش “Easy Data Re-Sampling” را نیز برای تضمین پایداری و انسجام فرآیند آموزش پیادهسازی نموده است.
علاوه بر نوآوری در الگوریتمها، شیائومی بهبودهای زیرساختی قابل توجهی نیز اعمال کرده است. سیستم “Seamless Rollout” توسط این شرکت طراحی شده تا زمان بیکاری واحدهای پردازش گرافیکی (GPU) را در طول فرآیندهای آموزش و اعتبارسنجی به حداقل برساند. شیائومی ادعا میکند که این سیستم منجر به بهبود ۲.۲۹ برابری سرعت آموزش و جهشی نزدیک به دو برابر در عملکرد اعتبارسنجی شده است که نشاندهنده افزایش چشمگیر کارایی محاسباتی است.
شیائومی چهار نسخه مختلف از MiMo-7B را به صورت عمومی منتشر کرده تا نیازهای متنوع کاربران و محققان را پوشش دهد. این نسخهها شامل مدل “Base” (نسخه خام و پیشآموزشدیده)، “SFT” (تنظیم دقیق شده با دادههای نظارت شده)، “RL-Zero” (مدلی که یادگیری تقویتی را از ابتدا شروع کرده) و “RL” (نسخه پیشرفتهتر مبتنی بر SFT با بالاترین دقت ادعاشده) میباشند.
برای اثبات ادعاهای خود در مورد عملکرد، شیائومی چندین نتیجه بنچمارک را منتشر کرده است. نسخه MiMo-7B-RL به طور خاص نتایج قوی در تستهای استدلالی ریاضی و کدنویسی نشان داده است. این مدل در بنچمارک MATH-500 امتیازی معادل ۹۵.۸ و در آزمون AIME 2024 بیش از ۶۸ امتیاز کسب کرده است. در حوزه کدنویسی، امتیاز آن در LiveCodeBench نسخه ۵ برابر ۵۷.۸ بوده، هرچند در نسخه ۶ همین بنچمارک امتیازی زیر ۵۰ به دست آورده است.
اکنون، MiMo-7B تحت مجوزی متنباز در دسترس علاقهمندان قرار دارد و از طریق پلتفرم Hugging Face قابل دانلود و استفاده است. این اقدام شیائومی نه تنها مشارکت این شرکت در جامعه هوش مصنوعی متنباز را نشان میدهد، بلکه با قرار دادن یک مدل با قابلیتهای استدلالی بالا در اختیار محققان و توسعهدهندگان سراسر جهان، میتواند به تسریع نوآوری در این حوزه کمک کند.