جدیدترین اخبار از دنیای هوش مصنوعی: مدل‌های انقلابی در سخت‌افزار و پزشکی

در دو هفته اخیر، اتمسفر دنیای هوش مصنوعی از یک رقابت ساده بر سر «بزرگ‌تر کردن ابعاد مدل‌ها» به سمتی بسیار پیچیده‌تر، تخصصی‌تر و البته کاربردی‌تر تغییر جهت داده است. اگر تا دیروز تیتر اول رسانه‌ها صرفاً درباره تعداد پارامترهای مدل‌های زبانی بود، امروز صحبت از «عاملیت» (Agency)، «ارکستراسیون» و ادغام هوش دیجیتال با کالبد فیزیکی سخت‌افزار است. ما در حال گذار از عصر مدل‌های همه‌کاره اما ایستا، به سوی سیستم‌هایی هستیم که نه تنها فکر می‌کنند، بلکه «عمل» می‌کنند، ابزارهای پیرامون خود را مدیریت می‌کنند و حتی در آزمایشگاه‌های بیولوژی و تولید تراشه، فرآیندهای سنتی را بازتعریف می‌نمایند.

این تغییر پارادایم، به‌ویژه برای اکوسیستم فناوری در ایران، حامل پیامی حیاتی است. در حالی که دسترسی به مدل‌های انحصاری غول‌های سیلیکون‌ولی همواره با چالش‌های تحریمی و هزینه‌های گزاف ارزی همراه بوده، ظهور مدل‌های متن‌باز فوق‌قدرتمند و استراتژی‌های جدید در مدیریت مدل‌های کوچک، فرصتی بی‌نظیر برای توسعه‌دهندگان داخلی فراهم آورده است تا با تکیه بر زیرساخت‌های بومی، ایجنت‌هایی هوشمند و مستقل طراحی کنند. در این گزارش اختصاصی از آی‌تی‌رسان، به کالبدشکافی ۷ اتفاق دقیق و تحولاتی می‌پردازیم که در ۱۴ روز گذشته، نقشه راه آینده این فناوری را ترسیم کرده‌اند؛ از مدل شگفت‌انگیز GLM 5.2 تا استخر اولتراسوند میدجرنی.

۱. کالبدشکافی GLM 5.2: قدرت‌نمایی مدل‌های متن‌باز در برابر غول‌های انحصاری

یکی از تکان‌دهنده‌ترین اخبار دو هفته اخیر، معرفی مدل GLM 5.2 توسط شرکت Z بود. اهمیت استراتژیک این مدل در آن است که بار دیگر مرزهای بین مدل‌های متن‌باز (Open Source) و مدل‌های انحصاری (Closed Source) را کمرنگ کرد. در دنیایی که OpenAI و گوگل به دنبال ایجاد دیوارهای بلند به دور دارایی‌های فکری خود هستند، ظهور مدلی که می‌تواند پا‌به‌پای غول‌ها حرکت کند، موازنه قدرت را به نفع جامعه توسعه‌دهندگان تغییر می‌دهد.

ویژگی‌های فنی و بنچمارک‌های نوین

GLM 5.2 با یک ویژگی خیره‌کننده معرفی شده است: پنجره بافت (Context Window) یک میلیونی. برای درک بهتر، تصور کنید که می‌توانید کدهای کامل یک پروژه نرم‌افزاری عظیم، یا چندین جلد کتاب مرجع را یک‌جا به مدل بدهید و او نه تنها تمام آن‌ها را به یاد می‌آورد، بلکه پیوندهای منطقی میان آن‌ها را تحلیل می‌کند. تمرکز اصلی این مدل بر دو ستون اصلی است: کارهای ایجنتیک (انجام وظایف چندمرحله‌ای بدون دخالت انسان) و کدنویسی حرفه‌ای.

بر اساس داده‌های پلتفرم تحلیلی “Artificial Analysis”، جایگاه GLM 5.2 در کنار قدرتمندترین مدل‌های جهان به شرح زیر است:

نام مدل	وضعیت دسترسی	ویژگی کلیدی	جایگاه در بنچمارک‌ها
GPT-5.5	انحصاری	قدرت استدلال عالی	رتبه اول عمومی
Claude Opus 4.8	انحصاری	درک عمیق متنی	رتبه دوم عمومی
GLM 5.2	متن‌باز	پنجره بافت ۱ میلیونی / کدنویسی	رتبه سوم/چهارم (برتر در SWE)
Gemini 1.5	انحصاری	چندوجهی بودن	پایین‌تر از GLM 5.2
Claude Sonnet 4.6	انحصاری	سرعت پردازش بالا	پایین‌تر از GLM 5.2

نکته حائز اهمیت در این جدول، برتری GLM 5.2 در بنچمارک‌های تخصصی مانند SWE (Software Engineering) است. در این آزمون‌ها که توانایی مدل در حل باگ‌های واقعی نرم‌افزاری سنجیده می‌شود، GLM 5.2 حتی از مدل‌های سطح‌اول GPT پیشی گرفته و تنها رقابتی شانه به شانه با نسخه‌های جدید انتروپیک دارد.

چالش زیرساخت و حاکمیت داده

با این حال، متن‌باز بودن به معنای «ارزان ران شدن» نیست. GLM 5.2 با ۷۳۵ میلیارد پارامتر، وزنی معادل ۵۰۰ تا ۶۰۰ گیگابایت دارد. این یعنی برای اجرای لوکال (محلی) این مدل، به جای یک کیس معمولی، به سرورهای قدرتمند مجهز به چندین کارت گرافیک H100 یا A100 نیاز است. اینجاست که بحث «حاکمیت داده» در ایران پررنگ می‌شود؛ شرکت‌های بزرگ داخلی می‌توانند با سرمایه‌گذاری بر زیرساخت، این مدل را به صورت بومی مستقر کرده و بدون نگرانی از خروج داده‌های حساس از کشور، از قدرتی معادل GPT-5.5 بهره‌مند شوند. نزدیک شدن عملکرد مدل‌های متن‌باز به مدل‌های کلوزسورس با قیمتی تقریباً نصف در نسخه‌های API، پارادایم تجاری استارتاپ‌ها را از «اشتراک‌بگیر غول‌ها بودن» به «صاحب‌تکنولوژی بودن» تغییر می‌دهد.

۲. ظهور ارکستراتورها: نگاهی به Sakana Fugu و پایان عصر مدل‌های غول‌آسا

پارادایم فعلی هوش مصنوعی در حال گذار از «یک مدل برای همه کارها» به سمت «تیمی از متخصصان زیر نظر یک رهبر» است. در این میان، معرفی مدل Sakana Fugu انقلابی در مفهوم مدیریت مدل‌ها ایجاد کرده است. Fugu برخلاف GPT یا کلاود، صرفاً برای پاسخ دادن به سوالات ساخته نشده؛ او یک ارکستراتور (Orchestrator) یا رهبر ارکستر است.

کیفیت رهبری به جای حجم پارامتر

Sakana Fugu وظیفه دارد مجموعه‌ای از مدل‌های دیگر (چه متن‌باز سبک و چه مدل‌های سنگین انحصاری) را مدیریت کند. این مدل در تسک‌های طولانی‌مدت که نیاز به تحقیق (Research) و تکرار (Iteration) دارند، تخصص دارد. در بنچمارک Auto-Research که توسط آندره کارپاتی (مدیر سابق هوش مصنوعی تسلا) معرفی شد، فوگو عملکردی خیره‌کننده داشت. در این بنچمارک، یک مسئله پیچیده به هوش مصنوعی داده می‌شود و مدل باید به صورت ایجنتیک، فرضیه بسازد، کد بزند، تست کند و در صورت خطا، مسیر را اصلاح کند.

نتایج نشان داد که Sakana Fugu پس از ۱۲۰ ایتریشن (تکرار)، نرخ خطای خود را به شکلی معجزه‌آسا کاهش داده و از مدل‌های قدرتمندی چون GPT-5.5 و Claude Opus 4.8 پیشی می‌گیرد. این بدان معناست که در آینده، کیفیت «مدیریتِ فرآیند» از تعداد پارامترهای خام یک مدل مهم‌تر خواهد بود. برای اکوسیستم ایران که با محدودیت‌های سخت‌افزاری روبروست، این یک خبر عالی است: می‌توان با ترکیب چندین مدل کوچک و ارزان (مانند Llama 3) تحت رهبری یک ارکستراتور هوشمند، به خروجی‌هایی رسید که پیش از این فقط در انحصار ابرکامپیوترهای OpenAI بود. این مدل عملاً «قانون مقیاس‌پذیری» (Scaling Law) را به چالش می‌کشد و ثابت می‌کند که هوشمندی در نحوه به‌کارگیری ابزارهاست، نه فقط در حجم حافظه.

۳. استراتژی‌های نوین OpenAI: از یادگیری مهارت‌های بصری تا تولد تراشه Pino

OpenAI به خوبی درک کرده است که برای حفظ برتری، باید وابستگی خود به زنجیره تأمین خارجی (به‌ویژه انویدیا) را کاهش دهد و مدل‌هایش را با دنیای فیزیکی پیوند بزند.

قابلیت Record and Play: آموزش به سبک شاگرد و استادی

یکی از جذاب‌ترین ویژگی‌های معرفی شده در بستر GPT Codex، قابلیت Record and Play است. این ابزار به کاربران اجازه می‌دهد تا با ضبط صفحه نمایش (Screen Record) از یک فرآیند پیچیده انسانی، آن را به عنوان یک «مهارت» (Skill) به هوش مصنوعی بیاموزند. به عنوان مثال، شما یک بار مراحل آپلود ویدیو در یوتیوب، نحوه انتخاب هوشمندانه تایتل از فایل متنی و مدیریت تگ‌ها را انجام می‌دهید و ویدیو را به مدل می‌دهید. مدل با تحلیل فریم‌به‌فریم، منطق عمل شما را درک کرده و آن را ذخیره می‌کند. از آن پس، تنها با یک دستور ساده، مدل تمام آن مراحل فیزیکی و دیجیتالی را به طور خودکار تقلید و اجرا می‌کند. این یعنی گذار از «هوش مصنوعی متنی» به «هوش مصنوعی عملیاتی».

تراشه اختصاصی Pino: معجزه ۹ ماهه

OpenAI با همکاری شرکت Broadcom، از طراحی تراشه اختصاصی خود برای فرآیند اینفرنس (Inference) پرده برداشت. نکته شگفت‌انگیز، زمان‌بندی رکوردشکن این پروژه است؛ طراحی و تولید یک تراشه فوق‌پیچیده معمولاً سال‌ها زمان می‌برد، اما OpenAI این مسیر را تنها در ۹ ماه طی کرد. راز این سرعت؟ استفاده از خود هوش مصنوعی در مراحل دیزاین و بهینه‌سازی معماری چیپ. این تراشه که به طنز «فرزند ۹ ماهه سم آلتمن و مدیر برادکام» نامیده شده، به طور اختصاصی برای افزایش سرعت پاسخگویی (Inference) مدل‌ها طراحی شده است. تمرکز بر اینفرنس به جای آموزش (Training)، نشان‌دهنده استراتژی OpenAI برای کاهش هزینه‌های عملیاتی و تجاری‌سازی گسترده‌تر هوش مصنوعی در ابزارهای روزمره است.

۴. اکوسیستم انتروپیک: کلاود دیزاین و حضور به عنوان همکار در Slack

در حالی که OpenAI بر سخت‌افزار تمرکز کرده، انتروپیک (Anthropic) در حال نفوذ به عمیق‌ترین لایه‌های جریان کاری (Workflow) شرکت‌هاست.

Claude Design: این پلتفرم جدید، رؤیای طراحان UI/UX است. کلاود دیزاین نه تنها بر اساس دستورات متنی طرح می‌زند، بلکه قادر است «هویت بصری» (Brand Identity) برند شما را بیاموزد و تمام پیشنهاداتش را با آن هماهنگ کند. ویژگی متمایز آن، اتصال بی‌درنگ به Claude Code است؛ یعنی طرحی که در محیط بصری تایید می‌شود، بلافاصله به کدهای تمیز فرانت‌اِند تبدیل می‌گردد. این یعنی حذف کامل اصطکاک بین تیم دیزاین و تیم فنی.
Claude Tag در اسلک: انتروپیک با معرفی قابلیت تگ کردن کلاود در نرم‌افزار Slack، هوش مصنوعی را از یک ابزار جانبی به یک «همکار رسمی» تبدیل کرده است. شما می‌توانید کلاود را در یک کانال تیمی صدا بزنید، وظیفه‌ای را به او محول کنید و او مانند یک عضو تیم، پاسخ را در همان محیط کاری ارائه می‌دهد. این سطح از ادغام، چرخه تولید محصول را به شدت کوتاه کرده و پذیرش سازمانی هوش مصنوعی را دوچندان می‌کند.

۵. انقلاب در ویدیو: حل چالش حافظه فضایی و کنترل دوربین

بزرگترین نقطه ضعف ویدیوهای تولید شده توسط هوش مصنوعی تا به امروز، عدم ثبات و پایداری (Consistency) بود. مدل‌های جدید با معرفی مفاهیمی چون «حافظه بلندمدت» در حال حل این چالش هستند.

Palmiere: این ابزار، ویرایش ویدیو را به سادگی تایپ کردن یک پیام کرده است. شما به او می‌گویید «سکوت‌های ویدیو را حذف کن» یا «بخش دوم را به ابتدا ببر» و او این کار را با دقت انجام می‌دهد. اگرچه هزینه ۲۹ دلاری آن برای کاربران ایرانی بالاست، اما نشان‌دهنده آینده‌ای است که در آن تدوینگرها، ایجنت‌های هوش مصنوعی خواهند بود.
DreamX World: این مدل ۵ میلیارد پارامتری و متن‌باز، انقلابی در ساخت فضاهای سه بعدی است. چالش اصلی مدل‌های قدیمی این بود که با برگشتن دوربین به یک زاویه قبلی، اشیاء تغییر شکل می‌دادند. DreamX World با بهره‌گیری از حافظه بلندمدت، پایداری فضا را حفظ می‌کند؛ یعنی اگر دری را در محیط سه بعدی دیدید و برگشتید، آن در دقیقاً با همان جزئیات سر جایش باقی می‌ماند.
HermaVid: پروژه مشترک استنفورد و شانگهای که بر حافظه فضایی (Spatial Memory) تمرکز دارد. این مدل در هنگام ادیت ویدیو، موقعیت دقیق اشیاء را در فضای سه بعدی درک می‌کند تا در تغییرات بعدی، ساختار فیزیکی تصویر به هم نریزد.
OmniDirector: ابزاری که به کاربر اجازه می‌دهد «حرکات دوربین» (Camera Movements) را از یک ویدیوی مرجع کپی کرده و بر روی محتوای تولیدی خود اعمال کند. این یعنی شما می‌توانید سبک کارگردانی نولان یا اسپیلبرگ را صرفاً با دادن یک سکوت رفرنس، به ویدیوی هوش مصنوعی خود منتقل کنید.

تحلیل این بخش نشان می‌دهد که صنعت گیمینگ و فیلم‌سازی در حال خروج از رندرینگ سنتی و ورود به عصر «تولید آنی و ایجنتیک» هستند.

۶. هوش مصنوعی در دنیای فیزیکی: از اسکن بدن میدجرنی تا رباتیک سونی

شاید جسورانه‌ترین خبر این هفته، ورود میدجرنی به دنیای پزشکی با پروژه Midjourney Medical باشد.

استخر اولتراسوند: پیشگیری به سبک اسپا

میدجرنی از یک دستگاه اسکن کامل بدن رونمایی کرده که بیشتر شبیه به یک استخر کوچک یا اسپا است. هدف آن‌ها تبدیل چک‌آپ‌های پزشکی به یک تجربه روتین و لذت‌بخش است. این دستگاه با استفاده از امواج اولتراسوند، کل بدن را در آب اسکن می‌کند. ادعا شده که هزینه این کار یک‌دهم و زمان آن یک‌شصتم اسکن MRI است. اما اینجا یک تقابل علمی شکل گرفته است؛ هنک گرین و بسیاری از متخصصان تصویربرداری پزشکی معتقدند که اولتراسوند هرگز نمی‌تواند جایگزین MRI یا سی‌تی‌اسکن برای بافت‌های سخت و جزئیات دقیق شود. چالش اصلی در «ضریب شکست» (Refractive Index) امواج است. امواج اولتراسوند در مرز بین هوا و بدن به شدت شکسته می‌شوند و اطلاعات را مخدوش می‌کنند، به همین دلیل اسکن باید در آب انجام شود تا ضریب شکست نزدیک به بافت بدن باشد و دقت حفظ شود. با این حال، ویژن میدجرنی برای شناسایی زودهنگام ناهنجاری‌ها قبل از ظهور علائم، می‌تواند انقلابی در پزشکی پیشگیرانه باشد.

رباتیک و درک حس لامسه

در بخش رباتیک، دو دستاورد بزرگ مرزهای توانایی ماشین را جابجا کردند:

ربات پینگ‌پنگ‌باز سونی: این ربات با سیستم بینایی فوق‌سریع، چرخش و سرعت توپ را در میلی‌ثانیه محاسبه می‌کند. او فقط توپ را برنمی‌گرداند؛ بلکه مانند یک بازیکن حرفه‌ای، زاویه ضربه را طوری تنظیم می‌کند که حریف را غافلگیر کند. این اوج پردازش بینایی ماشین و پاسخ آنی سخت‌افزار است.
Exoskeleton استنفورد: محققان استنفورد به ربات‌ها یاد دادند که «چقدر فشار» وارد کنند. با استفاده از لباس‌های حسگر، ربات یاد می‌گیرد که مثلاً برای باز کردن در یخچال، ابتدا نیاز به فشار زیاد و سپس رها کردن هوشمندانه است. این درک از «میزان نیرو»، کلید نهایی ورود ربات‌ها به خانه‌ها برای انجام کارهای ظریف است.

۷. مدل Logos: زبانی واحد برای تمام علوم

تا پیش از این، ما برای شیمی یک مدل داشتیم و برای بیولوژی مدلی دیگر. اما مدل Logos (مخفف Language of Science) آمده است تا تمام شاخه‌های علمی را زیر یک سقف جمع کند. Logos با تبدیل ساختارهای علمی (پروتئین‌ها، آنتی‌بادی‌ها، واکنش‌های شیمیایی) به «توکن»، دقیقاً همان کاری را با علم می‌کند که چت‌جی‌پی‌تی با کلمات انجام داد. این مدل روابط پنهان میان شاخه‌های مختلف علم را درک می‌کند و می‌تواند سرعت کشفیات علمی، از طراحی داروهای جدید تا مواد پیشرفته، را از دهه‌ها به ماه‌ها کاهش دهد. این یعنی هوش مصنوعی دیگر فقط یک دستیار متنی نیست، بلکه به موتور محرک تمدن بشری تبدیل شده است.

آماده‌باش برای عصر سیستم‌های عامل‌محور

تحولات دو هفته اخیر، تصویری از یک آینده همگرا را ترسیم می‌کنند؛ آینده‌ای که در آن مرز میان نرم‌افزار، سخت‌افزار و علوم پایه از بین رفته است. ما دیگر با چت‌بات‌ها روبرو نیستیم، بلکه با سیستم‌هایی مواجهیم که دارای «حافظه فضایی» هستند، «مهارت‌های فیزیکی» را می‌آموزند، «سخت‌افزار» خود را طراحی می‌کنند و مانند یک «رهبر ارکستر»، تیم‌های هوشمند را مدیریت می‌نمایند.

برای متخصصان و کسب‌وکارهای ایرانی، پیام این تحولات روشن است: دوران صرفاً تماشاچی بودن به پایان رسیده است. با وجود مدل‌های متن‌باز قدرتمندی چون GLM 5.2 و استراتژی‌های ارکستراسیون، اکنون امکان پیاده‌سازی سیستم‌های هوش مصنوعی لوکال و ایجنت‌های اختصاصی در داخل کشور بیش از هر زمان دیگری مهیاست. تطبیق با این ابزارها، نه یک انتخاب، بلکه یک ضرورت برای بقا در رقابت جهانی است.