در دو هفته اخیر، اتمسفر دنیای هوش مصنوعی از یک رقابت ساده بر سر «بزرگتر کردن ابعاد مدلها» به سمتی بسیار پیچیدهتر، تخصصیتر و البته کاربردیتر تغییر جهت داده است. اگر تا دیروز تیتر اول رسانهها صرفاً درباره تعداد پارامترهای مدلهای زبانی بود، امروز صحبت از «عاملیت» (Agency)، «ارکستراسیون» و ادغام هوش دیجیتال با کالبد فیزیکی سختافزار است. ما در حال گذار از عصر مدلهای همهکاره اما ایستا، به سوی سیستمهایی هستیم که نه تنها فکر میکنند، بلکه «عمل» میکنند، ابزارهای پیرامون خود را مدیریت میکنند و حتی در آزمایشگاههای بیولوژی و تولید تراشه، فرآیندهای سنتی را بازتعریف مینمایند.
این تغییر پارادایم، بهویژه برای اکوسیستم فناوری در ایران، حامل پیامی حیاتی است. در حالی که دسترسی به مدلهای انحصاری غولهای سیلیکونولی همواره با چالشهای تحریمی و هزینههای گزاف ارزی همراه بوده، ظهور مدلهای متنباز فوققدرتمند و استراتژیهای جدید در مدیریت مدلهای کوچک، فرصتی بینظیر برای توسعهدهندگان داخلی فراهم آورده است تا با تکیه بر زیرساختهای بومی، ایجنتهایی هوشمند و مستقل طراحی کنند. در این گزارش اختصاصی از آیتیرسان، به کالبدشکافی ۷ اتفاق دقیق و تحولاتی میپردازیم که در ۱۴ روز گذشته، نقشه راه آینده این فناوری را ترسیم کردهاند؛ از مدل شگفتانگیز GLM 5.2 تا استخر اولتراسوند میدجرنی.
۱. کالبدشکافی GLM 5.2: قدرتنمایی مدلهای متنباز در برابر غولهای انحصاری
یکی از تکاندهندهترین اخبار دو هفته اخیر، معرفی مدل GLM 5.2 توسط شرکت Z بود. اهمیت استراتژیک این مدل در آن است که بار دیگر مرزهای بین مدلهای متنباز (Open Source) و مدلهای انحصاری (Closed Source) را کمرنگ کرد. در دنیایی که OpenAI و گوگل به دنبال ایجاد دیوارهای بلند به دور داراییهای فکری خود هستند، ظهور مدلی که میتواند پابهپای غولها حرکت کند، موازنه قدرت را به نفع جامعه توسعهدهندگان تغییر میدهد.
ویژگیهای فنی و بنچمارکهای نوین
GLM 5.2 با یک ویژگی خیرهکننده معرفی شده است: پنجره بافت (Context Window) یک میلیونی. برای درک بهتر، تصور کنید که میتوانید کدهای کامل یک پروژه نرمافزاری عظیم، یا چندین جلد کتاب مرجع را یکجا به مدل بدهید و او نه تنها تمام آنها را به یاد میآورد، بلکه پیوندهای منطقی میان آنها را تحلیل میکند. تمرکز اصلی این مدل بر دو ستون اصلی است: کارهای ایجنتیک (انجام وظایف چندمرحلهای بدون دخالت انسان) و کدنویسی حرفهای.
بر اساس دادههای پلتفرم تحلیلی “Artificial Analysis”، جایگاه GLM 5.2 در کنار قدرتمندترین مدلهای جهان به شرح زیر است:
| نام مدل | وضعیت دسترسی | ویژگی کلیدی | جایگاه در بنچمارکها |
| GPT-5.5 | انحصاری | قدرت استدلال عالی | رتبه اول عمومی |
| Claude Opus 4.8 | انحصاری | درک عمیق متنی | رتبه دوم عمومی |
| GLM 5.2 | متنباز | پنجره بافت ۱ میلیونی / کدنویسی | رتبه سوم/چهارم (برتر در SWE) |
| Gemini 1.5 | انحصاری | چندوجهی بودن | پایینتر از GLM 5.2 |
| Claude Sonnet 4.6 | انحصاری | سرعت پردازش بالا | پایینتر از GLM 5.2 |
نکته حائز اهمیت در این جدول، برتری GLM 5.2 در بنچمارکهای تخصصی مانند SWE (Software Engineering) است. در این آزمونها که توانایی مدل در حل باگهای واقعی نرمافزاری سنجیده میشود، GLM 5.2 حتی از مدلهای سطحاول GPT پیشی گرفته و تنها رقابتی شانه به شانه با نسخههای جدید انتروپیک دارد.
چالش زیرساخت و حاکمیت داده
با این حال، متنباز بودن به معنای «ارزان ران شدن» نیست. GLM 5.2 با ۷۳۵ میلیارد پارامتر، وزنی معادل ۵۰۰ تا ۶۰۰ گیگابایت دارد. این یعنی برای اجرای لوکال (محلی) این مدل، به جای یک کیس معمولی، به سرورهای قدرتمند مجهز به چندین کارت گرافیک H100 یا A100 نیاز است. اینجاست که بحث «حاکمیت داده» در ایران پررنگ میشود؛ شرکتهای بزرگ داخلی میتوانند با سرمایهگذاری بر زیرساخت، این مدل را به صورت بومی مستقر کرده و بدون نگرانی از خروج دادههای حساس از کشور، از قدرتی معادل GPT-5.5 بهرهمند شوند. نزدیک شدن عملکرد مدلهای متنباز به مدلهای کلوزسورس با قیمتی تقریباً نصف در نسخههای API، پارادایم تجاری استارتاپها را از «اشتراکبگیر غولها بودن» به «صاحبتکنولوژی بودن» تغییر میدهد.
۲. ظهور ارکستراتورها: نگاهی به Sakana Fugu و پایان عصر مدلهای غولآسا
پارادایم فعلی هوش مصنوعی در حال گذار از «یک مدل برای همه کارها» به سمت «تیمی از متخصصان زیر نظر یک رهبر» است. در این میان، معرفی مدل Sakana Fugu انقلابی در مفهوم مدیریت مدلها ایجاد کرده است. Fugu برخلاف GPT یا کلاود، صرفاً برای پاسخ دادن به سوالات ساخته نشده؛ او یک ارکستراتور (Orchestrator) یا رهبر ارکستر است.
کیفیت رهبری به جای حجم پارامتر
Sakana Fugu وظیفه دارد مجموعهای از مدلهای دیگر (چه متنباز سبک و چه مدلهای سنگین انحصاری) را مدیریت کند. این مدل در تسکهای طولانیمدت که نیاز به تحقیق (Research) و تکرار (Iteration) دارند، تخصص دارد. در بنچمارک Auto-Research که توسط آندره کارپاتی (مدیر سابق هوش مصنوعی تسلا) معرفی شد، فوگو عملکردی خیرهکننده داشت. در این بنچمارک، یک مسئله پیچیده به هوش مصنوعی داده میشود و مدل باید به صورت ایجنتیک، فرضیه بسازد، کد بزند، تست کند و در صورت خطا، مسیر را اصلاح کند.
نتایج نشان داد که Sakana Fugu پس از ۱۲۰ ایتریشن (تکرار)، نرخ خطای خود را به شکلی معجزهآسا کاهش داده و از مدلهای قدرتمندی چون GPT-5.5 و Claude Opus 4.8 پیشی میگیرد. این بدان معناست که در آینده، کیفیت «مدیریتِ فرآیند» از تعداد پارامترهای خام یک مدل مهمتر خواهد بود. برای اکوسیستم ایران که با محدودیتهای سختافزاری روبروست، این یک خبر عالی است: میتوان با ترکیب چندین مدل کوچک و ارزان (مانند Llama 3) تحت رهبری یک ارکستراتور هوشمند، به خروجیهایی رسید که پیش از این فقط در انحصار ابرکامپیوترهای OpenAI بود. این مدل عملاً «قانون مقیاسپذیری» (Scaling Law) را به چالش میکشد و ثابت میکند که هوشمندی در نحوه بهکارگیری ابزارهاست، نه فقط در حجم حافظه.
۳. استراتژیهای نوین OpenAI: از یادگیری مهارتهای بصری تا تولد تراشه Pino
OpenAI به خوبی درک کرده است که برای حفظ برتری، باید وابستگی خود به زنجیره تأمین خارجی (بهویژه انویدیا) را کاهش دهد و مدلهایش را با دنیای فیزیکی پیوند بزند.
قابلیت Record and Play: آموزش به سبک شاگرد و استادی
یکی از جذابترین ویژگیهای معرفی شده در بستر GPT Codex، قابلیت Record and Play است. این ابزار به کاربران اجازه میدهد تا با ضبط صفحه نمایش (Screen Record) از یک فرآیند پیچیده انسانی، آن را به عنوان یک «مهارت» (Skill) به هوش مصنوعی بیاموزند. به عنوان مثال، شما یک بار مراحل آپلود ویدیو در یوتیوب، نحوه انتخاب هوشمندانه تایتل از فایل متنی و مدیریت تگها را انجام میدهید و ویدیو را به مدل میدهید. مدل با تحلیل فریمبهفریم، منطق عمل شما را درک کرده و آن را ذخیره میکند. از آن پس، تنها با یک دستور ساده، مدل تمام آن مراحل فیزیکی و دیجیتالی را به طور خودکار تقلید و اجرا میکند. این یعنی گذار از «هوش مصنوعی متنی» به «هوش مصنوعی عملیاتی».
تراشه اختصاصی Pino: معجزه ۹ ماهه
OpenAI با همکاری شرکت Broadcom، از طراحی تراشه اختصاصی خود برای فرآیند اینفرنس (Inference) پرده برداشت. نکته شگفتانگیز، زمانبندی رکوردشکن این پروژه است؛ طراحی و تولید یک تراشه فوقپیچیده معمولاً سالها زمان میبرد، اما OpenAI این مسیر را تنها در ۹ ماه طی کرد. راز این سرعت؟ استفاده از خود هوش مصنوعی در مراحل دیزاین و بهینهسازی معماری چیپ. این تراشه که به طنز «فرزند ۹ ماهه سم آلتمن و مدیر برادکام» نامیده شده، به طور اختصاصی برای افزایش سرعت پاسخگویی (Inference) مدلها طراحی شده است. تمرکز بر اینفرنس به جای آموزش (Training)، نشاندهنده استراتژی OpenAI برای کاهش هزینههای عملیاتی و تجاریسازی گستردهتر هوش مصنوعی در ابزارهای روزمره است.
۴. اکوسیستم انتروپیک: کلاود دیزاین و حضور به عنوان همکار در Slack
در حالی که OpenAI بر سختافزار تمرکز کرده، انتروپیک (Anthropic) در حال نفوذ به عمیقترین لایههای جریان کاری (Workflow) شرکتهاست.
- Claude Design: این پلتفرم جدید، رؤیای طراحان UI/UX است. کلاود دیزاین نه تنها بر اساس دستورات متنی طرح میزند، بلکه قادر است «هویت بصری» (Brand Identity) برند شما را بیاموزد و تمام پیشنهاداتش را با آن هماهنگ کند. ویژگی متمایز آن، اتصال بیدرنگ به Claude Code است؛ یعنی طرحی که در محیط بصری تایید میشود، بلافاصله به کدهای تمیز فرانتاِند تبدیل میگردد. این یعنی حذف کامل اصطکاک بین تیم دیزاین و تیم فنی.
- Claude Tag در اسلک: انتروپیک با معرفی قابلیت تگ کردن کلاود در نرمافزار Slack، هوش مصنوعی را از یک ابزار جانبی به یک «همکار رسمی» تبدیل کرده است. شما میتوانید کلاود را در یک کانال تیمی صدا بزنید، وظیفهای را به او محول کنید و او مانند یک عضو تیم، پاسخ را در همان محیط کاری ارائه میدهد. این سطح از ادغام، چرخه تولید محصول را به شدت کوتاه کرده و پذیرش سازمانی هوش مصنوعی را دوچندان میکند.
۵. انقلاب در ویدیو: حل چالش حافظه فضایی و کنترل دوربین
بزرگترین نقطه ضعف ویدیوهای تولید شده توسط هوش مصنوعی تا به امروز، عدم ثبات و پایداری (Consistency) بود. مدلهای جدید با معرفی مفاهیمی چون «حافظه بلندمدت» در حال حل این چالش هستند.
- Palmiere: این ابزار، ویرایش ویدیو را به سادگی تایپ کردن یک پیام کرده است. شما به او میگویید «سکوتهای ویدیو را حذف کن» یا «بخش دوم را به ابتدا ببر» و او این کار را با دقت انجام میدهد. اگرچه هزینه ۲۹ دلاری آن برای کاربران ایرانی بالاست، اما نشاندهنده آیندهای است که در آن تدوینگرها، ایجنتهای هوش مصنوعی خواهند بود.
- DreamX World: این مدل ۵ میلیارد پارامتری و متنباز، انقلابی در ساخت فضاهای سه بعدی است. چالش اصلی مدلهای قدیمی این بود که با برگشتن دوربین به یک زاویه قبلی، اشیاء تغییر شکل میدادند. DreamX World با بهرهگیری از حافظه بلندمدت، پایداری فضا را حفظ میکند؛ یعنی اگر دری را در محیط سه بعدی دیدید و برگشتید، آن در دقیقاً با همان جزئیات سر جایش باقی میماند.
- HermaVid: پروژه مشترک استنفورد و شانگهای که بر حافظه فضایی (Spatial Memory) تمرکز دارد. این مدل در هنگام ادیت ویدیو، موقعیت دقیق اشیاء را در فضای سه بعدی درک میکند تا در تغییرات بعدی، ساختار فیزیکی تصویر به هم نریزد.
- OmniDirector: ابزاری که به کاربر اجازه میدهد «حرکات دوربین» (Camera Movements) را از یک ویدیوی مرجع کپی کرده و بر روی محتوای تولیدی خود اعمال کند. این یعنی شما میتوانید سبک کارگردانی نولان یا اسپیلبرگ را صرفاً با دادن یک سکوت رفرنس، به ویدیوی هوش مصنوعی خود منتقل کنید.
تحلیل این بخش نشان میدهد که صنعت گیمینگ و فیلمسازی در حال خروج از رندرینگ سنتی و ورود به عصر «تولید آنی و ایجنتیک» هستند.
۶. هوش مصنوعی در دنیای فیزیکی: از اسکن بدن میدجرنی تا رباتیک سونی
شاید جسورانهترین خبر این هفته، ورود میدجرنی به دنیای پزشکی با پروژه Midjourney Medical باشد.
استخر اولتراسوند: پیشگیری به سبک اسپا
میدجرنی از یک دستگاه اسکن کامل بدن رونمایی کرده که بیشتر شبیه به یک استخر کوچک یا اسپا است. هدف آنها تبدیل چکآپهای پزشکی به یک تجربه روتین و لذتبخش است. این دستگاه با استفاده از امواج اولتراسوند، کل بدن را در آب اسکن میکند. ادعا شده که هزینه این کار یکدهم و زمان آن یکشصتم اسکن MRI است. اما اینجا یک تقابل علمی شکل گرفته است؛ هنک گرین و بسیاری از متخصصان تصویربرداری پزشکی معتقدند که اولتراسوند هرگز نمیتواند جایگزین MRI یا سیتیاسکن برای بافتهای سخت و جزئیات دقیق شود. چالش اصلی در «ضریب شکست» (Refractive Index) امواج است. امواج اولتراسوند در مرز بین هوا و بدن به شدت شکسته میشوند و اطلاعات را مخدوش میکنند، به همین دلیل اسکن باید در آب انجام شود تا ضریب شکست نزدیک به بافت بدن باشد و دقت حفظ شود. با این حال، ویژن میدجرنی برای شناسایی زودهنگام ناهنجاریها قبل از ظهور علائم، میتواند انقلابی در پزشکی پیشگیرانه باشد.
رباتیک و درک حس لامسه
در بخش رباتیک، دو دستاورد بزرگ مرزهای توانایی ماشین را جابجا کردند:
- ربات پینگپنگباز سونی: این ربات با سیستم بینایی فوقسریع، چرخش و سرعت توپ را در میلیثانیه محاسبه میکند. او فقط توپ را برنمیگرداند؛ بلکه مانند یک بازیکن حرفهای، زاویه ضربه را طوری تنظیم میکند که حریف را غافلگیر کند. این اوج پردازش بینایی ماشین و پاسخ آنی سختافزار است.
- Exoskeleton استنفورد: محققان استنفورد به رباتها یاد دادند که «چقدر فشار» وارد کنند. با استفاده از لباسهای حسگر، ربات یاد میگیرد که مثلاً برای باز کردن در یخچال، ابتدا نیاز به فشار زیاد و سپس رها کردن هوشمندانه است. این درک از «میزان نیرو»، کلید نهایی ورود رباتها به خانهها برای انجام کارهای ظریف است.
۷. مدل Logos: زبانی واحد برای تمام علوم
تا پیش از این، ما برای شیمی یک مدل داشتیم و برای بیولوژی مدلی دیگر. اما مدل Logos (مخفف Language of Science) آمده است تا تمام شاخههای علمی را زیر یک سقف جمع کند. Logos با تبدیل ساختارهای علمی (پروتئینها، آنتیبادیها، واکنشهای شیمیایی) به «توکن»، دقیقاً همان کاری را با علم میکند که چتجیپیتی با کلمات انجام داد. این مدل روابط پنهان میان شاخههای مختلف علم را درک میکند و میتواند سرعت کشفیات علمی، از طراحی داروهای جدید تا مواد پیشرفته، را از دههها به ماهها کاهش دهد. این یعنی هوش مصنوعی دیگر فقط یک دستیار متنی نیست، بلکه به موتور محرک تمدن بشری تبدیل شده است.
آمادهباش برای عصر سیستمهای عاملمحور
تحولات دو هفته اخیر، تصویری از یک آینده همگرا را ترسیم میکنند؛ آیندهای که در آن مرز میان نرمافزار، سختافزار و علوم پایه از بین رفته است. ما دیگر با چتباتها روبرو نیستیم، بلکه با سیستمهایی مواجهیم که دارای «حافظه فضایی» هستند، «مهارتهای فیزیکی» را میآموزند، «سختافزار» خود را طراحی میکنند و مانند یک «رهبر ارکستر»، تیمهای هوشمند را مدیریت مینمایند.
برای متخصصان و کسبوکارهای ایرانی، پیام این تحولات روشن است: دوران صرفاً تماشاچی بودن به پایان رسیده است. با وجود مدلهای متنباز قدرتمندی چون GLM 5.2 و استراتژیهای ارکستراسیون، اکنون امکان پیادهسازی سیستمهای هوش مصنوعی لوکال و ایجنتهای اختصاصی در داخل کشور بیش از هر زمان دیگری مهیاست. تطبیق با این ابزارها، نه یک انتخاب، بلکه یک ضرورت برای بقا در رقابت جهانی است.




