سال ۲۰۲۶ برای DeepSeek با یک پیشنهاد تازه شروع شده؛ نه یک «مدل غولپیکر» دیگر، بلکه یک معماری جدید که میخواهد دردسر اصلی صنعت را هدف بگیرد: آموزش دادن مدلهای بزرگ هوش مصنوعی بدون اتلاف وقت، برق و منابع.
امروز آموزش مدلهای زبانی و چندوجهی فقط پیچیده نیست؛ گران است، انرژی زیادی میبلعد و اگر وسط کار همهچیز بههم بریزد، هزینهها چند برابر میشود. مقاله پژوهشی جدید دیپسیک روشی را معرفی میکند که میتواند بخشی از این فشار را کم کند؛ روشی با نام manifold-constrained hyperconnection (mHC).
وقتی آموزش مدل میپَرد، هزاران ساعت GPU هم میسوزد
اگر بخواهیم ساده بگوییم، مشکل رایج این است: بسیاری از مدلهای پیشرفته در میانه آموزش ناپایدار میشوند و «کرش» میکنند یا به نقطهای میرسند که ادامه آموزش عملاً بیفایده است. نتیجه؟ هفتهها زمان از دست میرود، هزاران ساعت GPU میسوزد و حجم زیادی برق مصرف میشود؛ تازه تیمها مجبورند آموزش را از نو یا با تنظیمات محافظهکارانهتر تکرار کنند.
DeepSeek در mHC بهجای تمرکز روی رکوردهای خام عملکرد، سراغ چیزی رفته که در عمل برای شرکتها حیاتی است: کاهش بیثباتی در فرآیند آموزش. یعنی مدل، حتی وقتی بزرگتر و پیچیدهتر میشود، رفتارش قابلپیشبینیتر بماند و احتمال شکستهای میانی کمتر شود.
صرفهجویی انرژی از مسیر «کمتر هدر دادن»
نکته مهم این است که mHC قرار نیست مصرف برق GPU را معجزهوار پایین بیاورد. اما یک تفاوت کلیدی ایجاد میکند: وقتی آموزش پایدارتر باشد، انرژی کمتری به خاطر توقفهای ناگهانی، ریاستارتهای تکراری و اجرای دوباره آزمایشها هدر میرود. همین «کاهش اتلاف» میتواند در مقیاس پروژههای چند هفتهای و چندصد/چندهزار GPU، عدد بزرگی شود.
این پایداری یک پیامد اقتصادی هم دارد. شرکتها وقتی از بیثباتی میترسند، معمولاً به روشهای «زورآزمایی» پناه میبرند: GPU بیشتر، حافظه بیشتر، زمان بیشتر، و برنامههای آموزشی طولانیتر—فقط برای اینکه مطمئن شوند آموزش جلو میرود. اگر معماریهایی مثل mHC واقعاً نرخ شکست را پایین بیاورند، نیاز به این رویکردهای پرهزینه کمتر میشود و کل فرایند آموزش مدل هوش مصنوعی بهینهتر جلو میرود.
پژوهش DeepSeek ادعا نمیکند که بحران کمبود سختافزار یا چالش انرژی را یکشبه حل میکند. اما دقیقاً از همان جنس پیشرفتهایی است که زیر رادار میماند و بعداً اثرش را نشان میدهد: استفاده بهتر از منابع موجود. در آیندهای که مدلهای زبانی همچنان در حال رشدند، شاید «کم کردن ناکارآمدی» به اندازه بالا بردن عملکرد مهم شود—و این همان جایی است که معماری جدید دیپسیک میتواند تفاوت واقعی ایجاد کند.


