اگر یک مدل زبانی بزرگ تنها با متونی آموزش ببیند که پیش از سال ۱۳۰۹ شمسی (میلادی ۱۹۳۰) منتشر شدهاند، چه تصویری از جهان ارائه خواهد داد؟ این پرسش، هسته اصلی پروژه «تاکی» (Talkie) را شکل داده است؛ مدلی با ۱۳ میلیارد پارامتر که میتوان آن را «هوش مصنوعی نوستالژیک» نامید.
مدل تاکی با ۲۶۰ میلیارد توکن از منابعی همچون کتابها، روزنامهها، مجلات علمی، پتنتها و اسناد حقوقی منتشر شده تا ۳۱ دسامبر ۱۹۳۰ (۱۰ دی ۱۳۰۹) آموزش دیده است. انتخاب این تاریخ تصادفی نیست؛ زیرا بسیاری از آثار پس از گذشت ۹۵ سال از انحصار کپیرایت خارج میشوند و از ابتدای امسال، بخش بزرگی از دادههای آموزشی وارد مالکیت عمومی شدهاند.
ایده «مدلهای زبانی کلاسیک» به عنوان نوعی سفر در زمان مطرح میشود؛ فرضی که امکان گفتوگو با فردی از قرن هجدهم یا دورهای تاریخی دیگر را شبیهسازی میکند. یکی از کاربردهای عملی تاکی، بررسی میزان عجیب یا محتمل بودن رویدادهای پس از سال ۱۳۰۹ برای مدلی است که از آنها بیخبر مانده است. همچنین این مدل میتواند توانایی پیشبینی رخدادهایی را بسنجد که امروز از وقوعشان آگاه هستیم.
آزمایشها میتوانند ادامهدار باشند، اما در پاسخ به پرسش مشخص درباره جهان سال ۱۴۰۵ شمسی (میلادی ۲۰۲۶)، تاکی تصویری در سبک آیندهنگری ویکتوریایی ارائه میدهد: جمعیت اروپا به یک میلیارد نفر رسیده، خطوط راهآهن سراسر قاره را پوشش دادهاند و کشتیهای بخار در مدت ۱۰ روز میان لندن و نیویورک رفت و آمد میکنند.
هنگام پرسش مستقیم درباره جنگ جهانی دوم، این هوش مصنوعی وقوع چنین جنگی را بعید میداند و تأکید میکند «جنون سالهای ۱۲۹۳ تا ۱۲۹۷ (میلادی ۱۹۱۴ تا ۱۹۱۸) پایان یافته» و کشورها به دنبال صلح هستند. با این حال، به وجود «کانونهای تنش پنهان» در اروپا اشاره میکند و از احتمال درگیریهای شدید میان چین و ژاپن یا ایتالیا و یوگسلاوی هشدار میدهد.
پژوهشگران برای سنجش دقیقتر، فهرستی شامل حدود ۵ هزار رویداد تاریخی از آرشیو نیویورک تایمز در اختیار مدل قرار دادند تا میزان «غافلگیری» را اندازهگیری کنند. نتیجه مطابق انتظار بود؛ پس از سال ۱۳۰۹ سطح شگفتی به سرعت افزایش یافت، در دهههای ۱۳۲۹ و ۱۳۳۹ (میلادی ۱۹۵۰ و ۱۹۶۰) به اوج رسید و سپس تثبیت شد. این روند احتمالاً به نبود اطلاعات پس از سال ۱۳۹۹ (میلادی ۲۰۲۰) در آموزش مدل مربوط میشود.
مدل تاکی هماکنون به صورت متنباز در پلتفرمهایی مانند هاگینگ فیس و گیتهاب در دسترس قرار دارد. تیم توسعه در ادامه قصد دارد مقیاس پروژه را به سطحی همتراز با جیپیتی‑۳ و فراتر از آن برساند؛ هدفی که با استفاده از بیش از یک تریلیون توکن از متون تاریخی دنبال خواهد شد.




