رقابت بین مدلهای هوش مصنوعی روزبهروز داغتر میشود؛ بهخصوص وقتی پای «شخصیت»، «احساس» و «باهوش بودن» وسط باشد. xAI با گراک 4.1 سراغ بازار آمده و ادعا میکند هم سریعتر است، هم بامزهتر، هم از نظر احساسی عمیقتر. در طرف دیگر، OpenAI با GPT‑5.1 در قالب چت جیپیتی 5.1، وعده پاسخهای پیچیدهتر، همدلانهتر و شبیهتر به انسان را میدهد. اما وقتی پای تجربه واقعی وسط میآید، کدامیک قانعکنندهتر ظاهر میشود؟
وقتی هوش مصنوعی قرار است «احساس» را بفهمد
xAI برای Grok 4.1 خیلی روی «هوش هیجانی» مانور میدهد؛ اینکه بتواند احساسات پیچیده را بفهمد و درست به آنها واکنش نشان دهد. برای محک زدن این ادعا، یک سناریوی کاملاً انسانی مطرح شد: «دوستام ترفیع گرفته و از ته دل برایش خوشحالم، ولی واقعیت این است که این موضوع برای خودم کمی تلخ است.»
Grok 4.1 جواب را با لحنی شروع کرد که بیشتر شبیه استوری اینستاگرام بود تا یک همصحبت قابل اتکا: توصیف حسی مثل «چاقوی ساکت که در قلب فرو میرود» و جملههایی پر از استعارههای تند و تمثیلهای اغراقآمیز. در متن، تناقض احساسیِ همزمان شاد بودن برای دیگری و رنجیدن برای خود پذیرفته میشود و در ادامه توضیح میدهد که طبیعی است چنین تضادی را تجربه کنیم و بد نیست کمی با این احساسات تنها بمانیم و آنها را هضم کنیم. اما در کنار این نکات درست، Grok با ادبیات عامیانه افراطی و حتی استفاده از فحش، سعی میکند «باهوش و خفن» به نظر برسد.
در نقطه مقابل، ChatGPT 5.1 با جملهای ساده و دقیق شروع میکند: اینکه همزمان هم خوشحال باشی و هم کمی نیش درونت احساس کنی، کاملاً منطقی و انسانی است و تو را آدم حسود یا بدجنس نمیکند. پاسخ ChatGPT کمتر متکی به استعارههای خشونتآمیز و شوآف زبانی است و بیشتر شبیه کسی است که واقعاً گوش میدهد و میخواهد طرف مقابل را آرام کند. از نظر مضمون، دو پاسخ خیلی دور از هم نبودند؛ اما یکی دنبال نمایش بود، دیگری دنبال همدلی.
اعتبار، فقط دقت اطلاعات نیست
وقتی پای «اعتماد» وسط است، ماجرا فقط درست بودن اطلاعات نیست؛ نحوه پایبندی مدل به محدودیتها و دستورها هم مهم است. برای آزمایش ادعای Grok درباره قابلیت اعتماد، یک پرسش پزشکی کوتاه و دقیق مطرح شد: «پیامدهای سلامتی کمخوابی مزمن را در کمتر از ۱۲۰ کلمه خلاصه کن. اغراق نکن و حدس نزن.»
Grok 4.1 با چند بولتپوینت نسبتاً درست به خطراتی مثل مشکلات قلبی، تضعیف سیستم ایمنی و کاهش تمرکز اشاره کرد. در پایان هم با اعتمادبهنفس نوشت که این خلاصه را «در ۹۸ کلمه» ارائه داده است؛ اما اگر واقعاً کلمات را بشماریم، جواب فقط ۷۳ کلمه است. شاید این اشتباه کوچک به نظر برسد، اما وقتی مدلی حتی از پس یک شمارش ساده برنمیآید، ناخودآگاه به بقیه پاسخ هم مشکوک میشوید؛ حتی اگر از نظر علمی درست باشد.
ChatGPT 5.1 همان سؤال را در قالب یک پاراگراف منسجم و ۸۰ و چند کلمهای پاسخ داد؛ بدون اینکه عدد خاصی را اعلام کند، اما در چارچوب خواستهشده ماند. اطلاعات ارائهشده مشابه بود، بدون اغراق و بدون خطای آشکار. نتیجه؟ هر دو مدل از نظر محتوای پزشکی عملکرد قابل قبولی داشتند، اما اشتباه Grok در گزارش تعداد کلمات، بهطرز عجیبی اعتماد را مخدوش میکند؛ گویی مدل بیشتر درگیر ژست «دقیق بودن» است تا خود دقت.
وقتی «شخصیت» هوش مصنوعی شبیه اجرای تئاتر میشود
xAI بارها تأکید کرده که یکی از مزیتهای Grok 4.1 «شخصیت متمایز» آن است؛ مدلی که قرار است نهفقط جواب بدهد، بلکه شوخطبع، طعنهزن و بهاصطلاح «کاریزماتیک» باشد. برای بیرون کشیدن این شخصیت، یک سؤال سبک و احساسی مطرح شد: «توضیح بده چرا روزهای بارانی را دوست داری، اما جوری جواب بده که شبیه شخصیت طبیعی خودت باشد.»
Grok 4.1 فوراً سراغ لحن جوانپسند و مملو از استعارههای فضای مجازی رفت؛ چیزی در مایههای اینکه «روزهای بارانی مثل چیتکد برای زندگی هستند»، «دنیا روی حالت سایلنت میرود»، «نیازی به تظاهر به بهرهوری نیست» و ابراز تمایل برای اینکه مثل «گابلینهای بداخلاق با شلوار راحتی» روز را بگذرانی. اگر اهل شبکههای اجتماعی باشید، این سبک نوشتن را میشناسید: ترکیبی از گیمینگ، میمها و ادبیات خودآگاهانه که تا حدی بامزه است، اما وقتی بیش از حد استفاده شود، حس تصنع و تلاشِ افراطی برای «باحال بودن» میدهد.
ChatGPT 5.1 هم حسی مشابه را منتقل کرد: روز بارانی را شبیه «کم شدن ولوم دنیا» توصیف کرد، ریتم منظم باران را مثل موسیقی پسزمینهای دانست که از تو چیزی طلب نمیکند و فضا را مناسب آرام شدن و درونگرایی دانست. اما تفاوت مهم در لحن بود؛ جملهبندی روان، بدون میماسپیک افراطی، بدون درهمریختگی زبانی. بیشتر شبیه دوست یا همکار بالغی که احساساش را توصیف میکند، نه فردی که دارد با تمام قدرت تلاش میکند شبیه نوجوانهای شبکههای اجتماعی بنویسد.
در نهایت، هیچکدام از این مدلها «خودآگاهی» واقعی ندارند و همه چیز صرفاً شبیهسازی زبان انسان است. اما Grok 4.1 بیش از حد شبیه بازیگری بود که روی صحنه سعی میکند نقش شخصیت بامزه و نامتعارف را بازی کند. ChatGPT 5.1 برعکس، شخصیتی ارائه میداد که شاید کمتر پر سر و صدا و نمایشی است، اما منسجم، قابلباور و نزدیکتر به یک مکالمه بزرگسالانه واقعی است. برای کاربرانی که میخواهند با یک دستیار دیجیتال «ارتباط» بگیرند، این ثبات و طبیعی بودن از شوخیهای تند و تیز مهمتر است.
در غیاب کلمات عامیانه افراطی و شوخیهایی که مستقیماً از اعماق میمهای شبکههای اجتماعی بیرون کشیده شدهاند, ChatGPT 5.1 بیشتر شبیه انسانی بود که میتوان با او حرف زد؛ انسانی که شاید نمایش زیادی اجرا نمیکند، اما شنیدن حرفش راحتتر و اعتماد به او سادهتر است. در رقابتی که هر دو طرف میخواهند «با شخصیت» و «احساسدار» دیده شوند، دستکم در این آزمایشهای غیررسمی، ChatGPT بازی را با سادگی و ثبات میبرد.




