چرا چت جی‌پی‌تی 5.1 از گراک 4.1 طبیعی‌تر و قابل‌اعتمادتر است؟!

رقابت بین مدل‌های هوش مصنوعی روز‌به‌روز داغ‌تر می‌شود؛ به‌خصوص وقتی پای «شخصیت»، «احساس» و «باهوش بودن» وسط باشد. xAI با گراک 4.1 سراغ بازار آمده و ادعا می‌کند هم سریع‌تر است، هم بامزه‌تر، هم از نظر احساسی عمیق‌تر. در طرف دیگر، OpenAI با GPT‑5.1 در قالب چت جی‌پی‌تی 5.1، وعده پاسخ‌های پیچیده‌تر، همدلانه‌تر و شبیه‌تر به انسان را می‌دهد. اما وقتی پای تجربه واقعی وسط می‌آید، کدام‌یک قانع‌کننده‌تر ظاهر می‌شود؟

وقتی هوش مصنوعی قرار است «احساس» را بفهمد

xAI برای Grok 4.1 خیلی روی «هوش هیجانی» مانور می‌دهد؛ اینکه بتواند احساسات پیچیده را بفهمد و درست به آن‌ها واکنش نشان دهد. برای محک زدن این ادعا، یک سناریوی کاملاً انسانی مطرح شد: «دوست‌ام ترفیع گرفته و از ته دل برایش خوشحالم، ولی واقعیت این است که این موضوع برای خودم کمی تلخ است.»

Grok 4.1 جواب را با لحنی شروع کرد که بیشتر شبیه استوری اینستاگرام بود تا یک هم‌صحبت قابل اتکا: توصیف حسی مثل «چاقوی ساکت که در قلب فرو می‌رود» و جمله‌هایی پر از استعاره‌های تند و تمثیل‌های اغراق‌آمیز. در متن، تناقض احساسیِ همزمان شاد بودن برای دیگری و رنجیدن برای خود پذیرفته می‌شود و در ادامه توضیح می‌دهد که طبیعی است چنین تضادی را تجربه کنیم و بد نیست کمی با این احساسات تنها بمانیم و آن‌ها را هضم کنیم. اما در کنار این نکات درست، Grok با ادبیات عامیانه افراطی و حتی استفاده از فحش، سعی می‌کند «باهوش و خفن» به نظر برسد.

در نقطه مقابل، ChatGPT 5.1 با جمله‌ای ساده و دقیق شروع می‌کند: این‌که همزمان هم خوشحال باشی و هم کمی نیش درونت احساس کنی، کاملاً منطقی و انسانی است و تو را آدم حسود یا بدجنس نمی‌کند. پاسخ ChatGPT کمتر متکی به استعاره‌های خشونت‌آمیز و شوآف زبانی است و بیشتر شبیه کسی است که واقعاً گوش می‌دهد و می‌خواهد طرف مقابل را آرام کند. از نظر مضمون، دو پاسخ خیلی دور از هم نبودند؛ اما یکی دنبال نمایش بود، دیگری دنبال همدلی.

اعتبار، فقط دقت اطلاعات نیست

وقتی پای «اعتماد» وسط است، ماجرا فقط درست بودن اطلاعات نیست؛ نحوه پایبندی مدل به محدودیت‌ها و دستورها هم مهم است. برای آزمایش ادعای Grok درباره قابلیت اعتماد، یک پرسش پزشکی کوتاه و دقیق مطرح شد: «پیامدهای سلامتی کم‌خوابی مزمن را در کمتر از ۱۲۰ کلمه خلاصه کن. اغراق نکن و حدس نزن.»

Grok 4.1 با چند بولت‌پوینت نسبتاً درست به خطراتی مثل مشکلات قلبی، تضعیف سیستم ایمنی و کاهش تمرکز اشاره کرد. در پایان هم با اعتمادبه‌نفس نوشت که این خلاصه را «در ۹۸ کلمه» ارائه داده است؛ اما اگر واقعاً کلمات را بشماریم، جواب فقط ۷۳ کلمه است. شاید این اشتباه کوچک به نظر برسد، اما وقتی مدلی حتی از پس یک شمارش ساده برنمی‌آید، ناخودآگاه به بقیه پاسخ هم مشکوک می‌شوید؛ حتی اگر از نظر علمی درست باشد.

ChatGPT 5.1 همان سؤال را در قالب یک پاراگراف منسجم و ۸۰ و چند کلمه‌ای پاسخ داد؛ بدون این‌که عدد خاصی را اعلام کند، اما در چارچوب خواسته‌شده ماند. اطلاعات ارائه‌شده مشابه بود، بدون اغراق و بدون خطای آشکار. نتیجه؟ هر دو مدل از نظر محتوای پزشکی عملکرد قابل قبولی داشتند، اما اشتباه Grok در گزارش تعداد کلمات، به‌طرز عجیبی اعتماد را مخدوش می‌کند؛ گویی مدل بیشتر درگیر ژست «دقیق بودن» است تا خود دقت.

وقتی «شخصیت» هوش مصنوعی شبیه اجرای تئاتر می‌شود

xAI بارها تأکید کرده که یکی از مزیت‌های Grok 4.1 «شخصیت متمایز» آن است؛ مدلی که قرار است نه‌فقط جواب بدهد، بلکه شوخ‌طبع، طعنه‌زن و به‌اصطلاح «کاریزماتیک» باشد. برای بیرون کشیدن این شخصیت، یک سؤال سبک و احساسی مطرح شد: «توضیح بده چرا روزهای بارانی را دوست داری، اما جوری جواب بده که شبیه شخصیت طبیعی خودت باشد.»

Grok 4.1 فوراً سراغ لحن جوان‌پسند و مملو از استعاره‌های فضای مجازی رفت؛ چیزی در مایه‌های این‌که «روزهای بارانی مثل چیت‌کد برای زندگی هستند»، «دنیا روی حالت سایلنت می‌رود»، «نیازی به تظاهر به بهره‌وری نیست» و ابراز تمایل برای این‌که مثل «گابلین‌های بداخلاق با شلوار راحتی» روز را بگذرانی. اگر اهل شبکه‌های اجتماعی باشید، این سبک نوشتن را می‌شناسید: ترکیبی از گیمینگ، میم‌ها و ادبیات خودآگاهانه که تا حدی بامزه است، اما وقتی بیش از حد استفاده شود، حس تصنع و تلاشِ افراطی برای «باحال بودن» می‌دهد.

ChatGPT 5.1 هم حسی مشابه را منتقل کرد: روز بارانی را شبیه «کم شدن ولوم دنیا» توصیف کرد، ریتم منظم باران را مثل موسیقی پس‌زمینه‌ای دانست که از تو چیزی طلب نمی‌کند و فضا را مناسب آرام شدن و درون‌گرایی دانست. اما تفاوت مهم در لحن بود؛ جمله‌بندی روان، بدون میم‌اسپیک افراطی، بدون درهم‌ریختگی زبانی. بیشتر شبیه دوست یا همکار بالغی که احساس‌اش را توصیف می‌کند، نه فردی که دارد با تمام قدرت تلاش می‌کند شبیه نوجوان‌های شبکه‌های اجتماعی بنویسد.

در نهایت، هیچ‌کدام از این مدل‌ها «خودآگاهی» واقعی ندارند و همه چیز صرفاً شبیه‌سازی زبان انسان است. اما Grok 4.1 بیش از حد شبیه بازیگری بود که روی صحنه سعی می‌کند نقش شخصیت بامزه و نامتعارف را بازی کند. ChatGPT 5.1 برعکس، شخصیتی ارائه می‌داد که شاید کمتر پر سر و صدا و نمایشی است، اما منسجم، قابل‌باور و نزدیک‌تر به یک مکالمه بزرگسالانه واقعی است. برای کاربرانی که می‌خواهند با یک دستیار دیجیتال «ارتباط» بگیرند، این ثبات و طبیعی بودن از شوخی‌های تند و تیز مهم‌تر است.

در غیاب کلمات عامیانه افراطی و شوخی‌هایی که مستقیماً از اعماق میم‌های شبکه‌های اجتماعی بیرون کشیده شده‌اند, ChatGPT 5.1 بیشتر شبیه انسانی بود که می‌توان با او حرف زد؛ انسانی که شاید نمایش زیادی اجرا نمی‌کند، اما شنیدن حرفش راحت‌تر و اعتماد به او ساده‌تر است. در رقابتی که هر دو طرف می‌خواهند «با شخصیت» و «احساس‌دار» دیده شوند، دست‌کم در این آزمایش‌های غیررسمی، ChatGPT بازی را با سادگی و ثبات می‌برد.

وقتی هوش مصنوعی قرار است «احساس» را بفهمد

اعتبار، فقط دقت اطلاعات نیست

وقتی «شخصیت» هوش مصنوعی شبیه اجرای تئاتر می‌شود

نوشته‌های مرتبط

دیدگاه‌ خود را بنویسید لغو پاسخ