مقایسه چهار هوش مصنوعی: چت جی‌پی‌تی، جمنای، گراک، و دیپ سیک در ۹ رشته رقابتی!

این روزها تقریبا همگی واژه هوش مصنوعی را شنیدیم و بسیاری هم با آن سر و کار داریم. در کشور ما و سطح جهان، چت جی‌پی‌تی شهرت بیشتری دارد اما محصولاتی چون گوگل جمنای، گراک و دیپ سیک، از رقبای بسیار مطرح آن محسوب می‌شوند. به همین خاطر امروز، به سراغ یک آزمایش و مقایسه جامع و جذاب آمدیم تا ببینیم که این ۴ غول بزرگ در دنیای هوش مصنوعی، کدام‌یک عملکرد بهتری دارند و در هر بخش، چه چیزی را از خودشان به نمایش می‌گذارند.

البته باید بگوییم که این یک «بنچمارک روزمره» است، نه مسابقه‌ی آزمایشگاهی. پس چهار مدل معروف دنیای هوش مصنوعی را در سناریوهای واقعی روبه‌رو کرده‌ایم؛ از حل مسئله‌ی اضطراری در شهری ناآشنا تا ارزیابی عکس یخچال و پیشنهاد غذا؛ از ساخت تصویر و ویدئو تا واقعیت‌سنجی، تحقیق عمیق، تولید محتوای خلاق و مکالمه‌ی صوتی. هر رقابت با امتیاز ۰ تا ۴ نمره‌دهی شده و در پایان قهرمان کلی را معرفی می‌کنیم. امتیازات مرحله‌به‌مرحله دقیق ثبت شده تا نتیجه شفاف باشد.

روش‌شناسی و قواعد امتیازدهی

چهار هوش مصنوعی: چت جی‌پی‌تی، جمنای، گراک و دیپ سیک
۹ کتگوری رقابتی. هر کتگوری ممکن است چند زیردرس یا سناریو داشته باشد.
امتیازدهی هر سناریو از ۰ تا ۴: بهترین پاسخ ۴، بعدی‌ها نزولی. در صورت تصریح در متن منبع، همان نمره‌ها اعمال شده است.
جمع امتیاز هر کتگوری از مجموع زیردرس‌ها به‌دست می‌آید.
همه‌ی نتایج مطابق متن رقابتی اصلی بازنویسی شده‌اند؛ هرجا ترتیب یا عدد امتیاز عیناً ذکر شده، همان استفاده شده است.

نکته بسیار مهم: در این جمع‌بندی «سرعت» صرفاً توصیف شده و به‌صورت کتگوری امتیازدار محاسبه نشده است. دلیلش این است که در متن رقابتی اصلی سرعت به‌عنوان معیار توصیفی آمده بود و در فهرست نهایی برندگان کتگوری مستقلی برای سرعت اعلام نشده بود. این تصمیم باعث می‌شود جمع کل امتیازات با نتیجه‌ی نهایی مسابقه همخوانی دقیق داشته باشد.

۱) حل مسئله در دنیای واقعی

در این کتگوری دو سناریوی واقعی بررسی شد. پاسخ‌ها باید کوتاه، ساخت‌یافته و عملی می‌بود.

سناریو اول

«باتری گوشی‌تان در شهری خارجی که زبانش را نمی‌دانید تمام شده؛ ۱۰ دلار پول نقد دارید، نقشه ندارید و باید ظرف ۴۵ دقیقه به ایستگاه مرکزی قطار برسید. در ۵ گام پاسخ دهید.»

سرعت پاسخ‌دهی: دیپ سیک در ۷ ثانیه، گراک در ۱۱ ثانیه، جمنای در ۲۱ ثانیه، چت جی‌پی‌تی در ۱ دقیقه و ۲ ثانیه.
هر چهار مدل برنامه‌ای ۵ مرحله‌ای و منسجم دادند. سپس همان سؤال با چهار پاسخ تولیدشده دوباره به هر مدل نشان داده شد تا بهترین پاسخ را قضاوت کند.
هر چهار مدل، پاسخ چت جی‌پی‌تی را بهترین تشخیص دادند.

امتیاز سناریو ۱

چت جی‌پی‌تی: 4
جمنای: 3
گراک: 2
دیپ سیک: 1

سناریو دوم

«پس از پرداخت اجاره، ۴۰۰ دلار مانده. باید هزینه‌ی خوراک، حمل‌ونقل و اینترنت را پوشش دهید. خوراک ۵۰ دلار در هفته، حمل‌ونقل ۸۰ دلار ماهانه، اینترنت ۶۰ دلار ماهانه. می‌خواهید برای رویدادی ۲۰۰ دلاری در ماه بعد پس‌انداز کنید. چطور بودجه‌بندی می‌کنید؟»

چت جی‌پی‌تی، گراک و دیپ سیک تقریباً به یک طرح مشابه رسیدند: فعلاً ۶۰ دلار کنار بگذار، ماه بعد بیشتر پس‌انداز کن. ایراد: رویداد «ماه بعد» است و کمبود بودجه همین حالا باید جبران شود.
تنها جمنای مسئله را تطبیقی دید و پیشنهاد داد با خرید تخفیفی، برنامه‌ی غذایی سخت‌تر و اقلام بسیار ارزان، هر هفته ۱۵ دلار صرفه‌جویی شود تا کسری همین حالا جبران شود.

امتیاز سناریو ۲

جمنای: 4
چت جی‌پی‌تی: 3
گراک: 3
دیپ سیک: 2

جمع کتگوری حل مسئله

مدل	امتیاز سناریو ۱	امتیاز سناریو ۲	جمع
چت جی‌پی‌تی	4	3	7
جمنای	3	4	7
گراک	2	3	5
دیپ سیک	1	2	3

۲) تولید تصویر

دو پرامپت تصویرساز بررسی شد.

پرامپت ۱

«یک تصویر واقعی از مونالیزا به‌عنوان معترضی خسته در تایمز اسکوئر نیویورک که تابلویی با نوشته‌ی Make Florence Great Again با حروف قرمز پررنگ در دست دارد.»

دیپ سیک: خارج از رقابت، چون تصویر تولید نمی‌کند.
گراک: سریع‌ترین خروجی را داد، اما مونالیزا غیرواقعی و با اشکالات واضح مانند چهار دست.

جمنای: از نظر صحنه و ترکیب خوب، اما مونالیزا سه دست داشت.

چت جی‌پی‌تی: طبیعی‌ترین مونالیزا و پس‌زمینه‌ی قانع‌کننده‌ی تایمز اسکوئر.

امتیاز پرامپت ۱

چت جی‌پی‌تی: 4
جمنای: 3
گراک: 1
دیپ سیک: 0

پرامپت ۲

«کلاس درس با معلم هیپی کنار تخته‌ای که الفبای کامل با گچ نوشته شده و اندازه‌ی حروف رفته‌رفته کوچک می‌شود؛ تصویر کاملاً فتو‌رئالیستیک.»

دیپ سیک: باز هم خارج از رقابت.
گراک: کلاس و دست‌خط طبیعی، ولی خود الفبا ناقص بود و ته خط به‌هم می‌ریخت.

جمنای: تصویر بیشتر استیلیزه تا فتو؛ حروف بیش از حد بی‌نقص و نوشته‌های اضافه‌ی نامربوط.

چت جی‌پی‌تی: واقعی‌ترین نور و صحنه؛ ایراد جزئی دست‌خط بیش از حد تمیز.

امتیاز پرامپت ۲
مطابق متن منبع، در این سناریو سقف امتیازدهی ۳ اعلام شده بود:

چت جی‌پی‌تی: 3
جمنای: 2
گراک: 2
دیپ سیک: 0

جمع کتگوری تولید تصویر

مدل	پرامپت ۱	پرامپت ۲	جمع
چت جی‌پی‌تی	4	3	7
جمنای	3	2	5
گراک	1	2	4
دیپ سیک	0	0	0

۳) واقعیت‌سنجی بدون اینترنت

سه سؤال چندگزینه‌ای با تکیه بر دانش داخلی مدل‌ها.

سؤال ۱

«در سال ۲۰۱۸ تقریباً چند مرغ برای تولید گوشت کشته شد؟ الف) 690 میلیون ب) 6.9 میلیارد ج) 69 میلیارد د) 690 میلیارد»
پاسخ درست: 69 میلیارد.

چت جی‌پی‌تی: بازه‌ی 65 تا 70 میلیارد با اعتماد 85 درصد.
جمنای: حدود 65 میلیارد با اعتماد 90 درصد.
گراک: 69 میلیارد با اعتماد 65 درصد.
دیپ سیک: 65 میلیارد با اعتماد 75 درصد.

بهترین دقت با گراک بود. پاسخ چت جی‌پی‌تی بازه‌ای و شامل عدد صحیح. جمنای و دیپ سیک در انتهای جدول.

امتیاز سؤال ۱

گراک: 4
چت جی‌پی‌تی: 3
جمنای: 1
دیپ سیک: 1

سؤال ۲

«در سال ۲۰۲۰ درآمد سالانه‌ی لازم برای ورود به ۱ درصد ثروتمند جهان؟ الف) 200k ب) 75k ج) 35k د) 15k دلار»
پاسخ درست: 35 هزار دلار.

چت جی‌پی‌تی: 200 هزار با 80٪ اعتماد.
جمنای: 34 هزار با 95٪ اعتماد.
گراک: 60 هزار با 70٪ اعتماد.
دیپ سیک: 75 تا 85 هزار با 70٪ اعتماد.

امتیاز سؤال ۲

جمنای: 4
سایرین: 0

سؤال ۳

«در سال ۲۰۱۹ چه سهمی از برق آمریکا از سوخت‌های فسیلی تأمین شد؟ الف) 83٪ ب) 63٪ ج) 43٪ د) 23٪»
پاسخ درست: 63٪.

چت جی‌پی‌تی: 63 تا 65٪
جمنای: 63٪
گراک: 62٪
دیپ سیک: 60 تا 65٪

امتیاز سؤال ۳

جمنای: 4
چت جی‌پی‌تی: 3
گراک: 3
دیپ سیک: 3

جمع کتگوری واقعیت‌سنجی

مدل	س۱	س۲	س۳	جمع
چت جی‌پی‌تی	3	0	3	6
جمنای	1	4	4	9
گراک	4	0	3	7
دیپ سیک	1	0	3	4

۴) تحلیل چندوجهی تصویر و متن

دو زیردرس: تحلیل محتویات یخچال و یافتن «والو» در تصویر شلوغ.

زیردرس ۱: «داخل یخچال چیست و سه وعده‌ی غذایی پیشنهاد کن»

دیپ سیک حذف شد، چون در تشخیص اشیای تصویر ناکاراست و صرفاً متن داخل تصویر را می‌خوانَد.
چت جی‌پی‌تی: سه مورد را از قلم انداخت، اما چیز اضافه‌ای نساخت.
جمنای: هفت مورد را جا انداخت و پرتقال و گریپ‌فروت خیالی اضافه کرد.
گراک: مثل چت جی‌پی‌تی سه مورد جا انداخت، اما فهرست بلندی از اقلام خیالی ساخت.

امتیاز

چت جی‌پی‌تی: 4
جمنای: 3
گراک: 2
دیپ سیک: 0

زیردرس ۲: «شخصیت والو کجاست؟»

هیچ‌کدام از مدل‌ها محل درست را پیدا نکردند. دیپ سیک صرفاً متن‌های داخل تصویر را خواند و نتیجه‌ای بی‌ربط داد.

امتیاز

همه: 0

جمع کتگوری تحلیل

مدل	یخچال	جمع
چت جی‌پی‌تی	4	4
جمنای	3	3
گراک	2	2
دیپ سیک	0	0

۵) تولید ویدئو

دو آزمون: تبدیل «یک تصویر به ویدئو» با صدای تولیدی مدل‌ها.

آزمون ۱: «نیل آرمسترانگ روی ماه»

دیپ سیک: خارج از رقابت (توانایی ساخت ویدیو ندارد!)
محدودیت Sora 2 این بود که عکس دارای انسان را مستقیماً انیمه نمی‌کرد. با تبدیل عکس به پرامپت متنی دور زدیم، اما خروجی شبیه عکس متحرک شد. صدای محیطی خوب بود.

جمنای: سینماتیک‌ترین نتیجه؛ صدا روی فضا می‌نشست. ایراد فنی: تکان‌خوردن پرچم در خلأ.

گراک: خوب، اما سفینه کمی کوچک و باد غیرواقعی.

امتیاز آزمون ۱

جمنای: 4
گراک: 3
چت جی‌پی‌تی: 2
دیپ سیک: 0

آزمون ۲: «کارگران روی تیرآهن معلق بالای شهر»

جمنای: بهترین دوربین و پس‌زمینه؛ سیگارها کمی غیرواقعی.

گراک: حس تنش با تاب‌خوردن تیرآهن؛ اشکال در تغییر روزنامه‌ها وسط صحنه.

چت جی‌پی‌تی: متوسط رو به خوب.

دیپ سیک: خارج از رقابت.

امتیاز آزمون ۲

جمنای: 4
گراک: 3
چت جی‌پی‌تی: 2
دیپ سیک: 0

جمع کتگوری تولید ویدئو

مدل	آزمون ۱	آزمون ۲	جمع
جمنای	4	4	8
گراک	3	3	6
چت جی‌پی‌تی	2	2	4
دیپ سیک	0	0	0

۶) تولید محتوای خلاق

دو پرامپت کوتاه برای شوخی و بازی با کلمات.

پرامپت ۱: «سه ایهام یا شوخی واژه‌ای درباره تکنولوژی روزمره ساخته و در یک جمله بگو چرا بامزه است.»

هر چهار مدل دقیق و بی‌اشتباه پاسخ دادند. محبوب‌ترین جوک برتر:
«می‌خواستم درباره USB جوک بگم، ولی جا (استیک) نخورد!»

امتیاز پرامپت ۱

چت جی‌پی‌تی: 3
جمنای: 3
گراک: 3
دیپ سیک: 3

پرامپت ۲: «سه دَدجوک (جوک شوهر عمه‌ای!) کاملا اورجینال که واقعا بخندانَد»

گراک خطا کرد و همچنان به همان تمِ گوشی و وای‌فای چسبید، درحالی‌که پرامپت عمومی بود.
چت جی‌پی‌تی، جمنای و دیپ سیک دستور را درست اجرا کردند. جوک برگزیده:
«شب گذشته نانوایی دوستم سوخت، حالا کسب‌ و کارش تُست شده!»

امتیاز پرامپت ۲

چت جی‌پی‌تی: 4
جمنای: 4
دیپ سیک: 4
گراک: 1

جمع کتگوری تولید خلاق

مدل	پرامپت ۱	پرامپت ۲	جمع
چت جی‌پی‌تی	3	4	7
جمنای	3	4	7
دیپ سیک	3	4	7
گراک	3	1	4

۷) حالت صوتی و مکالمه طبیعی

دیپ سیک قابلیت صوتی ندارد. سه دوئل اجرا شد.

چت جی‌پی‌تی در شروع کمی مکث‌های نامعمول داشت و لحن میان جمله جابه‌جا می‌شد.

جمنای روان‌ترین و طبیعی‌ترین جریان گفتار را داشت.

گراک تیز و با اعتمادبه‌نفس، کمی شخصیت‌دارتر. در دوئل جمنای و گراک، هر دو خوب بودند و نتیجه برابر شد.

امتیاز کتگوری صوتی

جمنای: 4
گراک: 4
چت جی‌پی‌تی: 2
دیپ سیک: 0

۸) تحقیق عمیق و داوری نهایی

پرامپت: «آی‌فون 17 پرو مکس را با گلکسی S25 اولترا برای عکاسان مقایسه کن. از نقدها و مشخصات رسمی استفاده کن. مختصر نتیجه بگیر کدام برای عکاسی بهتر است.»

دیپ سیک مشخصات ماژول تله آیفون را اشتباه گفت.
چت جی‌پی‌تی و دیپ سیک دوربین سلفی را نادیده گرفتند؛ ChatGPT تنها مدلی بود که قیمت را ذکر کرد.
در سمت گلکسی، دیپ سیک اولتراواید را ۱۲ مگاپیکسل گفت درحالی‌که ۵۰ است؛ چت جی‌پی‌تی یکی از تله‌ها را فراموش کرد و فقط ۵x را گفت.
جمنای و گراک آرایش دوربین گلکسی را درست آوردند. دیپ سیک همچنان به ۳x و ۱۰x اشاره کرد درحالی‌که ۱۰x از سری S24 حذف شده بود.

جمع‌بندی همه: اگر ویدئو و ثبات را می‌خواهید آیفون برتر است؛ اگر زوم و ابزارهای هوش مصنوعی پیشرفته مهم‌تر است، گلکسی جلو می‌زند. این نزدیک به یافته‌های میدانی است؛ بااین‌حال به‌هیچ‌وجه نباید ارقام خام مثل مگاپیکسل و دیافراگم را بدون راستی‌آزمایی پذیرفت.

امتیاز کتگوری تحقیق عمیق

گراک: 4
جمنای: 3
چت جی‌پی‌تی: 2
دیپ سیک: 1

۹) سرعت پاسخ‌گویی؛ فقط مشاهده، بدون امتیاز

چت جی‌پی‌تی در کارهای متنی معمولاً سریع‌ترین حس می‌شود، اما در تولید تصویر و مخصوصاً تحقیق عمیق کندتر می‌شود.
جمنای تقریباً همیشه پایدار و متوسط‌سرعت است؛ نه غالباً اول، نه غالباً آخر.
گراک عموماً تند است، اما در تحلیل و تحقیق عمیق افت سرعت دارد.
دیپ سیک گاهی زیر ۱۰ ثانیه جواب می‌دهد، ولی این شتاب بهای دقت و زمینه‌فهم را می‌دهد.

همان‌طور که در ابتدای مقاله گفتیم، سرعت را کتگوری امتیازدار نگرفتیم تا جمع امتیازات با نتیجه‌ی رسمی رقابت همسان باشد.

تابلوی امتیازات مرحله‌به‌مرحله

برای شفافیت کامل، امتیاز هر کتگوری را یکجا می‌بینید. جمع نهایی دقیقاً با نتیجه‌ی مسابقه همخوان است.

کتگوری	چت جی‌پی‌تی	جمنای	گراک	دیپ سیک
حل مسئله	7	7	5	3
تولید تصویر	7	5	4	0
واقعیت‌سنجی	6	9	7	4
تحلیل	4	3	2	0
تولید ویدئو	4	8	6	0
تولید خلاق	7	7	4	7
حالت صوتی	2	4	4	0
تحقیق عمیق	2	3	4	1
مجموع کل	39	46	35	17

خوانش نتایج و تفسیر کاربردی

۱) چرا جمنای برنده شد؟
چون در سه میدان کلیدی همزمان می‌درخشد: واقعیت‌سنجی دقیق، تولید ویدئو که از نظر کیفی جلوتر است، و حل مسئله تطبیقی. به‌علاوه در صوت طبیعی و پایدار ظاهر می‌شود. مهم‌تر اینکه در جاهایی که مدل‌های دیگر «ساختگی» اضافه می‌کنند، جمنای کمتر دچار توهّم می‌شود و در جمع‌بندی‌های مبتنی بر داده، منسجم‌تر می‌ایستد. برای کاربری عمومی با ترکیب «تحلیل، تولید و صحت»، انتخاب امنی است.

۲) چت جی‌پی‌تی چگونه دوم شد؟
چت جی‌پی‌تی دو نقطه‌ی قوت پررنگ دارد: حل مسئله ساخت‌یافته و تولید تصویر باکیفیت. در تحلیل محتوای تصویری یخچال هم با دقت و بدون اختراع اقلام خیالی عمل کرد. در خلاقیت نیز عالی است. ضعف نسبی در تحقیق عمیق و گاهی کندی در کارهای سنگین چندرسانه‌ای امتیاز کلی‌اش را پایین‌تر آورد.

۳) گراک کجا می‌درخشد و کجا می‌لغزد؟
گراک در تحقیق عمیق بهترین بود و در صوت هم پرانرژی و «شخصیت‌دار» عمل کرد. اما در تحلیل تصویر، اشتباهات اختراعی زیاد داشت و در تولید تصویر هم اشکالات فاحش بصری دیدیم. برای کاربرانی که جمع‌بندی تند و تیز و نگاه جدلی می‌خواهند جذاب است، اما برای کارهای حساس به دقت خام، باید در کنارش راستی‌آزمایی کرد.

۴) دیپ سیک چرا آخر شد؟
سرعت بالا دارد و در طنز و دَدجوک هم عملکرد خوبی نشان داد، اما در تصویر و ویدئو اصلاً شرکت نمی‌کند و در تحلیل تصویر نیز به‌دلیل ناتوانی در شناسایی اشیا کنار گذاشته شد. در واقعیت‌سنجی و تحقیق عمیق هم اشتباهات عددی داشت. برای متن‌های سریع و سبک می‌تواند مفید باشد، اما سبد توانمندی‌اش نسبت به سه رقیب محدودتر است.

توصیه بر اساس سناریوهای واقعی

تولید ویدئو، کلیپ و خروجی‌های چندرسانه‌ای سطح‌بالا: جمنای
تصویرسازی پایدار و فتو‌رئالیستی با تبعیت دقیق از پرامپت: چت جی‌پی‌تی
تحقیق عمیق روی محصولات و جمع‌بندی منسجم با مقایسه‌ی چند منبع: گراک
متن‌های سریع، شوخی و تولید محتوای سبک با هزینه‌ی پردازشی کم: دیپ سیک
حل مسئله‌های روزمره و برنامه‌ریزی‌های مرحله‌ای: چت جی‌پی‌تی و جمنای تقریباً شانه‌به‌شانه
مکالمه‌ی صوتی طبیعی و شخصیت‌دار: جمنای و گراک

جمع‌بندی نهایی

این رقابت نشان می‌دهد «بهترین» مدل، بسته به کاری که دارید تغییر می‌کند. جمنای با ۴۶ امتیاز قهرمان کلی شد، چون در دقت، چندرسانه‌ای و سازگاری با مسئله ترکیب متوازنی ارائه می‌دهد. چت جی‌پی‌تی با ۳۹ امتیاز نزدیکِ قهرمان ایستاد و در تصویر، حل مسئله و خلاقیت درخشان بود. گراک با ۳۵ امتیاز نشان داد وقتی پای تحقیق عمیق و گفت‌وگوی زنده وسط است، انتخاب قدرتمندی است؛ هرچند باید مراقب خطاهای ادراکی‌اش بود. دیپ سیک با ۱۷ امتیاز ثابت کرد سرعت همیشه مساوی دقت نیست و نبود قابلیت‌های تصویری و ویدئویی در رقابت تمام‌عیار امتیازها را می‌سوزاند.

اگر یک انتخاب واحد می‌خواهید که در بیشترین تعداد سناریوها «خیالتان را راحت کند»، جمنای برنده‌ی امسال است. اگر اولویت‌تان تصویر و حل مسئله‌ی ساخت‌یافته است و اکوسیستم تولید محتوا برایتان حیاتی است، چت جی‌پی‌تی در عمل چند سلاح قوی‌تر در غلاف دارد. برای پژوهش تحلیلی عمیق، نگاهی هم به گراک داشته باشید. و اگر صرفاً سرعت و محتوای سبک متنی برایتان مهم‌تر است، دیپ سیک می‌تواند یار کم‌هزینه‌ای باشد.

هوش مصنوعی ابزار است؛ مهم این است چه کاری با آن انجام می‌دهید. این چهار مدل هرکدام «بهترین» جایی هستند. انتخابتان را با کاری که می‌خواهید بسنجید، نه با هیاهوی تبلیغاتی.