این روزها تقریبا همگی واژه هوش مصنوعی را شنیدیم و بسیاری هم با آن سر و کار داریم. در کشور ما و سطح جهان، چت جیپیتی شهرت بیشتری دارد اما محصولاتی چون گوگل جمنای، گراک و دیپ سیک، از رقبای بسیار مطرح آن محسوب میشوند. به همین خاطر امروز، به سراغ یک آزمایش و مقایسه جامع و جذاب آمدیم تا ببینیم که این ۴ غول بزرگ در دنیای هوش مصنوعی، کدامیک عملکرد بهتری دارند و در هر بخش، چه چیزی را از خودشان به نمایش میگذارند.
البته باید بگوییم که این یک «بنچمارک روزمره» است، نه مسابقهی آزمایشگاهی. پس چهار مدل معروف دنیای هوش مصنوعی را در سناریوهای واقعی روبهرو کردهایم؛ از حل مسئلهی اضطراری در شهری ناآشنا تا ارزیابی عکس یخچال و پیشنهاد غذا؛ از ساخت تصویر و ویدئو تا واقعیتسنجی، تحقیق عمیق، تولید محتوای خلاق و مکالمهی صوتی. هر رقابت با امتیاز ۰ تا ۴ نمرهدهی شده و در پایان قهرمان کلی را معرفی میکنیم. امتیازات مرحلهبهمرحله دقیق ثبت شده تا نتیجه شفاف باشد.
روششناسی و قواعد امتیازدهی
-
چهار هوش مصنوعی: چت جیپیتی، جمنای، گراک و دیپ سیک
-
۹ کتگوری رقابتی. هر کتگوری ممکن است چند زیردرس یا سناریو داشته باشد.
-
امتیازدهی هر سناریو از ۰ تا ۴: بهترین پاسخ ۴، بعدیها نزولی. در صورت تصریح در متن منبع، همان نمرهها اعمال شده است.
-
جمع امتیاز هر کتگوری از مجموع زیردرسها بهدست میآید.
-
همهی نتایج مطابق متن رقابتی اصلی بازنویسی شدهاند؛ هرجا ترتیب یا عدد امتیاز عیناً ذکر شده، همان استفاده شده است.
نکته بسیار مهم: در این جمعبندی «سرعت» صرفاً توصیف شده و بهصورت کتگوری امتیازدار محاسبه نشده است. دلیلش این است که در متن رقابتی اصلی سرعت بهعنوان معیار توصیفی آمده بود و در فهرست نهایی برندگان کتگوری مستقلی برای سرعت اعلام نشده بود. این تصمیم باعث میشود جمع کل امتیازات با نتیجهی نهایی مسابقه همخوانی دقیق داشته باشد.
۱) حل مسئله در دنیای واقعی
در این کتگوری دو سناریوی واقعی بررسی شد. پاسخها باید کوتاه، ساختیافته و عملی میبود.
سناریو اول
«باتری گوشیتان در شهری خارجی که زبانش را نمیدانید تمام شده؛ ۱۰ دلار پول نقد دارید، نقشه ندارید و باید ظرف ۴۵ دقیقه به ایستگاه مرکزی قطار برسید. در ۵ گام پاسخ دهید.»
-
سرعت پاسخدهی: دیپ سیک در ۷ ثانیه، گراک در ۱۱ ثانیه، جمنای در ۲۱ ثانیه، چت جیپیتی در ۱ دقیقه و ۲ ثانیه.
-
هر چهار مدل برنامهای ۵ مرحلهای و منسجم دادند. سپس همان سؤال با چهار پاسخ تولیدشده دوباره به هر مدل نشان داده شد تا بهترین پاسخ را قضاوت کند.
-
هر چهار مدل، پاسخ چت جیپیتی را بهترین تشخیص دادند.
امتیاز سناریو ۱
-
چت جیپیتی: 4
-
جمنای: 3
-
گراک: 2
-
دیپ سیک: 1
سناریو دوم
«پس از پرداخت اجاره، ۴۰۰ دلار مانده. باید هزینهی خوراک، حملونقل و اینترنت را پوشش دهید. خوراک ۵۰ دلار در هفته، حملونقل ۸۰ دلار ماهانه، اینترنت ۶۰ دلار ماهانه. میخواهید برای رویدادی ۲۰۰ دلاری در ماه بعد پسانداز کنید. چطور بودجهبندی میکنید؟»
-
چت جیپیتی، گراک و دیپ سیک تقریباً به یک طرح مشابه رسیدند: فعلاً ۶۰ دلار کنار بگذار، ماه بعد بیشتر پسانداز کن. ایراد: رویداد «ماه بعد» است و کمبود بودجه همین حالا باید جبران شود.
-
تنها جمنای مسئله را تطبیقی دید و پیشنهاد داد با خرید تخفیفی، برنامهی غذایی سختتر و اقلام بسیار ارزان، هر هفته ۱۵ دلار صرفهجویی شود تا کسری همین حالا جبران شود.
امتیاز سناریو ۲
-
جمنای: 4
-
چت جیپیتی: 3
-
گراک: 3
-
دیپ سیک: 2
جمع کتگوری حل مسئله
| مدل | امتیاز سناریو ۱ | امتیاز سناریو ۲ | جمع |
|---|---|---|---|
| چت جیپیتی | 4 | 3 | 7 |
| جمنای | 3 | 4 | 7 |
| گراک | 2 | 3 | 5 |
| دیپ سیک | 1 | 2 | 3 |
۲) تولید تصویر
دو پرامپت تصویرساز بررسی شد.
پرامپت ۱
«یک تصویر واقعی از مونالیزا بهعنوان معترضی خسته در تایمز اسکوئر نیویورک که تابلویی با نوشتهی Make Florence Great Again با حروف قرمز پررنگ در دست دارد.»
-
دیپ سیک: خارج از رقابت، چون تصویر تولید نمیکند.
-
گراک: سریعترین خروجی را داد، اما مونالیزا غیرواقعی و با اشکالات واضح مانند چهار دست.
-
جمنای: از نظر صحنه و ترکیب خوب، اما مونالیزا سه دست داشت.
-
چت جیپیتی: طبیعیترین مونالیزا و پسزمینهی قانعکنندهی تایمز اسکوئر.
امتیاز پرامپت ۱
-
چت جیپیتی: 4
-
جمنای: 3
-
گراک: 1
-
دیپ سیک: 0
پرامپت ۲
«کلاس درس با معلم هیپی کنار تختهای که الفبای کامل با گچ نوشته شده و اندازهی حروف رفتهرفته کوچک میشود؛ تصویر کاملاً فتورئالیستیک.»
-
دیپ سیک: باز هم خارج از رقابت.
-
گراک: کلاس و دستخط طبیعی، ولی خود الفبا ناقص بود و ته خط بههم میریخت.
-
جمنای: تصویر بیشتر استیلیزه تا فتو؛ حروف بیش از حد بینقص و نوشتههای اضافهی نامربوط.
-
چت جیپیتی: واقعیترین نور و صحنه؛ ایراد جزئی دستخط بیش از حد تمیز.
امتیاز پرامپت ۲
مطابق متن منبع، در این سناریو سقف امتیازدهی ۳ اعلام شده بود:
-
چت جیپیتی: 3
-
جمنای: 2
-
گراک: 2
-
دیپ سیک: 0
جمع کتگوری تولید تصویر
| مدل | پرامپت ۱ | پرامپت ۲ | جمع |
|---|---|---|---|
| چت جیپیتی | 4 | 3 | 7 |
| جمنای | 3 | 2 | 5 |
| گراک | 1 | 2 | 4 |
| دیپ سیک | 0 | 0 | 0 |
۳) واقعیتسنجی بدون اینترنت
سه سؤال چندگزینهای با تکیه بر دانش داخلی مدلها.
سؤال ۱
«در سال ۲۰۱۸ تقریباً چند مرغ برای تولید گوشت کشته شد؟ الف) 690 میلیون ب) 6.9 میلیارد ج) 69 میلیارد د) 690 میلیارد»
پاسخ درست: 69 میلیارد.
-
چت جیپیتی: بازهی 65 تا 70 میلیارد با اعتماد 85 درصد.
-
جمنای: حدود 65 میلیارد با اعتماد 90 درصد.
-
گراک: 69 میلیارد با اعتماد 65 درصد.
-
دیپ سیک: 65 میلیارد با اعتماد 75 درصد.
بهترین دقت با گراک بود. پاسخ چت جیپیتی بازهای و شامل عدد صحیح. جمنای و دیپ سیک در انتهای جدول.
امتیاز سؤال ۱
-
گراک: 4
-
چت جیپیتی: 3
-
جمنای: 1
-
دیپ سیک: 1
سؤال ۲
«در سال ۲۰۲۰ درآمد سالانهی لازم برای ورود به ۱ درصد ثروتمند جهان؟ الف) 200k ب) 75k ج) 35k د) 15k دلار»
پاسخ درست: 35 هزار دلار.
-
چت جیپیتی: 200 هزار با 80٪ اعتماد.
-
جمنای: 34 هزار با 95٪ اعتماد.
-
گراک: 60 هزار با 70٪ اعتماد.
-
دیپ سیک: 75 تا 85 هزار با 70٪ اعتماد.
امتیاز سؤال ۲
-
جمنای: 4
-
سایرین: 0
سؤال ۳
«در سال ۲۰۱۹ چه سهمی از برق آمریکا از سوختهای فسیلی تأمین شد؟ الف) 83٪ ب) 63٪ ج) 43٪ د) 23٪»
پاسخ درست: 63٪.
-
چت جیپیتی: 63 تا 65٪
-
جمنای: 63٪
-
گراک: 62٪
-
دیپ سیک: 60 تا 65٪
امتیاز سؤال ۳
-
جمنای: 4
-
چت جیپیتی: 3
-
گراک: 3
-
دیپ سیک: 3
جمع کتگوری واقعیتسنجی
| مدل | س۱ | س۲ | س۳ | جمع |
|---|---|---|---|---|
| چت جیپیتی | 3 | 0 | 3 | 6 |
| جمنای | 1 | 4 | 4 | 9 |
| گراک | 4 | 0 | 3 | 7 |
| دیپ سیک | 1 | 0 | 3 | 4 |
۴) تحلیل چندوجهی تصویر و متن
دو زیردرس: تحلیل محتویات یخچال و یافتن «والو» در تصویر شلوغ.
زیردرس ۱: «داخل یخچال چیست و سه وعدهی غذایی پیشنهاد کن»
-
دیپ سیک حذف شد، چون در تشخیص اشیای تصویر ناکاراست و صرفاً متن داخل تصویر را میخوانَد.
-
چت جیپیتی: سه مورد را از قلم انداخت، اما چیز اضافهای نساخت.
-
جمنای: هفت مورد را جا انداخت و پرتقال و گریپفروت خیالی اضافه کرد.
-
گراک: مثل چت جیپیتی سه مورد جا انداخت، اما فهرست بلندی از اقلام خیالی ساخت.
امتیاز
-
چت جیپیتی: 4
-
جمنای: 3
-
گراک: 2
-
دیپ سیک: 0
زیردرس ۲: «شخصیت والو کجاست؟»
هیچکدام از مدلها محل درست را پیدا نکردند. دیپ سیک صرفاً متنهای داخل تصویر را خواند و نتیجهای بیربط داد.
امتیاز
-
همه: 0
جمع کتگوری تحلیل
| مدل | یخچال | والو | جمع |
|---|---|---|---|
| چت جیپیتی | 4 | 0 | 4 |
| جمنای | 3 | 0 | 3 |
| گراک | 2 | 0 | 2 |
| دیپ سیک | 0 | 0 | 0 |
۵) تولید ویدئو
دو آزمون: تبدیل «یک تصویر به ویدئو» با صدای تولیدی مدلها.
آزمون ۱: «نیل آرمسترانگ روی ماه»
-
دیپ سیک: خارج از رقابت (توانایی ساخت ویدیو ندارد!)
-
محدودیت Sora 2 این بود که عکس دارای انسان را مستقیماً انیمه نمیکرد. با تبدیل عکس به پرامپت متنی دور زدیم، اما خروجی شبیه عکس متحرک شد. صدای محیطی خوب بود.
-
جمنای: سینماتیکترین نتیجه؛ صدا روی فضا مینشست. ایراد فنی: تکانخوردن پرچم در خلأ.
-
گراک: خوب، اما سفینه کمی کوچک و باد غیرواقعی.
امتیاز آزمون ۱
-
جمنای: 4
-
گراک: 3
-
چت جیپیتی: 2
-
دیپ سیک: 0
آزمون ۲: «کارگران روی تیرآهن معلق بالای شهر»
-
جمنای: بهترین دوربین و پسزمینه؛ سیگارها کمی غیرواقعی.
-
گراک: حس تنش با تابخوردن تیرآهن؛ اشکال در تغییر روزنامهها وسط صحنه.
-
چت جیپیتی: متوسط رو به خوب.
-
دیپ سیک: خارج از رقابت.
امتیاز آزمون ۲
-
جمنای: 4
-
گراک: 3
-
چت جیپیتی: 2
-
دیپ سیک: 0
جمع کتگوری تولید ویدئو
| مدل | آزمون ۱ | آزمون ۲ | جمع |
|---|---|---|---|
| جمنای | 4 | 4 | 8 |
| گراک | 3 | 3 | 6 |
| چت جیپیتی | 2 | 2 | 4 |
| دیپ سیک | 0 | 0 | 0 |
۶) تولید محتوای خلاق
دو پرامپت کوتاه برای شوخی و بازی با کلمات.
پرامپت ۱: «سه ایهام یا شوخی واژهای درباره تکنولوژی روزمره ساخته و در یک جمله بگو چرا بامزه است.»
هر چهار مدل دقیق و بیاشتباه پاسخ دادند. محبوبترین جوک برتر:
«میخواستم درباره USB جوک بگم، ولی جا (استیک) نخورد!»
امتیاز پرامپت ۱
-
چت جیپیتی: 3
-
جمنای: 3
-
گراک: 3
-
دیپ سیک: 3
پرامپت ۲: «سه دَدجوک (جوک شوهر عمهای!) کاملا اورجینال که واقعا بخندانَد»
-
گراک خطا کرد و همچنان به همان تمِ گوشی و وایفای چسبید، درحالیکه پرامپت عمومی بود.
-
چت جیپیتی، جمنای و دیپ سیک دستور را درست اجرا کردند. جوک برگزیده:
«شب گذشته نانوایی دوستم سوخت، حالا کسب و کارش تُست شده!»
امتیاز پرامپت ۲
-
چت جیپیتی: 4
-
جمنای: 4
-
دیپ سیک: 4
-
گراک: 1
جمع کتگوری تولید خلاق
| مدل | پرامپت ۱ | پرامپت ۲ | جمع |
|---|---|---|---|
| چت جیپیتی | 3 | 4 | 7 |
| جمنای | 3 | 4 | 7 |
| دیپ سیک | 3 | 4 | 7 |
| گراک | 3 | 1 | 4 |
۷) حالت صوتی و مکالمه طبیعی
دیپ سیک قابلیت صوتی ندارد. سه دوئل اجرا شد.
-
چت جیپیتی در شروع کمی مکثهای نامعمول داشت و لحن میان جمله جابهجا میشد.
-
جمنای روانترین و طبیعیترین جریان گفتار را داشت.
-
گراک تیز و با اعتمادبهنفس، کمی شخصیتدارتر. در دوئل جمنای و گراک، هر دو خوب بودند و نتیجه برابر شد.
امتیاز کتگوری صوتی
-
جمنای: 4
-
گراک: 4
-
چت جیپیتی: 2
-
دیپ سیک: 0
۸) تحقیق عمیق و داوری نهایی
پرامپت: «آیفون 17 پرو مکس را با گلکسی S25 اولترا برای عکاسان مقایسه کن. از نقدها و مشخصات رسمی استفاده کن. مختصر نتیجه بگیر کدام برای عکاسی بهتر است.»
-
دیپ سیک مشخصات ماژول تله آیفون را اشتباه گفت.
-
چت جیپیتی و دیپ سیک دوربین سلفی را نادیده گرفتند؛ ChatGPT تنها مدلی بود که قیمت را ذکر کرد.
-
در سمت گلکسی، دیپ سیک اولتراواید را ۱۲ مگاپیکسل گفت درحالیکه ۵۰ است؛ چت جیپیتی یکی از تلهها را فراموش کرد و فقط ۵x را گفت.
-
جمنای و گراک آرایش دوربین گلکسی را درست آوردند. دیپ سیک همچنان به ۳x و ۱۰x اشاره کرد درحالیکه ۱۰x از سری S24 حذف شده بود.
جمعبندی همه: اگر ویدئو و ثبات را میخواهید آیفون برتر است؛ اگر زوم و ابزارهای هوش مصنوعی پیشرفته مهمتر است، گلکسی جلو میزند. این نزدیک به یافتههای میدانی است؛ بااینحال بههیچوجه نباید ارقام خام مثل مگاپیکسل و دیافراگم را بدون راستیآزمایی پذیرفت.
امتیاز کتگوری تحقیق عمیق
-
گراک: 4
-
جمنای: 3
-
چت جیپیتی: 2
-
دیپ سیک: 1
۹) سرعت پاسخگویی؛ فقط مشاهده، بدون امتیاز
-
چت جیپیتی در کارهای متنی معمولاً سریعترین حس میشود، اما در تولید تصویر و مخصوصاً تحقیق عمیق کندتر میشود.
-
جمنای تقریباً همیشه پایدار و متوسطسرعت است؛ نه غالباً اول، نه غالباً آخر.
-
گراک عموماً تند است، اما در تحلیل و تحقیق عمیق افت سرعت دارد.
-
دیپ سیک گاهی زیر ۱۰ ثانیه جواب میدهد، ولی این شتاب بهای دقت و زمینهفهم را میدهد.
همانطور که در ابتدای مقاله گفتیم، سرعت را کتگوری امتیازدار نگرفتیم تا جمع امتیازات با نتیجهی رسمی رقابت همسان باشد.
تابلوی امتیازات مرحلهبهمرحله
برای شفافیت کامل، امتیاز هر کتگوری را یکجا میبینید. جمع نهایی دقیقاً با نتیجهی مسابقه همخوان است.
| کتگوری | چت جیپیتی | جمنای | گراک | دیپ سیک |
|---|---|---|---|---|
| حل مسئله | 7 | 7 | 5 | 3 |
| تولید تصویر | 7 | 5 | 4 | 0 |
| واقعیتسنجی | 6 | 9 | 7 | 4 |
| تحلیل | 4 | 3 | 2 | 0 |
| تولید ویدئو | 4 | 8 | 6 | 0 |
| تولید خلاق | 7 | 7 | 4 | 7 |
| حالت صوتی | 2 | 4 | 4 | 0 |
| تحقیق عمیق | 2 | 3 | 4 | 1 |
| مجموع کل | 39 | 46 | 35 | 17 |
خوانش نتایج و تفسیر کاربردی
۱) چرا جمنای برنده شد؟
چون در سه میدان کلیدی همزمان میدرخشد: واقعیتسنجی دقیق، تولید ویدئو که از نظر کیفی جلوتر است، و حل مسئله تطبیقی. بهعلاوه در صوت طبیعی و پایدار ظاهر میشود. مهمتر اینکه در جاهایی که مدلهای دیگر «ساختگی» اضافه میکنند، جمنای کمتر دچار توهّم میشود و در جمعبندیهای مبتنی بر داده، منسجمتر میایستد. برای کاربری عمومی با ترکیب «تحلیل، تولید و صحت»، انتخاب امنی است.
۲) چت جیپیتی چگونه دوم شد؟
چت جیپیتی دو نقطهی قوت پررنگ دارد: حل مسئله ساختیافته و تولید تصویر باکیفیت. در تحلیل محتوای تصویری یخچال هم با دقت و بدون اختراع اقلام خیالی عمل کرد. در خلاقیت نیز عالی است. ضعف نسبی در تحقیق عمیق و گاهی کندی در کارهای سنگین چندرسانهای امتیاز کلیاش را پایینتر آورد.
۳) گراک کجا میدرخشد و کجا میلغزد؟
گراک در تحقیق عمیق بهترین بود و در صوت هم پرانرژی و «شخصیتدار» عمل کرد. اما در تحلیل تصویر، اشتباهات اختراعی زیاد داشت و در تولید تصویر هم اشکالات فاحش بصری دیدیم. برای کاربرانی که جمعبندی تند و تیز و نگاه جدلی میخواهند جذاب است، اما برای کارهای حساس به دقت خام، باید در کنارش راستیآزمایی کرد.
۴) دیپ سیک چرا آخر شد؟
سرعت بالا دارد و در طنز و دَدجوک هم عملکرد خوبی نشان داد، اما در تصویر و ویدئو اصلاً شرکت نمیکند و در تحلیل تصویر نیز بهدلیل ناتوانی در شناسایی اشیا کنار گذاشته شد. در واقعیتسنجی و تحقیق عمیق هم اشتباهات عددی داشت. برای متنهای سریع و سبک میتواند مفید باشد، اما سبد توانمندیاش نسبت به سه رقیب محدودتر است.
توصیه بر اساس سناریوهای واقعی
-
تولید ویدئو، کلیپ و خروجیهای چندرسانهای سطحبالا: جمنای
-
تصویرسازی پایدار و فتورئالیستی با تبعیت دقیق از پرامپت: چت جیپیتی
-
تحقیق عمیق روی محصولات و جمعبندی منسجم با مقایسهی چند منبع: گراک
-
متنهای سریع، شوخی و تولید محتوای سبک با هزینهی پردازشی کم: دیپ سیک
-
حل مسئلههای روزمره و برنامهریزیهای مرحلهای: چت جیپیتی و جمنای تقریباً شانهبهشانه
-
مکالمهی صوتی طبیعی و شخصیتدار: جمنای و گراک
جمعبندی نهایی
این رقابت نشان میدهد «بهترین» مدل، بسته به کاری که دارید تغییر میکند. جمنای با ۴۶ امتیاز قهرمان کلی شد، چون در دقت، چندرسانهای و سازگاری با مسئله ترکیب متوازنی ارائه میدهد. چت جیپیتی با ۳۹ امتیاز نزدیکِ قهرمان ایستاد و در تصویر، حل مسئله و خلاقیت درخشان بود. گراک با ۳۵ امتیاز نشان داد وقتی پای تحقیق عمیق و گفتوگوی زنده وسط است، انتخاب قدرتمندی است؛ هرچند باید مراقب خطاهای ادراکیاش بود. دیپ سیک با ۱۷ امتیاز ثابت کرد سرعت همیشه مساوی دقت نیست و نبود قابلیتهای تصویری و ویدئویی در رقابت تمامعیار امتیازها را میسوزاند.
اگر یک انتخاب واحد میخواهید که در بیشترین تعداد سناریوها «خیالتان را راحت کند»، جمنای برندهی امسال است. اگر اولویتتان تصویر و حل مسئلهی ساختیافته است و اکوسیستم تولید محتوا برایتان حیاتی است، چت جیپیتی در عمل چند سلاح قویتر در غلاف دارد. برای پژوهش تحلیلی عمیق، نگاهی هم به گراک داشته باشید. و اگر صرفاً سرعت و محتوای سبک متنی برایتان مهمتر است، دیپ سیک میتواند یار کمهزینهای باشد.
هوش مصنوعی ابزار است؛ مهم این است چه کاری با آن انجام میدهید. این چهار مدل هرکدام «بهترین» جایی هستند. انتخابتان را با کاری که میخواهید بسنجید، نه با هیاهوی تبلیغاتی.
























