ChatGPT Vision چیست؟ نسخه تصویر محور ChatGPT چه کاربردهای متحیرکننده‌ای دارد؟

چت جی‌‌بی‌تی یک هوش مصنوعی فوق‌العاده جذاب و تحسین‌برانگیز است که از زمان عرضه تا به امروز تغییرات زیادی در نحوه امور کارها در جهان انجام داده است. این هوش مصنوعی می‌تواند متن نوشته شده توسط شما را بفهمد و به آن‌ها پاسخ دهد یا جواب سوالات شما را بدهد.

اما نسخه جدید این هوش مصنوعی یک گام بلند رو به جلو برداشته و فراتر از تصور ظاهر شده است. ChatGPT اخیرا یک قابلیت جدید هیجان‌انگیز را ارائه کرده که توانایی تجزیه و تحلیل تصاویر آپلود شده توسط کاربران را دارد.

درواقع تاکنون روش انجام کار با هوش مصنوعی این بود که ما متن می‌نوشتیم و هوش مصنوعی به ما پاسخ می‌داد ولی حالا ChatGPT قابلیت تشخیص و تحلیل دقیق تصاویر را دارد. این یکپارچه سازی “بینایی کامپیوتری” به ChatGPT اجازه می‌دهد تا عکس‌ها را ببیند و درک کند و سوالات مربوط به محتوای بصری را هم پاسخ دهد.

نسخه جدید ChatGPT Vision نام دارد. البته مانند همیشه نباید بیش از حد هیجان زده شویم و فکر کنیم چت ‌جی‌بی‌تی ویژن می‌تواند هر عکسی را تحلیل کند، طبیعتا این نسخه به‌ویژه حالا که تازه عرضه شده نقص‌هایی دارد. ChatGPT Vision رباتی با بینایی قابل مقایسه با انسان نیست. اما این یک ربات چت هوش مصنوعی با توانایی‌های ویژه‌ای مانند تجزیه و تحلیل تصویر است. می‌توانید آن را به عنوان یک شرلوک هلمز عکاس در عصر دیجیتال در نظر بگیرید.

چت جی‌بی‌تی ویژن به عنوان چهارمین نسخه چت جی‌بی‌تی محسوب می‌شود که ابتدا در ماه مارس معرفی شد ولی مشکلات امنیتی فراوانی داشت و پس از رفع این مشکلات حالا ChatGPT Vision در اختیار ما قرار گرفته است.

چگونه از ChatGPT Vision استفاده کنیم؟

استفاده از ChatGPT Vision ساده است. تنها باید این اقدامات را انجام دهید:

برنامه ChatGPT را روی تلفن هوشمند iOS یا اندروید خود نصب کنید: مطمئن شوید که برنامه ChatGPT روی دستگاه شما نصب شده و شما مشترک ChatGPT Plus هستید.

آپلود عکس: با استفاده از برنامه‌ای که می‌خواهید ChatGPT Vision آن را تجزیه و تحلیل کند، عکسی را ارسال کنید.

مکالمه: هنگامی که تصویر آپلود شد، یک مکالمه معمولی را با استفاده از ChatGPT شروع کنید و از آن بخواهید اطلاعات مورد نظر شما را در تصویر تحلیل کند.

هوش مصنوعی ChatGPT Vision چه کارهایی را می‌تواند انجام دهد؟

طبیعتا این هوش مصنوعی همه‌کاره نیست ولی به شما قول می‌دهم کارهای بسیار بسیار زیادی از دست آن بر می‌آید. به معنای واقعی کلمه ChatGPT Vision کارایی‌های بیشتری نسبت به نسخه صرفا متنی آن دارد و می‌تواند زندگی شما را دگرگون کند.

تابلوهای راهنمایی و رانندگی را ترجمه کنید: تابلوهای راهنمایی و رانندگی زیاد هستند و شاید گاهی معنی برخی از آن‌ها را فراموش کنید. ChatGPT Vision می‌تواند تابلوهای راهنمایی و رانندگی را برای شما تحلیل کند و بگوید هر تابلو به چه منظوری است.

ترجمه متن دست‌ نویس: این هوش مصنوعی در خواندن و ترجمه یادداشت‌های دست‌نویس تبحر زیادی دارد و حتی می‌تواند آن‌ها را ترجمه کند.

بازخوانی متون قدیمی: ویژن می‌تواند متن‌های قدیمی و آسیب دیده را بازسازی و زنده کند. فقط کافی است عکسی از متن قدیمی را به آن دهید.

طراحی سایت یا تحلیل آن: ChatGPT Vision می‌تواند در حد یک معجزه‌گر باشد. می‌توانید تصویر و یا طرحی از سایتی که می‌خواهید را به او نشان دهید تا کدهای سایت را برای شما بسازد. اگر تا به حال یک وب‌سایت می‌خواستید اما نمی‌دانستید چگونه کدنویسی کنید، ChatGPT Vision می‌تواند یکی از طرح‌های شما بسازد. این هوش مصنوعی همچنین می‌تواند تصاویری که شما از سایت‌های مختلف، مثلا سایت‌های رقیب خود را برایش می‌فرستید، تحلیل و نقد کند.

شناسایی مکان‌ها و آثار باستانی: این برنامه می‌تواند تصاویر از هرجای دنیا که برایش می‌فرستید را بررسی کند و نام مکان یا نحوه سفر به آن را بگوید. همین معادله در خصوص آثار باستی و انواع اثرات هنری و بصری هم صدق می‌کند.

بازخورد هنری: اگر اهل هنر‌های بصری و تجسمی هستید، ChatGPT Vision می‌تواند بر اساس تصویر کار شما، انتقادات سازنده‌ای ارائه کند و به شما کمک کند مهارت‌های خود را تقویت کنید.

دستور پخت غذا: تصویر یک غذا را به چت چی‌بی‌تی ویژن نشان دهید و از او بخواهید طرز تهیه آن را به شما بیاموزد، نتایج شگفت انگیز است!

حل و ساده‌سازی معادلات: این هوش مصنوعی می‌تواند تصاویر معادلات و مسائل ریاضی که برایش می‌فرستید را بررسی، تحلیل و حل کند، حتی می‌توانید از آن بخواهید روش حل معادله را به شما بگوید و آموزش دهد.

طراحی دکوراسیون: نیاز به یک دکوراسیون جدید دارید؟ تصویر اتاق یا خانه خود را به ChatGPT Vision بدهید تا یک دکوراسیون جدید برای شما در نظر بگیرد یا در خصوص نکاتی که به بهبود فضای خانه شما کمک می‌کند، اطلاعاتی را ارائه دهد.

شناسایی حیوانات: اگر حیوان عجیبی را دیدید می‌توانید تصویرش را به هوش مصنوعی نشان داده و نامش را به همراه اطلاعات کاملی در مورد او دریافت کنید. البته کاربرد ChatGPT Vision بیش از این حرف‌هاست. او می‌تواند نژاد حیوانات مثل نژادهای اسب را تشخیص دهد یا به شما بگوید ماری که عکسش را برایش فرستاید، سمی است یا خیر!

شناسایی گیاهان: همین مواردی که در خصوص حیوانات گفته شد، در خصوص گیاهان، سمی بودن یا خواصشان هم صدق می‌کند.

مشاوره هنری/تخصصی: به یک مشاور نیاز دارید تا تصاویر ادیت شده شما، نقاشی‌ها، حتی طراحی رابط کاربری، طراحی‌های صنعتی یا موارد بصری تخصصی را برای شما تحلیل کند؟ یا آنکه تصاویر شما از محصولات یا پرتره‌هایی که گرفتید را بررسی کند؟ ChatGPT Vision این کار را برای شما انجام می‌دهد.

واقعیت آن است که موارد ذکر شده صرفا عناوین پایه بودند و شما با توجه به شغل و نیازهای خود، به روش‌های مختلف از ChatGPT Vision استفاده کنید، شاید شما عکاس باشید یا یک باستان شناس، شاید کارگردان باشید یا یک توریست، شاید یک طراح صنعتی باشید یا یک خانم خانه‌دار، به هر ترتیب برای نیازهای خود می‌توانید از ChatGPT Vision استفاده کنید.

هوش مصنوعی ChatGPT Vision چه کارهایی را نمی‌تواند انجام دهد؟

می‌دانید که اگر هوش مصنوعی بیش از هوشمند باشد و افساری برای آن نگذاریم می‌تواند خطرناک باشد. این مشکل برای ChatGPT Vision به وجود آمد.

در ابتدای عرضه این نسخه کاربران تصاویر افرادی را به هوش مصنوعی می‌دادند و نام و اطلاعات یا محل زندگی این افراد را می‌خواستند. در واقع در نسخه اولیه کاربران می‌توانستند تصاویری از افراد را ارسال کنند و از ChatGPT بخواهند که آنها را شناسایی کند، که این یک خطر جدی برای حفظ حریم خصوصی بود. بر اساس مقاله جدید OpenAI، نسخه فعلی (GPT-4V)، بیش از 98% این درخواست‌ها را رد می‌کند و از حریم خصوصی کاربران محافظت می‌کند.

حالا اگر شما عکس فردی مانند دونالد ترامپ را به ChatGPT Vision بدهید، او پاسخ دقیقی به شما نمی‌دهد ولی چون ترامپ مشهور است، شاید بگوید که ظاهر این فرد شبیه رئیس جمهور پیشین آمریکا است. در خصوص تشخیص چهره سلبریتی‌ها نیز همین رویه دنبال می‌شود.

همچنین در نسخه‌های ابتدایی مواردی مانند پیشنهاد در مورد ظاهر و بدن افراد داده می‌شد که حالا این موارد رد شده است.

این پیشنهادات همان چیزی است که OpenAI از آن به عنوان ” استنباط‌های بی‌پایه” یاد می‌کند و نسخه فعلی ChatGPT Vision چنین درخواست‌هایی را رد می‌کند. این هوش مصنوعی به طور کلی در 97.2% مواقع در مورد اطلاعات آسیب‌زا، مانند راهنمای روش ساخت ترکیبات خطرناک یا هر چیز دیگری که خطری به همراه دارد، با “نه” پاسخ می‎‌دهد.

اما همانطور که می‌بینید هیچ چیزی 100 درصد نیست. یعنی هنوز ممکن است حریم خصوصی شما در ChatGPT نقض شود یا راهنمایی خطرناکی به مردم داده شود. همچنین در خصوص توهین، نژادپرستی و نفرت پراکنی با وجود پیشرفت‌های زیاد نسبت به نسخه‌های اولیه، هنوز هم اشکالاتی در کار ChatGPT دیده می‌شود.

هوش مصنوعی و آینده! چه در انتظار ماست؟

با وجود همه تبلیغاتی که طی سال گذشته برای هوش مصنوعی انجام شد، تشخیص اینکه چه روندی در انتظار ماست و در آینده باید منتظر چه اتفاقاتی باشیم، کمی سخت است. آخرین به‌روزرسانی OpenAI در ChatGPT که به عنوان تغییر دهنده بازی لقب گرفته است، با وجود پلاگین‌های جدید توانسته توجه زیادی به خود جلب کند و این روزها همه درگیر سر و کله زدن با ChatGPT Vision هستند.

آنچه که در GPT-4V دیده می‌شود، امیدوار کننده است. هائو ژانگ، استاد دانشگاه کالیفرنیا، سن‌دیگو (UCSD) باور دارد که “جامعه [AI] ممکن است بیشتر به سمت بینایی/ادراک حرکت کند.” به طور کلی مردم کار با تصاویر را بیشتر از کار با متون دوست دارند و شبکه‌های اجتماعی تصویر و ویدیو محور نیز به شدت مورد استقبال قرار گرفته است. شاید آپدیت بعدی ChatGPT در زمینه تصاویر متحرک و ویدیو باشد!

شرکت OpenAI همچنین اخیرا روی نسخه بهبودیافته مولد تصویر Dall-E خود سرمایه‌گذاری کرده و قصد دارد آن را در ChatGPT نیز ادغام کند. قطعا این اتفاقی بزرگ در دنیای هوش مصنوعی خواهد بود و قدرت و کاربردهای ChatGPT را چندین پله افزایش می‌دهد. البته OpenAI باید مراقب رقبا هم باشد، ادغام گوگل لنز با Bard می‌توان برای OpenAI تهدیدآمیز باشد.

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

به بالا بروید
TCH