تازهترین دستاوردهای شرکت OpenAI در عرصه هوش مصنوعی، با رونمایی از مدلهای پیشرفتهای که قادر به تشخیص موقعیت جغرافیایی تصاویر صرفاً بر اساس نشانههای بصری موجود در آنها هستند، موجی از شگفتی و تحسین را برانگیخته است. این قابلیت نوظهور، که به عنوان یک جهش قابل توجه در درک بصری توسط ChatGPT توصیف شده، امکان تحلیل و تفسیر محتوای دیداری را به سطحی کاملاً جدید ارتقا داده است.
بر اساس گزارشهای منتشر شده، کاربران اکنون میتوانند تصاویر مورد نظر خود را در این مدلهای هوشمند بارگذاری کرده و از آنها بخواهند تا مکان ثبت آنها را با استناد به جزئیات موجود حدس بزنند. این فرآیند که از آن به عنوان “جستجوی معکوس موقعیت مکانی” یاد میشود، نتایج به دست آمدهای را به نمایش گذاشته که از نظر دقت، بسیار فراتر از انتظارات بوده است. هوش مصنوعی با تجزیه و تحلیل دقیق عناصر بصری تصویر و انجام یک فرآیند استدلالی پیچیده درونی، پس از مدت کوتاهی، نه تنها موقعیت احتمالی را اعلام میکند، بلکه با ارائه زنجیرهای از استدلالهای منطقی، چگونگی دستیابی به این نتیجه را نیز شرح میدهد.
به عنوان نمونهای از کارایی این فناوری، کاربری با نام مستعار “Yumi” تصویری از یک کتاب واقع در قفسههای یک کتابخانه را در شبکه اجتماعی ایکس به اشتراک گذاشت. در کمال تعجب، مدل هوش مصنوعی تنها با تکیه بر کدی که بر روی برچسب کتاب درج شده بود، توانست با دقت مثالزدنی تشخیص دهد که این تصویر در محیط دانشگاه ملبورن به ثبت رسیده است. در سناریوی دیگری، کاربر دیگری تصویری ظاهراً گرفته شده از طریق گوگلارث از یک خانه معمولی در کشور سورینام را بارگذاری کرد و سیستم هوشمند ChatGPT با موفقیت کامل، موقعیت دقیق آن را شناسایی نمود.
اگرچه ابزارهای مبتنی بر هوش مصنوعی برای تعیین موقعیت مکانی تصاویر پیش از این نیز وجود داشتهاند، اما ارائه این قابلیت به کاربران عادی از طریق مدل جدید o3 شرکت OpenAI، دسترسی به این فناوری پیشرفته را به طور چشمگیری گسترش داده است. شایان ذکر است که مدل قبلی این شرکت، GPT-4o نیز از چنین قابلیتی برخوردار بود، اما دقت و کارایی مدل o3 در این زمینه به مراتب بالاتر گزارش شده است.
در یک آزمایش تطبیقی که توسط خبرنگاران انجام شد، هر دو مدل هوش مصنوعی موظف به حدس زدن محل ثبت تصویری از یک خودروی الکتریکی جدید سوبارو بودند که در نمایشگاه خودروی نیویورک رونمایی شده بود. در این آزمون، مدل GPT-4o نتوانست موقعیت دقیق را تشخیص دهد، اما با این حال، به درستی حدس زد که احتمالاً تصویر در یکی از نمایشگاههای خودرو در شهرهای شیکاگو، نیویورک یا لسآنجلس گرفته شده است. این نتیجهگیری بر اساس تحلیل عناصری نظیر فضای نمایشگاهی، حضور خودروهای متعدد، تابلوهای اطلاعرسانی و تردد بازدیدکنندگان صورت پذیرفت. با این حال، این مدل در تشخیص نام خودرو دچار اشتباه شد و آن را “Trailspeed” نامید، در حالی که نام صحیح آن “Trailseeker” بود.
در مقابل، مدل پیشرفتهتر o3 عملکرد بهتری از خود نشان داد و پس از حدود یک دقیقه و چهل ثانیه پردازش و تحلیل، پاسخ دقیقتری ارائه کرد: “این یک کراساوور آبی رنگ، خودروی الکتریکی جدید سوبارو با نام Trailseeker مدل ۲۰۲۶ است که برای اولین بار در نمایشگاه بینالمللی خودروی نیویورک ۲۰۲۵ (NYIAS) در مرکز همایشهای جیکوب جاویتس منهتن معرفی شده است.” این مدل با بررسی صفحه معرفی خودرو در وبسایت رسمی سوبارو و تطبیق طراحی غرفه موجود در تصویر بارگذاری شده، از صحت مکان مورد نظر اطمینان حاصل کرد.
علاوه بر قابلیت تشخیص موقعیت مکانی، ChatGPT توانایی انجام ترکیبی از تشخیص و ویرایش تصاویر را نیز داراست. به عنوان مثال، اگر کاربری تصویری ناقص یا با کیفیت پایین بارگذاری کند، این مدل میتواند با دستکاری عناصر موجود در تصویر، به سؤال کاربر پاسخ دهد. در یک مورد خاص، در مواجهه با تصویری حاوی نوشتهای ناخوانا و وارونه، ChatGPT توضیح داد که ابتدا تصویر را چرخانده تا قابل خواندن شود و سپس متن موجود را تحلیل کرده و نتیجه را به این صورت اعلام کرد: “۴ فوریه – پایان نقشه راه”.
با وجود تمام مزایای این فناوری نوین، قابلیت تشخیص موقعیت مکانی تصاویر توسط هوش مصنوعی، نگرانیهایی را در مورد حفظ حریم خصوصی افراد به وجود آورده است. پیش از این نیز اپلیکیشنهایی مانند “Geospy” از هوش مصنوعی برای تعیین موقعیت مکانی بر اساس نشانههایی نظیر نوع پوشش گیاهی یا سبک معماری استفاده میکردند، اما استفاده گسترده از این ابزارها میتواند مخاطراتی را به همراه داشته باشد. گزارش منتشر شده توسط “404 Media” در اوایل سال جاری نشان داد که ممکن است نهادهای امنیتی یا حتی افراد سودجو از چنین فناوریهایی برای ردیابی و مکانیابی افراد از طریق تصاویر منتشر شده در شبکههای اجتماعی بهرهبرداری کنند.
با این حال، شرکت OpenAI با درک این نگرانیها، تأکید میکند که فناوری جدید میتواند در زمینههای مختلفی از جمله بهبود دسترسیپذیری برای افراد دارای معلولیت، پیشبرد تحقیقات علمی و واکنش مؤثر به موقعیتهای اضطراری، بسیار مفید واقع شود. سخنگوی این شرکت در این باره اظهار داشت: “مدلهای ما به گونهای آموزش داده شدهاند که از ارائه اطلاعات خصوصی یا حساس خودداری کنند. ما ابزارهای ایمنی لازم را برای جلوگیری از شناسایی افراد در تصاویر به کار گرفتهایم و به طور فعال بر نحوه استفاده کاربران نظارت میکنیم و در صورت مشاهده هرگونه سوءاستفاده، مطابق با سیاستهای حریم خصوصی خود اقدام خواهیم کرد.” این اظهارات نشاندهنده تلاش OpenAI برای ایجاد تعادل میان نوآوری و حفظ حریم خصوصی کاربران در عصر هوش مصنوعی است.