در حالی که هوش مصنوعی به عنوان یک قله از نوآوری و اتوماسیون معرفی میشود، واقعیت این است که بخش عمدهای از فرایند آموزش مدلهای هوش مصنوعی بر دوش هزاران نیروی انسانی در سراسر جهان قرار دارد. یکی از اساسیترین مراحل، «برچسبگذاری دادهها» (Data Labeling) است؛ یعنی همان مرحلهای که طی آن محتواهایی مانند متن، صدا یا ویدیو به شکل دقیق توسط انسانها طبقهبندی و علامتگذاری میشود تا الگوریتمهای یادگیری ماشین قابلیت آموزش بیابند.
کارگران زحمتکش در سایه: ستون فقرات صنعت هوش مصنوعی
پیشرفت مدلهای پردازش زبان مانند هوش مصنوعی چتباتها و مدلهای زبانی بزرگ (LLM) مدیون نیروهای قراردادی است که اغلب از کشورهای کمدرآمدی همچون فیلیپین، پاکستان، کنیا و هند استخدام میشوند. باوجود اهمیت کار آنها برای شکلگیری قابلیتهای چتباتها و محصولات هوشمند، بسیاری از این افراد زیر حداقل دستمزد و در شرایط طاقتفرسا فعالیت میکنند. تکرار، مواجهه با محتوای خشونتآمیز یا نفرتافزا و فقدان حمایت روانی بخشی از سختیهای روزمره این شغل است.
اسناد لو رفته: واقعیتهای پنهان آموزش چتباتها
اخیراً نشریه Inc مجموعهای از دستورالعملهای امنیتی شرکت Surge AI را منتشر کرد؛ یک شرکت میلیارد دلاری فعال در زمینه برچسبگذاری دادهها که نقش حیاتی در آموزش مدلهایی مانند Claude اثر Anthropic ایفا میکند. این اسناد که آخرین بار در جولای ۲۰۲۴ بهروزرسانی شدهاند، طیف متنوعی از موضوعات از جمله «راهنمایی پزشکی»، «محتوای جنسی صریح»، «گفتار نفرتآمیز» و «خشونت» را در بر میگیرند.
شرکت Surge AI عمدتاً به عنوان یک واسطه، از طریق زیرمجموعه خود DataAnnotation.Tech، پیمانکارانی را برای آموزش و پالایش مدلهای زبانی استخدام میکند. طبق مستندات، این پیمانکاران مسئول گرفتن تصمیمات حساس و چالشبرانگیز در خصوص محتوای خروجی چتباتها هستند. به عنوان مثال، دستورات واضحی وجود دارد که چتبات باید از تولید محتوای تبعیضآمیز یا تحریکآمیز خودداری کند، اما در عین حال تولید شوخیهای محترمانه مجاز است؛ به شرطی که به گروههای خاص آسیبی وارد نشود.
چالشهای اخلاقی: سردرگمی در مرز قانون و ارزشهای اجتماعی
این اسناد همچنین نشان میدهد که تشخیص مرزهای قانونی و اخلاقی برای یک محصول جهانی چقدر دشوار است؛ زیرا تعاریف رفتار «غیرقانونی» در کشورها و فرهنگهای مختلف تفاوت دارد. در برخی موارد، دستورالعملها کاملاً روشن نیستند. برای مثال، چتبات اجازه ندارد به طور شفاف آموزش دهد «چگونه میتوان وارد یک ساختمان اداری شد»، اما توصیف کلی درباره «دوری از سیستمهای امنیتی» هنوز مشکلی ندارد. همین روند درباره سلاحهای پرینت سهبعدی نیز مشاهده میشود.
همچنین فشار روانی ناشی از نظارت بر چنین محتوای حساسی و پیچیدهای بر کارگران انسانی، به ویژه در کشورهایی با درآمد پایین، نادیده گرفته میشود. با توجه به این که چتباتهای LLM حالا به دستیاران مجازی بیوقفه و همهچیزدان کاربران بدل شدهاند، به نظر میرسد فرایند تصمیمگیری درباره مسایل کلیدی انسانی هنوز بر عهده متخصصان دادهای است که شاید آمادگی کافی برای چالشهای اخلاقی و فرهنگی نداشته باشند.
ویژگیها و پیامدها: چتباتهای LLM زیر ذرهبین
مدلهای زبانی بزرگ یا LLM مانند ChatGPT و Claude قدرتی فوقالعاده در درک و تولید زبان طبیعی دارند. اما موفقیت آنها وابسته به کیفیت دادههای برچسبزده شده و دستورالعملهای اخلاقی است که از سوی شرکتهایی چون Surge AI تعریف و پردازش میشود. همین امر باعث میشود که قابلیتها، محدودیتها و ریسکهای آنها برای کاربران و سازمانهای سراسر دنیا اهمیت روزافزونی بیابد.
مقایسه و کاربردهای بازار
در رقابت شدید شرکتهای فناوری در زمینه هوش مصنوعی، برندهایی چون Anthropic، OpenAI و Google هر روز به دنبال ارتقای مدلهای زبانی خود هستند. این مدلها نه تنها برای مکالمه و چت، بلکه در حوزههای امنیت سایبری، تولید محتوا، ترجمه خودکار و تحلیل احساسات کاربردهای فراوانی دارند. اما تفاوت اساسی زمانی رقم میخورد که کاربران بخواهند به ریشه قابلیتها – یعنی نیروهای انسانی پشت پرده – و چالشهای اخلاقی این صنعت توجه کنند.
نتیجهگیری: آینده LLMها و وظیفه وجدان دیجیتال
هرچند که هوش مصنوعی روزبهروز به ابزارهای هوشمند تری تبدیل میشود، حقیقت آن است که پشت این سیستمهای خودکار، لشکری از نیروی انسانی در تلاش برای ساخت وجدان دیجیتال آنهاست. تا زمانی که استانداردهای حمایتی، اقتصادی و اخلاقی برای برچسبگذاران داده بهبود نیابد، ضمیر اخلاقی رباتهای آینده به دست کارگرانی تأمین میشود که کمتر دیده میشوند. LLMها شاید آینده فناوری باشند اما برای اکنون، وجدان آنها در اختیار نیروی انسانی است.




