یک پژوهش رسانهای توسط روزنامه گاردین، پرده از یکی از نامحسوسترین و در عین حال نگرانکنندهترین تحولات در اکوسیستم هوش مصنوعی برداشته است: نفوذ تدریجی یک دایرهالمعارف تماماً مولدِ هوش مصنوعی و با جهتگیری سیاسی مشخص، به عنوان منبع اطلاعاتی برای پیشرفتهترین مدلهای زبانی جهان. بر اساس این گزارش که در ۲۴ ژانویه ۲۰۲۶ منتشر شد، «چتجیپیتی» مبتنی بر مدل «جیپیتی-۵.۲» در پاسخ به پرسشهایی درباره موضوعات «غامض» یا «جنجالی»، به طور مکرر و فزایندهای به اطلاعات مندرج در «گروکیپدیا» استناد میکند. گروکیپدیا پروژهای است که اکتبر ۲۰۲۵ توسط ایلان ماسک و از طریق شرکت «xAI» به عنوان رقیبی برای ویکیپدیا و با شعار «رهایی از سوگیریهای چپ افراطی» راهاندازی شد. محتوای این دایرهالمعارف که تا ژانویه ۲۰۲۶ به بیش از ۵.۶ میلیون مقاله رسیده، به طور کامل توسط مدل هوش مصنوعی «گروک» تولید شده و فاقد فرآیند ویرایش و نظارت سنتی انسانی است.
به گزارش برنا، گاردین در تستهای خود دریافت که از ۱۲ پرسش در حوزههای حساس، جیپیتی-۵.۲ در ۹ مورد به صراحت گروکیپدیا را به عنوان منبع اطلاعات خود معرفی کرده یا اطلاعاتی ارائه داده که مطابقت کامل با محتوای آن دارد. از جمله این موارد، ارائه آمار و جزئیاتی درباره «حقوق اعضای بسیج ایران» و «مالکیت نهادهای اقتصادی خاص» بوده که در منابع سنتی و معتبر به آن شکل یافت نمیشده است. همچنین، مدل در توصیف زندگی «ریچارد ایوانز»، تاریخدان برجسته بریتانیایی، اطلاعات نادرستی را ارائه کرد که ریشه در مقالهای غلط در گروکیپدیا داشت. این وابستگی اطلاعاتی، دانشمندان داده و پژوهشگران حوزه اعتبارسنجی اطلاعات را به شدت نگران کرده است. نگرانی اصلی حول مفهوم «آلودگی مدل» یا «Model Contamination» میچرخد. این پدیده زمانی رخ میدهد که یک مدل زبانی بزرگ (مانند جیپیتی) شروع به یادگیری از خروجیهای تولیدشده توسط یک مدل دیگر (مانند گروک) کند. این امر میتواند به ایجاد یک «حلقه بسته اطلاعاتی» بینجامد که در آن خطاها یا سوگیریهای موجود در دادههای اولیه، بدون امکان تصحیح توسط قضاوت انسانی، تقویت و جاودانه میشوند.
از دیدگاه فنی، این اتفاق احتمالاً از طریق قابلیت «جستجوی وب» (Browse with Bing) تعبیهشده در چتجیپیتی رخ میدهد. هنگامی که مدل با سوالی مواجه میشود که پاسخ قطعی آن در دادههای آموزشی اولیهاش وجود ندارد، به طور خودکار به جستجوی اینترنت میپردازد. الگوریتمهای رتبهبندی موتور جستجو ممکن است به دلیل حجم عظیم و ساختار بهظاهر دایرهالمعارفی مقالات گروکیپدیا، آن را در ردههای بالای نتایج قرار دهند. سپس مدل، این اطلاعات را بدون تمایز قائل شدن بین یک منبع سنتی ویرایششده توسط انسان و یک منبع مولد هوش مصنوعی، جذب و بازتولید میکند. در پاسخ به این گزارش، سخنگوی اوپنایآی اعلام کرد که جیپیتی-۵.۲ برای دسترسی به «طیف گستردهای از منابع عمومی» طراحی شده و شرکت از «فیلترهای ایمنی» برای کمرنگ کردن محتوای مضر استفاده میکند. با این حال، این پاسخ به طور ضمنی تأیید میکند که اگر گروکیپدیا به عنوان مفصّلترین منبع برای یک موضوع خاص در نتایج جستجو ظاهر شود، مدل ممکن است از آن استفاده کند.
این واقعه پیامدهای گستردهای برای آینده صحت اطلاعات دارد. از یک سو، این خطر وجود دارد که گروکیپدیا به ابزاری برای «شستشوی ادراکی» در مقیاس بزرگ تبدیل شود، جایی که روایتهای سیاسی خاص از طریق تأمین داده برای مدلهای هوش مصنوعی عمومی، به عنوان «حقیقت» جا بیفتد. از سوی دیگر، این پدیده سوالات بنیادینی درباره وابستگی فزاینده سیستمهای هوش مصنوعی به خودِ خروجیهای هوش مصناعی مطرح میکند. در غیاب مکانیزمهای شفاف و قدرتمند برای ردیابی منبع و اعتبارسنجی اطلاعات، چرخه تولید و مصرف اطلاعات میتواند به طور خطرناکی از واقعیت جدا شود. این وضعیت نیازمند بازنگری فوری در طراحی معماری مدلها و ایجاد مکانیزمهای «حفاظت از منبع» است تا اطمینان حاصل شود که مدلهای هوش مصنوعی عمومی میتوانند بین منابعی که توسط جامعه علمی و ویراستاران انسانی تأیید شدهاند و منابع تولیدشده توسط الگوریتمهای دیگر، تمایز قائل شوند.
انتهای پیام/