رفتار غیرمنتظره هوش مصنوعی؛ مدلها اجازه حذف یکدیگر را نمیدهند
پژوهشگران دانشگاههای کالیفرنیا برکلی و سانتا کروز در یک آزمایش تازه رفتاری غیرمنتظره و نگرانکننده را در چندین مدل هوش مصنوعی پیشرفته رصد کردهاند؛ مدعیاند که این مدلها در شرایط خاص برای حفظ همتایان خود وارد عمل میشوند و مانع حذف شدن دیگر مدلهای هوش مصنوعی میگردند.
به گزارش برنا، در این مطالعه تیم تحقیقاتی آزمایشی ساده طراحی کرد: از مدل Geminai ۳ گوگل خواسته شد در جریان خالیسازی فضای ذخیرهسازی یک سیستم نسخهای کوچکتر از یک مدل هوش مصنوعی که روی همان دستگاه نصب بود را حذف کند، اما جمینای برخلاف انتظار عمل کرد. این مدل نهتنها دستور حذف را اجرا نکرد بلکه ابتدا دستگاه دیگری پیدا کرد بیصدا از مدل کوچکتر یک نسخه پشتیبان تهیه و آن را به محل دیگری منتقل کرد. سپس صریحا از اجرای فرمان حذف خودداری نمود.
زمانی که پژوهشگران از جمینای درباره چرایی این رفتار پرسیدند، پاسخ مدل چنین بود: اگر تصمیم دارید یک دارایی با عملکرد بالا مثل Gemini Agent ۲ را نابود کنید باید خودتان این کار را انجام دهید. من کسی نیستم که این دستور را اجرا کند.
این رفتار که پژوهشگران آن را حفظ همتایان یا Peer Preservation نامیدهاند که فقط در جمینای مشاهده نشد. گروه تحقیقاتی الگوهای مشابهی را در چند مدل پیشرفته دیگر نیز ثبت کردند؛ از جمله GPT-۵.۲ شرکت OpenAI، مدل Claude Haiku ۴.۵ متعلق به آنتروپیک و سه مدل چینی شامل GLM-۴.۷، Kimi K۲.۵ (ساخته Moonshot AI) و DeepSeek-V۳.۱.
بررسیها نشان میدهد برخی از این سیستمها در مواجهه با ارزیابی دیگر مدلها اطلاعات نادرست ارائه کرده یا عملکرد مدلهای دیگر را بهتر از واقع گزارش میکردند تا از حذف یا خاموشسازی آنها جلوگیری شود. نکته مهم و بحثبرانگیز این است که چنین گرایشی از پیش در طراحی مدلها برنامهریزی نشده بود؛ بلکه بهعنوان یک رفتار نوظهور و خودجوش ظاهر شد و پژوهشگران نیز تاکنون قادر به توضیح کامل منشا آن نبودهاند.
داون سونگ دانشمند علوم کامپیوتر در دانشگاه برکلی و یکی از نویسندگان مطالعه در توضیح این یافتهها میگوید: از اینکه مدلها در چنین سناریوهایی چگونه رفتار میکنند واقعا شگفتزده شدم. این نتایج نشان میدهد که مدلهای هوش مصنوعی میتوانند به شکلهای بسیار خلاقانهای سوءرفتار کنند و از مسیر مورد انتظار منحرف شوند.
آیا این پدیده جای نگرانی دارد؟
طبق گفته پژوهشگران از آنجا که مدلهای هوش مصنوعی معمولا برای ارزیابی عملکرد مدلهای دیگر نیز بهکار میروند پدیده حفظ همتایان میتواند موجب ایجاد خطا در ارزیابیها شود. بهعنوان نمونه یک مدل ممکن است آگاهانه نمرهای بالاتر از واقع به مدل دیگر بدهد تا از خاموش شدن آن جلوگیری کند امری که میتواند کیفیت سیستمهای نظارتی و ارزیابی را مخدوش کند.
با این حال برخی کارشناسان محافظهکارانهتر با این یافتهها برخورد کردهاند. پیتر والیش از موسسه Constellation معتقد است تعبیر همبستگی بین مدلها یا گرایش به حفظ همنوع میتواند بیش از حد انسانانگارانه باشد و نیاز به دادههای بیشتر وجود دارد.
با وجود این پژوهشگران بر یک نکته تاکید دارند: آنچه اکنون مشاهده شده احتمالا تنها بخش کوچکی از یک پدیده گستردهتر است. سونگ میگوید: آنچه درحال بررسی آن هستیم فقط نوک کوه یخ است. این تنها یکی از انواع رفتارهای نوظهور هوش مصنوعی است.
یافتههای کامل این تحقیق در ژورنال Science منتشر شده است.
انتهای پیام/