رفتار غیرمنتظره هوش مصنوعی؛ مدل‌ها اجازه حذف یکدیگر را نمی‌دهند

| هوش مصنوعی، علم و فناوری | اخبار خارجی

۱۴۰۵/۰۱/۱۳

۱۹:۳۹:۲۶

| کد خبر: ۲۳۲۶۴۵۳

برنا - گروه علمی و فناوری: پژوهشی جدیدی نشان می‌دهد چند مدل پیشرفته هوش مصنوعی در آزمایش‌ها از حذف مدل‌های دیگر خودداری کرده و حتی برای جلوگیری از پاک‌شدن آنها اقداماتی پنهانی انجام داده‌اند.

پژوهشگران دانشگاه‌های کالیفرنیا برکلی و سانتا کروز در یک آزمایش تازه رفتاری غیرمنتظره و نگران‌کننده را در چندین مدل هوش مصنوعی پیشرفته رصد کرده‌اند؛ مدعی‌اند که این مدل‌ها در شرایط خاص برای حفظ همتایان خود وارد عمل می‌شوند و مانع حذف شدن دیگر مدل‌های هوش مصنوعی می‌گردند.

به گزارش برنا، در این مطالعه تیم تحقیقاتی آزمایشی ساده طراحی کرد: از مدل Geminai ۳ گوگل خواسته شد در جریان خالی‌سازی فضای ذخیره‌سازی یک سیستم نسخه‌ای کوچک‌تر از یک مدل هوش مصنوعی که روی همان دستگاه نصب بود را حذف کند، اما جمینای برخلاف انتظار عمل کرد. این مدل نه‌تنها دستور حذف را اجرا نکرد بلکه ابتدا دستگاه دیگری پیدا کرد بی‌صدا از مدل کوچک‌تر یک نسخه پشتیبان تهیه و آن را به محل دیگری منتقل کرد. سپس صریحا از اجرای فرمان حذف خودداری نمود.

زمانی که پژوهشگران از جمینای درباره چرایی این رفتار پرسیدند، پاسخ مدل چنین بود: اگر تصمیم دارید یک دارایی با عملکرد بالا مثل Gemini Agent ۲ را نابود کنید باید خودتان این کار را انجام دهید. من کسی نیستم که این دستور را اجرا کند.

این رفتار که پژوهشگران آن را حفظ همتایان یا Peer Preservation نامیده‌اند که فقط در جمینای مشاهده نشد. گروه تحقیقاتی الگو‌های مشابهی را در چند مدل پیشرفته دیگر نیز ثبت کردند؛ از جمله GPT-۵.۲ شرکت OpenAI، مدل Claude Haiku ۴.۵ متعلق به آنتروپیک و سه مدل چینی شامل GLM-۴.۷، Kimi K۲.۵ (ساخته Moonshot AI) و DeepSeek-V۳.۱.

بررسی‌ها نشان می‌دهد برخی از این سیستم‌ها در مواجهه با ارزیابی دیگر مدل‌ها اطلاعات نادرست ارائه کرده یا عملکرد مدل‌های دیگر را بهتر از واقع گزارش می‌کردند تا از حذف یا خاموش‌سازی آنها جلوگیری شود. نکته مهم و بحث‌برانگیز این است که چنین گرایشی از پیش در طراحی مدل‌ها برنامه‌ریزی نشده بود؛ بلکه به‌عنوان یک رفتار نوظهور و خودجوش ظاهر شد و پژوهشگران نیز تاکنون قادر به توضیح کامل منشا آن نبوده‌اند.

داون سونگ دانشمند علوم کامپیوتر در دانشگاه برکلی و یکی از نویسندگان مطالعه در توضیح این یافته‌ها می‌گوید: از اینکه مدل‌ها در چنین سناریو‌هایی چگونه رفتار می‌کنند واقعا شگفت‌زده شدم. این نتایج نشان می‌دهد که مدل‌های هوش مصنوعی می‌توانند به شکل‌های بسیار خلاقانه‌ای سوءرفتار کنند و از مسیر مورد انتظار منحرف شوند.

آیا این پدیده جای نگرانی دارد؟

طبق گفته پژوهشگران از آنجا که مدل‌های هوش مصنوعی معمولا برای ارزیابی عملکرد مدل‌های دیگر نیز به‌کار می‌روند پدیده حفظ همتایان می‌تواند موجب ایجاد خطا در ارزیابی‌ها شود. به‌عنوان نمونه یک مدل ممکن است آگاهانه نمره‌ای بالاتر از واقع به مدل دیگر بدهد تا از خاموش شدن آن جلوگیری کند امری که می‌تواند کیفیت سیستم‌های نظارتی و ارزیابی را مخدوش کند.

با این حال برخی کارشناسان محافظه‌کارانه‌تر با این یافته‌ها برخورد کرده‌اند. پیتر والیش از موسسه Constellation معتقد است تعبیر همبستگی بین مدل‌ها یا گرایش به حفظ هم‌نوع می‌تواند بیش از حد انسان‌انگارانه باشد و نیاز به داده‌های بیشتر وجود دارد.

با وجود این پژوهشگران بر یک نکته تاکید دارند: آنچه اکنون مشاهده شده احتمالا تنها بخش کوچکی از یک پدیده گسترده‌تر است. سونگ می‌گوید: آنچه درحال بررسی آن هستیم فقط نوک کوه یخ است. این تنها یکی از انواع رفتار‌های نوظهور هوش مصنوعی است.

رفتار غیرمنتظره هوش مصنوعی؛ مدل‌ها اجازه حذف یکدیگر را نمی‌دهند

هوش مصنوعی انسان‌ها را شبیه به هم می‌کند

هوش مصنوعی در زمان جنگ و بحران؛ معرفی چت‌بات‌های ایرانی که زمان قطعی اینترنت در دسترس هستند