به گزارش برنا؛ در چند سال گذشته، مدلهای هوش مصنوعی زبان در برخی وظایف بسیار خوب شدهاند. مهمتر از همه، آنها در پیشبینی کلمه بعدی در یک رشته متن عالی هستند. این فناوری به موتورهای جستجو و اپلیکیشنهای پیامک کمک میکند کلمه بعدی را که قرار است تایپ کنید پیش بینی کنند.
به نظر میرسد که جدیدترین نسل از مدلهای زبان پیشبینیکننده نیز چیزی در مورد معنای اصلی زبان میآموزد. این مدلها نه تنها میتوانند کلمه بعدی را پیشبینی کنند، بلکه کارهایی را نیز انجام میدهند که به نظر میرسد به درجاتی از درک واقعی نیاز دارند، مانند پاسخ به سؤال، خلاصهسازی اسناد و تکمیل داستان.
چنین مدلهایی برای بهینهسازی عملکرد برای عملکرد خاص پیشبینی متن طراحی شدهاند، بدون اینکه تلاشی برای تقلید چیزی درباره نحوه انجام این کار توسط مغز انسان یا درک زبان انجام شود؛ اما یک مطالعه جدید از دانشمندان علوم اعصاب MIT نشان میدهد که عملکرد زیربنایی این مدلها شبیه عملکرد مراکز پردازش زبان در مغز انسان است.
مدلهای رایانهای که در انواع دیگر وظایف زبانی به خوبی عمل میکنند، این شباهت را به مغز انسان نشان نمیدهند و شواهدی ارائه میدهند که مغز انسان ممکن است از پیشبینی کلمه بعدی برای هدایت پردازش زبان استفاده کند.
نانسی کانویشر، استاد علوم اعصاب شناختی، عضو مؤسسه تحقیقات مغز و مرکز مغزها در MIT، میگوید: هرچه مدل در پیش بینی کلمه بعدی بهتر باشد، بیشتر با مغز انسان منطبق است. این شگفتانگیز است که مدلها به خوبی تناسب دارند و به طور غیرمستقیم نشان میدهند که شاید آنچه سیستم زبان انسان انجام میدهد پیشبینی اتفاقات بعدی باشد.
جاشوا تننبام، استاد علوم شناختی محاسباتی در MIT و عضو CBMM و آزمایشگاه هوش مصنوعی MIT (CSAIL)؛ و اولینا فدورنکو، دانشیار علوم اعصاب و یکی از اعضای موسسه مک گاورن، نویسندگان ارشد این مطالعه هستند که این هفته در مجموعه مقالات آکادمی ملی علوم منتشر شد. مارتین شریمپ، دانشجوی کارشناسی ارشد MIT که در CBMM کار میکند، اولین نویسنده مقاله است.
پیشگویی
مدلهای پیشبینی کلمه بعدی جدید و با کارآیی بالا متعلق به دستهای از مدلها به نام شبکههای عصبی عمیق هستند. این شبکهها حاوی «گرههای» محاسباتی هستند که اتصالات با قدرت متفاوت را تشکیل میدهند و لایههایی که اطلاعات را به روشهای تعیین شده بین یکدیگر منتقل میکنند.
در دهه گذشته، دانشمندان از شبکههای عصبی عمیق برای ایجاد مدلهایی از بینایی استفاده کردهاند که میتواند اشیاء را همانند مغز نخستیها تشخیص دهد. تحقیقات در MIT همچنین نشان داده است که عملکرد زیربنایی مدلهای تشخیص جسم بصری با سازماندهی قشر بینایی نخستیسانان مطابقت دارد، حتی اگر این مدلهای رایانهای به طور خاص برای تقلید از مغز طراحی نشده باشند.
در مطالعه جدید، تیم MIT از رویکرد مشابهی برای مقایسه مراکز پردازش زبان در مغز انسان با مدلهای پردازش زبان استفاده کرد. محققان ۴۳ مدل زبان مختلف را تجزیه و تحلیل کردند، از جمله چندین مدل که برای پیشبینی کلمه بعدی بهینه شدهاند. اینها شامل مدلی به نام GPT-۳ (Generative Pre-trained Transformer ۳) میشود که در صورت درخواست، میتواند متنی مشابه آنچه یک انسان تولید میکند، تولید کند. مدلهای دیگر برای انجام وظایف زبانی مختلف، مانند پر کردن جای خالی یک جمله، طراحی شده بودند.
از آنجایی که هر مدل با رشتهای از کلمات ارائه میشد، محققان فعالیت گرههایی را که شبکه را تشکیل میدهند اندازهگیری کردند. آنها سپس این الگوها را با فعالیت در مغز انسان مقایسه کردند که در افراد سه وظیفه زبانی: گوش دادن به داستان ها، خواندن جملات یک به یک، و خواندن جملاتی که در آن یک کلمه در یک زمان آشکار میشود، اندازه گیری شد. این مجموعه دادههای انسانی شامل دادههای رزونانس مغناطیسی عملکردی (fMRI) و اندازهگیریهای الکتروکورتیکوگرافی داخل جمجمهای بود، در افرادی که تحت عمل جراحی مغز برای صرع قرار میگرفتند.
آنها دریافتند بهترین عملکرد مدلهای پیش بینی کلمه بعدی دارای الگوهای فعالیتی است که بسیار شبیه به آنچه در مغز انسان دیده میشود، است. فعالیت در همان مدلها نیز با معیارهای رفتاری انسان، مانند سرعت خواندن متن توسط افراد، ارتباط زیادی داشت.
شریمف میگوید: ما دریافتیم مدلهایی که پاسخهای عصبی را به خوبی پیشبینی میکنند، به بهترین شکل ممکن واکنشهای رفتاری انسان را در قالب زمان خواندن پیشبینی میکنند و سپس هر دوی اینها با عملکرد مدل در پیشبینی کلمه بعدی توضیح داده میشوند. این مثلث واقعا همه چیز را به هم متصل میکند.
تغییر دهندهی بازی
یکی از ویژگیهای محاسباتی کلیدی مدلهای پیشبینیکننده مانند GPT-۳، عنصری است که به عنوان ترانسفورماتور پیشبینی یکطرفه شناخته میشود. این نوع ترانسفورماتور میتواند بر اساس توالیهای قبلی، پیشبینی کند که چه اتفاقی قرار است بیفتد. یکی از ویژگیهای مهم این ترانسفورماتور این است که میتواند بر اساس یک زمینه بسیار طولانی قبلی (صدها کلمه) پیش بینی کند، نه فقط چند کلمه آخر.
تننبام میگوید دانشمندان مدارهای مغزی یا مکانیسمهای یادگیری را که با این نوع پردازش مطابقت داشته باشد، نیافتند. او میگوید با این حال، یافتههای جدید با فرضیههایی که قبلا مطرح شده بود، مطابقت دارد که پیشبینی یکی از کارکردهای کلیدی در پردازش زبان است.
او میگوید: یکی از چالشهای پردازش زبان، جنبه بلادرنگ آن است. زبان وارد میشود و شما باید با آن همراه باشید و بتوانید در زمان واقعی آن را درک کنید.
اکنون محققان قصد دارند انواعی از این مدلهای پردازش زبان را بسازند تا ببینند که چگونه تغییرات کوچک در معماری آنها بر عملکرد و توانایی آنها در تناسب با دادههای عصبی انسان تاثیر میگذارد.
فدورنکو میگوید: برای من، این نتیجه یک تغییر بازی بود. این برنامه تحقیقاتی من را کاملا متحول میکند، زیرا پیش بینی نمیکردم که در طول زندگیام به این مدلهای محاسباتی صریح برسیم که به اندازه کافی از مغز عکس میگیرند تا بتوانیم در درک نحوه عملکرد مغز از آنها استفاده کنیم.
محققان همچنین قصد دارند این مدلهای زبانی با کارآیی بالا را با برخی از مدلهای رایانهای که قبلا آزمایشگاه تننبام توسعه داده است، ترکیب کنند که میتواند انواع دیگری از وظایف مانند ساختن بازنماییهای ادراکی از دنیای فیزیکی را انجام دهد.
تننبام میگوید: اگر بتوانیم بفهمیم این مدلهای زبانی چه کار میکنند و میتوانند به مدلهایی متصل شوند که کارهایی را انجام میدهند که بیشتر شبیه ادراک و تفکر است، آنگاه میتوانیم مدلهای یکپارچهتری از نحوه عملکرد چیزها در مغز به ما ارائه دهیم. این میتواند ما را به سمت مدلهای هوش مصنوعی بهتر سوق دهد و همچنین مدلهای بهتری از نحوه عملکرد بیشتر مغز و چگونگی ظهور هوش عمومی نسبت به گذشته به ما دهد.