شرکت LifePrompt در تازهترین گزارش پژوهشی خود اعلام کرده است که مدل ChatGPT ۵.۲ Thinking را در شبیهسازی کامل آزمونهای ورودی سال ۲۰۲۶ دو دانشگاه برتر ژاپن دانشگاه توکیو و دانشگاه کیوتو مورد ارزیابی قرار داده و نتایج بهدستآمده حاکی از عملکردی فراتر از بالاترین رتبههای انسانی در چندین دانشکده بوده است.
به گزارش برنا، بر اساس این گزارش ChatGPT ۵.۲ Thinking در آزمون علوم طبیعی دانشگاه توکیو موفق به کسب ۵۰۳ امتیاز از مجموع ۵۵۰ امتیاز ممکن شده است. این در حالی است که بالاترین نمره ثبتشده توسط داوطلبان انسانی ۴۵۳ امتیاز بوده است؛ اختلافی ۵۰ امتیازی که نشاندهنده برتری چشمگیر مدل در این حوزه ارزیابی میشود.
همچنین این مدل در بخش ریاضیات همین آزمون نمره کامل را کسب کرده است؛ نتیجهای که LifePrompt آن را نشانهای از بلوغ توانایی مدل در حل مسائل ساختارمند و دقیق توصیف میکند.
در ارزیابی مشابهی که روی آزمونهای ورودی دانشگاه کیوتو انجام شده ChatGPT ۵.۲ Thinking در آزمون دانشکده حقوق موفق به ثبت ۷۷۱ امتیاز شده؛ در حالی که بالاترین نمره انسانی ۷۳۴ بوده است.
در آزمون دانشکده پزشکی دانشگاه کیوتو نیز این مدل ۱۱۷۶ امتیاز کسب کرده که از ۱۰۹۸ امتیاز بهترین داوطلب انسانی فراتر رفته است. LifePrompt تاکید کرده این نتایج در شرایط استاندارد آزمون و بر اساس ساختار رسمی سوالات ورودی سال ۲۰۲۶ بهدست آمدهاند.
نکته قابل توجه در این گزارش مقایسه عملکرد نسخه فعلی با نسلهای قبلی است. به گفته LifePrompt تنها دو سال پیش و در سال ۲۰۲۴ مدل GPT-۴ در همین آزمون دانشگاه توکیو حتی موفق به کسب حداقل نمره قبولی نشده بود. این شرکت نتیجه آن سال را نقطه عطفی در مسیر توسعه میداند؛ زیرا فاصله عملکردی میان ۲۰۲۴ تا ۲۰۲۶ نشاندهنده جهشی قابل توجه در توانمندیهای استدلالی و حل مسئله مدلهای زبانی است.
بر اساس دادههای تکمیلی ارائهشده، ChatGPT در ژانویه ۲۰۲۶ نیز در آزمون سراسری ورودی دانشگاههای ژاپن در ۱۵ درس مختلف میانگین امتیاز ۹۷ درصد را بهدست آورده و در ۹ درس نمره کامل کسب کرده بود. نتایج جدید مربوط به آوریل ۲۰۲۶ نشان میدهد روند صعودی عملکرد این مدل همچنان ادامه داشته است.
با وجود این نتایج چشمگیر گزارش LifePrompt به نقاط ضعف مدل نیز اشاره میکند. ضعیفترین عملکرد ChatGPT در پرسشهای تشریحی و تحلیلی ثبت شده است.
بهعنوان نمونه این مدل در آزمون زبان انگلیسی امتیاز ۹۰ درصد را کسب کرده، اما در پرسشهای تشریحی برخی دروس مانند تاریخ جهان تنها ۲۵ درصد امتیاز بهدست آورده است.
نکته مهم آن است که در این ارزیابی پاسخهای تشریحی نه توسط سامانههای تصحیح خودکار بلکه توسط معلمان موسسات آموزشی بهصورت دستی تصحیح شدهاند؛ موضوعی که به گفته LifePrompt تصویری واقعگرایانهتر از کیفیت استدلال و انسجام نوشتاری مدل ارائه میدهد.
طبق تحلیل این شرکت دروس ریاضیات، شیمی، فیزیک و انفورماتیک که ساختاری مشخص و پاسخهای قطعی دارند حوزههایی هستند که هوش مصنوعی در آنها به سطحی فراتر از عملکرد انسانی رسیده است.
در مقابل در حوزههایی که نیازمند ترکیب ایدهها، استدلال تحلیلی عمیق، تفسیر تاریخی یا نگارش تشریحی چندلایه هستند فاصله عملکردی میان انسان و مدل کاهش مییابد و برتری مطلق مشاهده نمیشود.
LifePrompt در جمعبندی این گزارش تاکید کرده است که روند پیشرفت مدلهای زبانی در بازهای کوتاه، چشمگیر و ساختارشکن بوده و نتایج سال ۲۰۲۶ را میتوان نشانهای از ورود هوش مصنوعی به مرحلهای جدید در رقابت با توانمندیهای شناختی انسان در آزمونهای استاندارد دانست.
انتهای پیام/