تعارف ایرانی؛ رمز فرهنگی که هوش مصنوعی نمی‌فهمد

هوش مصنوعی به‌ویژه مدل‌های زبانی بزرگ (Large Language Models یا LLMs) در سال‌های اخیر به پیشرفت چشمگیری در ترجمه، تولید متن، گفت‌و‌گو و کاربرد‌های متنوع دیگر دست یافته‌اند اما با وجود توانایی‌های قابل توجه، آنها هنوز در فهم برخی ظرافت‌های فرهنگی زبانی با مشکل مواجه‌اند.

به گزارش برنا، یکی از این چالش‌ها پدیده پیچیده و بسیار پرتکرار «تعارف» در فرهنگ گفتاری فارسی است.

چرا هوش مصنوعی تعارفات فارسی را نمی‌فهمد؟

تعارف (یا «تارُف») در فرهنگ ایرانی تنها یک نوع مؤدبانه گفتن “نه” نیست؛ بلکه مجموعه‌ای از کنش‌های زبانی و اجتماعی پیچیده است که نقش مهمی در تعاملات روزمره، مهمان‌نوازی، مناسبات قدرتی و حفظ «چهره» افراد دارد. 

در تعارف، ممکن است فرد ابتدا «نه» بگوید نه به این دلیل که نخواهد، بلکه به عنوان نشان دادن مودب بودن. طرف مقابل اصرار می‌کند، یا می‌گوید «تعارف نکن» و در نهایت ممکن است پاسخ مثبت داده شود. همچنین ممکن است فرد به صورت غیرمستقیم امر یا درخواست خود را مطرح کند، یا به شکلی ظریف ضعفش را ابراز کند تا طرف مقابل پیش‌قدم شود. در بسیاری از موارد، «نه» صریح به معنای منفی نیست.

مطالعه‌ای اخیر به نام TaarofBench، شامل ۴۵۰ موقعیت نقش‌آفرینی در تعاملات روزمره، نشان داده است مدل‌های زبانی فعلی در تشخیص و واکنش مناسب نسبت به تعارف در حدود ۴۰ تا ۴۸ درصد عقب‌تر از انسان‌ها عمل می‌کنند.

این نشانگر آن است که حتی مدل‌های پیشرفته نیز فاقد درک کافی از این نظام پیچیده اجتماعی هستند.

داده‌های آموزشی و گرایش به «صراحت»

بسیاری از مدل‌های زبانی بزرگ با استفاده از داده‌های بسیار زیاد به زبان انگلیسی و دیگر زبان‌های رایج جهان آموزش داده شده‌اند. در این داده‌ها، سبک نوشتار غالب غالباً مستقیم، صریح و با کمترین ابهام است. زبان نوشتاری علمی، خبری، فنی یا عمومی معمولاً نیاز به پیچیدگی‌های تعارف ندارد.

وقتی این مدل‌ها به زبان فارسی بیایند، هنوز ذهنیت «ساده و مستقیم بودن» را به همراه دارند و معمولاً فرض می‌کنند آنچه گفته شده، همان چیزی است که قصد دارد بگوید، بدون اینکه زیرمتن فرهنگی نظیر تعارف را در نظر بگیرند؛ بنابراین وقتی یک نفر «نه» می‌گوید، مدل معمولاً همان را به معنای منفی‌اش می‌گیرد، بی‌آنکه بداند ممکن است آن «نه» یک تعارف باشد.

در پژوهشی که پیش‌تر به آن اشاره شد، مشاهده شده است که وقتی مدل‌های زبانی با ورودی‌هایی که به زبان فارسی و شامل تعارف هستند تحریک می‌شوند، عملکرد آنها به مراتب ضعیف‌تر از مواردی است که تعامل صریح است.

همچنین بسیاری از سیستم‌های زبان مصنوعی از چارچوب‌های غربی «مودب بودن» بهره می‌برند، که ممکن است با معیار‌های فرهنگی ایرانی همخوان نباشد. به عبارت دیگر، چیزی که در انگلیسی «مودب بودن» تلقی می‌شود ممکن است در فارسی کافی نباشد یا حتی نادرست به نظر برسد. 

دشواری ارزیابی و داده برچسب‌گذاری شده

برای آنکه یک مدل هوش مصنوعی تعارف را بفهمد، لازم است داده‌هایی بسیار متنوع شامل موقعیت‌های رفتاری، نقش‌ها، زمینه اجتماعی، ارتباط بین افراد، و حتی نیت‌ها وجود داشته باشد اما در عمل داده‌های فارسی به‌اندازه کافی زیاد، متنوع و با برچسب‌های دقیق برای تعارف وجود ندارد.

پژوهشگران برای برچسب‌گذاری‏ تعاملات تعارفی با چالش سختی روبه‌رو هستند: آیا «نه» واقعا «نه» است یا تعارف؟ چه تعداد مراحل تعارف انجام شده است؟ کی باید پاسخ مثبت داد؟ اینها پرسش‌هایی هستند که انسان‌ها با تجربه اجتماعی پاسخ می‌دهند و عموماً در متون نوشته شده به وضوح برچسب‌گذاری نشده‌اند.

به همین دلیل، مدل‌ها به‌ندرت دیده‌اند که در مثال‌های آموزشی تفاوت بین «نه واقعی» و «نه تعارفی» را درک کنند و بنابراین در هنگام مواجهه با این نوع تعاملات سردرگم می‌شوند.

تعاملات اجتماعی در هر زبان و فرهنگ، زمینه‌مند هستند. چیزی که در یک منطقه یا خانواده به عنوان تعارف متداول است، ممکن است در جای دیگر عجیب به نظر برسد. مدل‌های زبانی غالباً داده‌های گسترده، اما سطحی دارند و توانایی زمینه‌گیری عمیق را ندارند.

همچنین، تعارف اغلب در موقعیت‌هایی به کار می‌رود که بار عاطفی، قدرت اجتماعی، آشنایی دو طرف و زمینه تاریخی اهمیت دارد. بدون دانش زمینه‌ای از روابط بین افراد تا قواعد نانوشته اجتماعی تشخیص تعارف امکان‌پذیر نیست.

نیاز به داده‌های بومی و حساسیت فرهنگی

کارشناسان معتقدند یکی از کلیدی‌ترین گام‌ها برای رفع این مشکل، ایجاد پایگاه‌های داده بومی و توجه ویژه به آموزش مدل‌ها با ظرافت‌های زبانی و فرهنگی فارسی است. اگرچه هوش مصنوعی در زبان‌های جهانی مانند انگلیسی به بلوغ بیشتری رسیده، اما برای زبان‌هایی با پیچیدگی‌های خاص فرهنگی از جمله فارسی هنوز فاصله زیادی تا دقت انسانی دارد.

در این زمینه، پروژه‌هایی مانند TaarofBench نشان داد می‌توان با طراحی موقعیت‌های شبیه‌سازی‌شده و جمع‌آوری داده‌های واقعی از گفت‌وگوهای روزمره، مدل‌ها را گام‌به‌گام به فهم بهتر تعارف و آداب اجتماعی فارسی نزدیک کرد. به بیان دیگر، تنها ترجمه ماشینی یا پردازش سطحی کافی نیست، بلکه باید داده‌هایی از بطن فرهنگ ایرانی گردآوری و در آموزش مدل‌ها به کار گرفته شود.

انتهای پیام/