تعارف ایرانی؛ رمز فرهنگی که هوش مصنوعی نمیفهمد
هوش مصنوعی بهویژه مدلهای زبانی بزرگ (Large Language Models یا LLMs) در سالهای اخیر به پیشرفت چشمگیری در ترجمه، تولید متن، گفتوگو و کاربردهای متنوع دیگر دست یافتهاند اما با وجود تواناییهای قابل توجه، آنها هنوز در فهم برخی ظرافتهای فرهنگی زبانی با مشکل مواجهاند.
به گزارش برنا، یکی از این چالشها پدیده پیچیده و بسیار پرتکرار «تعارف» در فرهنگ گفتاری فارسی است.
چرا هوش مصنوعی تعارفات فارسی را نمیفهمد؟
تعارف (یا «تارُف») در فرهنگ ایرانی تنها یک نوع مؤدبانه گفتن “نه” نیست؛ بلکه مجموعهای از کنشهای زبانی و اجتماعی پیچیده است که نقش مهمی در تعاملات روزمره، مهماننوازی، مناسبات قدرتی و حفظ «چهره» افراد دارد.
در تعارف، ممکن است فرد ابتدا «نه» بگوید نه به این دلیل که نخواهد، بلکه به عنوان نشان دادن مودب بودن. طرف مقابل اصرار میکند، یا میگوید «تعارف نکن» و در نهایت ممکن است پاسخ مثبت داده شود. همچنین ممکن است فرد به صورت غیرمستقیم امر یا درخواست خود را مطرح کند، یا به شکلی ظریف ضعفش را ابراز کند تا طرف مقابل پیشقدم شود. در بسیاری از موارد، «نه» صریح به معنای منفی نیست.
مطالعهای اخیر به نام TaarofBench، شامل ۴۵۰ موقعیت نقشآفرینی در تعاملات روزمره، نشان داده است مدلهای زبانی فعلی در تشخیص و واکنش مناسب نسبت به تعارف در حدود ۴۰ تا ۴۸ درصد عقبتر از انسانها عمل میکنند.
این نشانگر آن است که حتی مدلهای پیشرفته نیز فاقد درک کافی از این نظام پیچیده اجتماعی هستند.
دادههای آموزشی و گرایش به «صراحت»
بسیاری از مدلهای زبانی بزرگ با استفاده از دادههای بسیار زیاد به زبان انگلیسی و دیگر زبانهای رایج جهان آموزش داده شدهاند. در این دادهها، سبک نوشتار غالب غالباً مستقیم، صریح و با کمترین ابهام است. زبان نوشتاری علمی، خبری، فنی یا عمومی معمولاً نیاز به پیچیدگیهای تعارف ندارد.
وقتی این مدلها به زبان فارسی بیایند، هنوز ذهنیت «ساده و مستقیم بودن» را به همراه دارند و معمولاً فرض میکنند آنچه گفته شده، همان چیزی است که قصد دارد بگوید، بدون اینکه زیرمتن فرهنگی نظیر تعارف را در نظر بگیرند؛ بنابراین وقتی یک نفر «نه» میگوید، مدل معمولاً همان را به معنای منفیاش میگیرد، بیآنکه بداند ممکن است آن «نه» یک تعارف باشد.
در پژوهشی که پیشتر به آن اشاره شد، مشاهده شده است که وقتی مدلهای زبانی با ورودیهایی که به زبان فارسی و شامل تعارف هستند تحریک میشوند، عملکرد آنها به مراتب ضعیفتر از مواردی است که تعامل صریح است.
همچنین بسیاری از سیستمهای زبان مصنوعی از چارچوبهای غربی «مودب بودن» بهره میبرند، که ممکن است با معیارهای فرهنگی ایرانی همخوان نباشد. به عبارت دیگر، چیزی که در انگلیسی «مودب بودن» تلقی میشود ممکن است در فارسی کافی نباشد یا حتی نادرست به نظر برسد.
دشواری ارزیابی و داده برچسبگذاری شده
برای آنکه یک مدل هوش مصنوعی تعارف را بفهمد، لازم است دادههایی بسیار متنوع شامل موقعیتهای رفتاری، نقشها، زمینه اجتماعی، ارتباط بین افراد، و حتی نیتها وجود داشته باشد اما در عمل دادههای فارسی بهاندازه کافی زیاد، متنوع و با برچسبهای دقیق برای تعارف وجود ندارد.
پژوهشگران برای برچسبگذاری تعاملات تعارفی با چالش سختی روبهرو هستند: آیا «نه» واقعا «نه» است یا تعارف؟ چه تعداد مراحل تعارف انجام شده است؟ کی باید پاسخ مثبت داد؟ اینها پرسشهایی هستند که انسانها با تجربه اجتماعی پاسخ میدهند و عموماً در متون نوشته شده به وضوح برچسبگذاری نشدهاند.
به همین دلیل، مدلها بهندرت دیدهاند که در مثالهای آموزشی تفاوت بین «نه واقعی» و «نه تعارفی» را درک کنند و بنابراین در هنگام مواجهه با این نوع تعاملات سردرگم میشوند.
تعاملات اجتماعی در هر زبان و فرهنگ، زمینهمند هستند. چیزی که در یک منطقه یا خانواده به عنوان تعارف متداول است، ممکن است در جای دیگر عجیب به نظر برسد. مدلهای زبانی غالباً دادههای گسترده، اما سطحی دارند و توانایی زمینهگیری عمیق را ندارند.
همچنین، تعارف اغلب در موقعیتهایی به کار میرود که بار عاطفی، قدرت اجتماعی، آشنایی دو طرف و زمینه تاریخی اهمیت دارد. بدون دانش زمینهای از روابط بین افراد تا قواعد نانوشته اجتماعی تشخیص تعارف امکانپذیر نیست.
نیاز به دادههای بومی و حساسیت فرهنگی
کارشناسان معتقدند یکی از کلیدیترین گامها برای رفع این مشکل، ایجاد پایگاههای داده بومی و توجه ویژه به آموزش مدلها با ظرافتهای زبانی و فرهنگی فارسی است. اگرچه هوش مصنوعی در زبانهای جهانی مانند انگلیسی به بلوغ بیشتری رسیده، اما برای زبانهایی با پیچیدگیهای خاص فرهنگی از جمله فارسی هنوز فاصله زیادی تا دقت انسانی دارد.
در این زمینه، پروژههایی مانند TaarofBench نشان داد میتوان با طراحی موقعیتهای شبیهسازیشده و جمعآوری دادههای واقعی از گفتوگوهای روزمره، مدلها را گامبهگام به فهم بهتر تعارف و آداب اجتماعی فارسی نزدیک کرد. به بیان دیگر، تنها ترجمه ماشینی یا پردازش سطحی کافی نیست، بلکه باید دادههایی از بطن فرهنگ ایرانی گردآوری و در آموزش مدلها به کار گرفته شود.
انتهای پیام/



