سایر زبان ها

صفحه نخست

فیلم

عکس

ورزشی

اجتماعی

باشگاه جوانی

سیاسی

فرهنگ و هنر

اقتصادی

هوش مصنوعی، علم و فناوری

بین الملل

استان ها

رسانه ها

بازار

صفحات داخلی

در گفت‌و‌گو با برنا مطرح شد:

ویژن‌ترنسفورمر‌ها به کمک تاریخ می‌آیند؛ هوش مصنوعی در مسیر احیای اسناد کهن

۱۴۰۴/۱۰/۰۶ - ۲۰:۲۱:۰۴
کد خبر: ۲۲۹۵۹۶۴
برنا - گروه علمی و فناوری: پژوهشگران راهکاری نوین برای شناسایی دست‌خط عربی و بازخوانی اسناد تاریخی ارائه کرده‌اند؛ رویکردی که می‌تواند فصل تازه‌ای در حفاظت دیجیتال از میراث فرهنگی بگشاید.

در سال‌های اخیر هوش مصنوعی و یادگیری عمیق به یکی از مهم‌ترین ابزار‌ها برای حفاظت از میراث فرهنگی و تاریخی تبدیل شده‌اند. اسناد تاریخی به‌ویژه آنهایی که به خط عربی نوشته شده‌اند به دلیل گذر زمان، فرسودگی، کیفیت پایین و پیچیدگی ساختار نوشتاری، با چالش‌های جدی در حوزه دیجیتال‌سازی و بازیابی متن مواجه هستند. پژوهشگران در سراسر جهان تلاش می‌کنند با بهره‌گیری از روش‌های نوین بینایی ماشین و یادگیری ماشین، راهکار‌هایی دقیق‌تر و کارآمدتر برای شناسایی دست‌خط، تشخیص نویسنده و استخراج اطلاعات از این اسناد ارائه دهند. 

در همین راستا، "یوسری کسنتینی" دانشیار و سرپرست تیم پژوهشی دیپ‌ویژن در مرکز پژوهش‌های دیجیتال Sfax در گفت‌و‌گو با خبرنگار علمی برنا به تشریح تازه‌ترین دستاورد‌های پژوهشی خود پرداخته و از نقش ویژن‌ترنسفورمرها، یادگیری خودنظارتی و مدل‌های مولد در احیای اسناد تاریخی سخن می‌گوید.

CNN چیست و چه کاربردی دارد؟

شبکه عصبی پیچشی یا CNN (Convolutional Neural Network) یکی از مهم‌ترین و پرکاربردترین مدل‌های یادگیری عمیق در حوزه بینایی ماشین است. این مدل به‌طور ویژه برای تحلیل و پردازش تصاویر طراحی شده و توانایی بالایی در تشخیص الگو‌های بصری مانند خطوط، لبه‌ها، اشکال و ساختار‌های پیچیده دارد.

CNN با الهام از نحوه عملکرد سیستم بینایی انسان ساخته شده است. در این شبکه‌ها تصویر ورودی از چندین لایه عبور می‌کند که هر لایه وظیفه استخراج نوع خاصی از ویژگی‌ها را بر عهده دارد.

لایه‌های اولیه معمولا ویژگی‌های ساده مانند لبه‌ها و خطوط را شناسایی می‌کنند و هرچه به لایه‌های عمیق‌تر می‌رویم، ویژگی‌های پیچیده‌تری مانند حروف، کلمات یا اشیای کامل استخراج می‌شوند. این فرآیند باعث می‌شود شبکه بدون نیاز به طراحی دستی ویژگی‌ها به‌صورت خودکار الگو‌های مهم تصویر را یاد بگیرد.

کاربرد‌های CNN بسیار گسترده است و از جمله مهم‌ترین آنها می‌توان به شناسایی دست‌خط، تشخیص چهره، تشخیص اشیا در تصاویر و ویدئوها، پلاک‌خوانی، پردازش تصاویر پزشکی و تحلیل اسناد اشاره کرد. در حوزه شناسایی دست‌خط CNN سال‌ها به‌عنوان روش اصلی مورد استفاده قرار گرفته و عملکرد موفقی در استخراج ویژگی‌های تصویری حروف و کلمات داشته است.

با این حال CNN‌ها بیشتر بر ویژگی‌های محلی تصویر تمرکز دارند و در برخی مسائل پیچیده مانند اسناد تاریخی، دست‌خط‌های فرسوده یا متون با ساختار پیچیده، ممکن است در درک ارتباط‌های بلندمدت بین بخش‌های مختلف تصویر با محدودیت مواجه شوند. به همین دلیل در پژوهش‌های جدید روش‌های نوین‌تری مانند ویژن‌ترنسفورمر‌ها به‌عنوان جایگزین یا مکمل CNN مطرح شده‌اند.

چرا شناسایی دست‌خط عربی به CNN بسنده نمی‌کند؟

Yousri Kessentini Associate Professor and Head of the DeepVision Research Team, Digital Research Center of Sfax در گفت‌و‌گو با برنا از کاربرد مدل‌های پیشرفته هوش مصنوعی برای شناسایی دست‌خط عربی و تشخیص نویسنده در اسناد تاریخی سخن گفت و تاکید می‌کند: هدف اصلی این پژوهش‌ها حفاظت از میراث فرهنگی و تاریخی است.

به گفته او اسناد تاریخی بخش مهمی از هویت فرهنگی ملت‌ها را شکل می‌دهند و بسیاری از این اسناد به خط عربی نوشته شده‌اند؛ بنابراین شناسایی دقیق متن در این اسناد یک ضرورت علمی و فرهنگی به شمار می‌رود.

کسنتینی توضیح می‌دهد که در این پژوهش‌ها به جای شبکه‌های عصبی کانولوشنی (CNN) از ویژن ترنسفورمر (Vision Transformer) استفاده شده است، چرا که این مدل‌ها در مقایسه با روش‌های سنتی یادگیری عمیق و حتی شبکه‌های عصبی بازگشتی، عملکرد دقیق‌تری در شناسایی متن و الگو‌های دست‌خط ارائه می‌دهند.

یادگیری خودنظارتی؛ راه‌حلی برای کمبود داده‌های برچسب‌دار

رئیس تیم DeepVision با اشاره به چالش کمبود داده در حوزه اسناد تاریخی می‌گوید: یادگیری عمیق به حجم زیادی از داده نیاز دارد و در بسیاری از موارد، داده‌های برچسب‌دار در دسترس نیست. به همین دلیل ما از یادگیری خودنظارتی (Self-supervised Learning) استفاده می‌کنیم.

در این رویکرد پژوهشگران پیش‌وظایفی (Pretext Tasks) مانند ماسک‌کردن بخش‌هایی از سند طراحی می‌کنند. سپس مدل ترنسفورمر آموزش می‌بیند تا نواحی ماسک‌شده را پیش‌بینی کند. این فرآیند باعث می‌شود مدل نمایش‌های معناداری از متن و ساختار دست‌خط یاد بگیرد و در مرحله بعد، با استفاده از یادگیری نظارت‌شده به‌صورت دقیق تنظیم شود.

از CHAT تا EFN-ENIT

کسنتینی درباره دیتاست‌های مورد استفاده در این تحقیقات توضیح می‌گوید: بسته به نوع وظیفه از دیتاست‌های مختلفی بهره گرفته می‌شود. برای شناسایی دست‌خط دیتاست‌های عمومی مانند CHAT به کار می‌روند.

در حوزه استخراج اطلاعات از اسناد دیتاست‌هایی مانند Espo-Sales که شامل اسناد تاریخی به زبان اسپانیایی هستند مورد استفاده قرار گرفته‌اند. همچنین برای اسناد به خط عربی از دیتاست شناخته‌شده EFN-ENIT بهره گرفته شده است. در زمینه اسناد رمزگذاری‌شده یا با خط نهفته (Latent Script) نیز دیتاست‌های عمومی متعددی وجود دارد که در این پژوهش‌ها استفاده شده‌اند.

اسناد فرسوده و داده‌های رمزگذاری‌شده

به گفته این پژوهشگر اسناد تاریخی معمولا کیفیت پایینی دارند و در گذر زمان دچار آسیب و فرسودگی شده‌اند. اگر این اسناد بدون پیش‌پردازش رونویسی شوند عملکرد مدل‌ها به‌شدت کاهش می‌یابد.

برای حل این مشکل تیم DeepVision از مدل‌های مولد مانند شبکه‌های مولد تخاصمی (GAN) و مدل‌های انتشار (Diffusion Models) برای بهبود کیفیت اسناد استفاده کرده است.

چالش دیگر اسناد رمزگذاری‌شده است؛ اسنادی که داده‌های برچسب‌دار بسیار محدودی دارند. برای غلبه بر این مسئله از روش‌هایی مانند یادگیری چندنمونه‌ای (Few-shot Learning) و یادگیری فعال (Active Learning) استفاده شده تا مدل‌ها وابستگی کمتری به حجم زیاد داده داشته باشند.

پایان استخراج دستی ویژگی‌ها

کسنتینی با اشاره به تجربه خود در دوران پیش از رواج یادگیری عمیق و برتری اصلی روش‌های جدید نسبت به گذشته می‌گوید: در گذشته روش‌هایی مانند مدل‌های مارکوف پنهان (HMM) و الگوریتم‌های کلاسیک یادگیری ماشین به استخراج دستی ویژگی‌ها وابسته بودند؛ فرآیندی زمان‌بر و وابسته به دانش انسانی اما در یادگیری عمیق، لایه‌های مدل می‌توانند ویژگی‌ها را به‌صورت خودکار یاد بگیرند و دیگر نیازی به طراحی دستی ویژگی‌ها وجود ندارد. این ویژگی مهم‌ترین مزیت روش‌های نوین نسبت به رویکرد‌های کلاسیک است.

آینده پژوهش؛ دیتاست‌های جدید یا داده‌های مصنوعی؟

این پژوهشگر تونسی با تایید نقش فزاینده داده‌های مصنوعی می‌گوید: امروزه از مدل‌های مولد مانند GAN و Diffusion Models برای تولید داده استفاده می‌شود و این داده‌ها می‌توانند به آموزش مدل‌های یادگیری عمیق کمک کنند.

با این حال او هشدار داد که معمولا بین داده‌های مصنوعی و داده‌های واقعی فاصله‌ای وجود دارد که برای کاهش آن باید از تکنیک‌هایی مانند تطبیق دامنه (Domain Adaptation) استفاده کرد.

تولید داده با یک نمونه

کسنتینی در پایان به یکی از نوآوری‌های تیم خود اشاره و می‌گوید: در یکی از پژوهش‌های ما روشی ارائه شده که تنها با یک نمونه (One-shot) از هر کلاس می‌توان حجم زیادی داده مصنوعی تولید کرد، بدون آنکه نیازی به آموزش مدل‌های مولد باشد.

به گفته او این رویکرد می‌تواند تحولی مهم در حوزه شناسایی دست‌خط به‌ویژه برای زبان‌ها و اسنادی با منابع داده محدود ایجاد کند.

هوش مصنوعی در مسیر احیای حافظه تاریخی

آنچه از صحبت‌های یوسری کسنتینی استنباط می‌شود نشان می‌دهد که هوش مصنوعی به‌ویژه رویکرد‌های نوینی مانند ویژن‌ترنسفورمر، یادگیری خودنظارتی و مدل‌های مولد به ابزاری راهبردی برای حفاظت و بازآفرینی میراث فرهنگی تبدیل شده است. محدودیت‌های روش‌های کلاسیکی مانند CNN در مواجهه با پیچیدگی دست‌خط عربی، کیفیت پایین اسناد تاریخی و کمبود داده‌های برچسب‌دار، پژوهشگران را به سمت مدل‌هایی سوق داده است که توانایی درک ساختار‌های کلی، وابستگی‌های بلندمدت و یادگیری از داده‌های اندک را دارند.

ترکیب بهبود کیفیت اسناد با استفاده از مدل‌های مولد، بهره‌گیری از یادگیری خودنظارتی برای غلبه بر فقر داده و تولید داده‌های مصنوعی حتی در شرایط تک‌نمونه‌ای افق‌های تازه‌ای را پیش‌روی پژوهش در حوزه اسناد تاریخی گشوده است. این رویکرد‌ها نه‌تنها دقت و کارایی شناسایی دست‌خط را افزایش می‌دهند بلکه امکان دیجیتال‌سازی و دسترس‌پذیر کردن بخش مهمی از تاریخ مکتوب جهان اسلام و دیگر تمدن‌ها را فراهم می‌کنند.

این پژوهش‌ها نشان می‌دهد آینده حفاظت از اسناد تاریخی در هم‌افزایی دانش انسانی و هوش مصنوعی رقم خواهد خورد؛ جایی که فناوری‌های پیشرفته نه جایگزین تاریخ بلکه ابزاری برای زنده نگه‌داشتن آن خواهند بود.

انتهای پیام/

نظر شما