در سالهای اخیر هوش مصنوعی و یادگیری عمیق به یکی از مهمترین ابزارها برای حفاظت از میراث فرهنگی و تاریخی تبدیل شدهاند. اسناد تاریخی بهویژه آنهایی که به خط عربی نوشته شدهاند به دلیل گذر زمان، فرسودگی، کیفیت پایین و پیچیدگی ساختار نوشتاری، با چالشهای جدی در حوزه دیجیتالسازی و بازیابی متن مواجه هستند. پژوهشگران در سراسر جهان تلاش میکنند با بهرهگیری از روشهای نوین بینایی ماشین و یادگیری ماشین، راهکارهایی دقیقتر و کارآمدتر برای شناسایی دستخط، تشخیص نویسنده و استخراج اطلاعات از این اسناد ارائه دهند.
در همین راستا، "یوسری کسنتینی" دانشیار و سرپرست تیم پژوهشی دیپویژن در مرکز پژوهشهای دیجیتال Sfax در گفتوگو با خبرنگار علمی برنا به تشریح تازهترین دستاوردهای پژوهشی خود پرداخته و از نقش ویژنترنسفورمرها، یادگیری خودنظارتی و مدلهای مولد در احیای اسناد تاریخی سخن میگوید.
شبکه عصبی پیچشی یا CNN (Convolutional Neural Network) یکی از مهمترین و پرکاربردترین مدلهای یادگیری عمیق در حوزه بینایی ماشین است. این مدل بهطور ویژه برای تحلیل و پردازش تصاویر طراحی شده و توانایی بالایی در تشخیص الگوهای بصری مانند خطوط، لبهها، اشکال و ساختارهای پیچیده دارد.
CNN با الهام از نحوه عملکرد سیستم بینایی انسان ساخته شده است. در این شبکهها تصویر ورودی از چندین لایه عبور میکند که هر لایه وظیفه استخراج نوع خاصی از ویژگیها را بر عهده دارد.
لایههای اولیه معمولا ویژگیهای ساده مانند لبهها و خطوط را شناسایی میکنند و هرچه به لایههای عمیقتر میرویم، ویژگیهای پیچیدهتری مانند حروف، کلمات یا اشیای کامل استخراج میشوند. این فرآیند باعث میشود شبکه بدون نیاز به طراحی دستی ویژگیها بهصورت خودکار الگوهای مهم تصویر را یاد بگیرد.
کاربردهای CNN بسیار گسترده است و از جمله مهمترین آنها میتوان به شناسایی دستخط، تشخیص چهره، تشخیص اشیا در تصاویر و ویدئوها، پلاکخوانی، پردازش تصاویر پزشکی و تحلیل اسناد اشاره کرد. در حوزه شناسایی دستخط CNN سالها بهعنوان روش اصلی مورد استفاده قرار گرفته و عملکرد موفقی در استخراج ویژگیهای تصویری حروف و کلمات داشته است.
با این حال CNNها بیشتر بر ویژگیهای محلی تصویر تمرکز دارند و در برخی مسائل پیچیده مانند اسناد تاریخی، دستخطهای فرسوده یا متون با ساختار پیچیده، ممکن است در درک ارتباطهای بلندمدت بین بخشهای مختلف تصویر با محدودیت مواجه شوند. به همین دلیل در پژوهشهای جدید روشهای نوینتری مانند ویژنترنسفورمرها بهعنوان جایگزین یا مکمل CNN مطرح شدهاند.
Yousri Kessentini Associate Professor and Head of the DeepVision Research Team, Digital Research Center of Sfax در گفتوگو با برنا از کاربرد مدلهای پیشرفته هوش مصنوعی برای شناسایی دستخط عربی و تشخیص نویسنده در اسناد تاریخی سخن گفت و تاکید میکند: هدف اصلی این پژوهشها حفاظت از میراث فرهنگی و تاریخی است.
به گفته او اسناد تاریخی بخش مهمی از هویت فرهنگی ملتها را شکل میدهند و بسیاری از این اسناد به خط عربی نوشته شدهاند؛ بنابراین شناسایی دقیق متن در این اسناد یک ضرورت علمی و فرهنگی به شمار میرود.
کسنتینی توضیح میدهد که در این پژوهشها به جای شبکههای عصبی کانولوشنی (CNN) از ویژن ترنسفورمر (Vision Transformer) استفاده شده است، چرا که این مدلها در مقایسه با روشهای سنتی یادگیری عمیق و حتی شبکههای عصبی بازگشتی، عملکرد دقیقتری در شناسایی متن و الگوهای دستخط ارائه میدهند.
رئیس تیم DeepVision با اشاره به چالش کمبود داده در حوزه اسناد تاریخی میگوید: یادگیری عمیق به حجم زیادی از داده نیاز دارد و در بسیاری از موارد، دادههای برچسبدار در دسترس نیست. به همین دلیل ما از یادگیری خودنظارتی (Self-supervised Learning) استفاده میکنیم.
در این رویکرد پژوهشگران پیشوظایفی (Pretext Tasks) مانند ماسککردن بخشهایی از سند طراحی میکنند. سپس مدل ترنسفورمر آموزش میبیند تا نواحی ماسکشده را پیشبینی کند. این فرآیند باعث میشود مدل نمایشهای معناداری از متن و ساختار دستخط یاد بگیرد و در مرحله بعد، با استفاده از یادگیری نظارتشده بهصورت دقیق تنظیم شود.
کسنتینی درباره دیتاستهای مورد استفاده در این تحقیقات توضیح میگوید: بسته به نوع وظیفه از دیتاستهای مختلفی بهره گرفته میشود. برای شناسایی دستخط دیتاستهای عمومی مانند CHAT به کار میروند.
در حوزه استخراج اطلاعات از اسناد دیتاستهایی مانند Espo-Sales که شامل اسناد تاریخی به زبان اسپانیایی هستند مورد استفاده قرار گرفتهاند. همچنین برای اسناد به خط عربی از دیتاست شناختهشده EFN-ENIT بهره گرفته شده است. در زمینه اسناد رمزگذاریشده یا با خط نهفته (Latent Script) نیز دیتاستهای عمومی متعددی وجود دارد که در این پژوهشها استفاده شدهاند.
به گفته این پژوهشگر اسناد تاریخی معمولا کیفیت پایینی دارند و در گذر زمان دچار آسیب و فرسودگی شدهاند. اگر این اسناد بدون پیشپردازش رونویسی شوند عملکرد مدلها بهشدت کاهش مییابد.
برای حل این مشکل تیم DeepVision از مدلهای مولد مانند شبکههای مولد تخاصمی (GAN) و مدلهای انتشار (Diffusion Models) برای بهبود کیفیت اسناد استفاده کرده است.
چالش دیگر اسناد رمزگذاریشده است؛ اسنادی که دادههای برچسبدار بسیار محدودی دارند. برای غلبه بر این مسئله از روشهایی مانند یادگیری چندنمونهای (Few-shot Learning) و یادگیری فعال (Active Learning) استفاده شده تا مدلها وابستگی کمتری به حجم زیاد داده داشته باشند.
کسنتینی با اشاره به تجربه خود در دوران پیش از رواج یادگیری عمیق و برتری اصلی روشهای جدید نسبت به گذشته میگوید: در گذشته روشهایی مانند مدلهای مارکوف پنهان (HMM) و الگوریتمهای کلاسیک یادگیری ماشین به استخراج دستی ویژگیها وابسته بودند؛ فرآیندی زمانبر و وابسته به دانش انسانی اما در یادگیری عمیق، لایههای مدل میتوانند ویژگیها را بهصورت خودکار یاد بگیرند و دیگر نیازی به طراحی دستی ویژگیها وجود ندارد. این ویژگی مهمترین مزیت روشهای نوین نسبت به رویکردهای کلاسیک است.
این پژوهشگر تونسی با تایید نقش فزاینده دادههای مصنوعی میگوید: امروزه از مدلهای مولد مانند GAN و Diffusion Models برای تولید داده استفاده میشود و این دادهها میتوانند به آموزش مدلهای یادگیری عمیق کمک کنند.
با این حال او هشدار داد که معمولا بین دادههای مصنوعی و دادههای واقعی فاصلهای وجود دارد که برای کاهش آن باید از تکنیکهایی مانند تطبیق دامنه (Domain Adaptation) استفاده کرد.
کسنتینی در پایان به یکی از نوآوریهای تیم خود اشاره و میگوید: در یکی از پژوهشهای ما روشی ارائه شده که تنها با یک نمونه (One-shot) از هر کلاس میتوان حجم زیادی داده مصنوعی تولید کرد، بدون آنکه نیازی به آموزش مدلهای مولد باشد.
به گفته او این رویکرد میتواند تحولی مهم در حوزه شناسایی دستخط بهویژه برای زبانها و اسنادی با منابع داده محدود ایجاد کند.
آنچه از صحبتهای یوسری کسنتینی استنباط میشود نشان میدهد که هوش مصنوعی بهویژه رویکردهای نوینی مانند ویژنترنسفورمر، یادگیری خودنظارتی و مدلهای مولد به ابزاری راهبردی برای حفاظت و بازآفرینی میراث فرهنگی تبدیل شده است. محدودیتهای روشهای کلاسیکی مانند CNN در مواجهه با پیچیدگی دستخط عربی، کیفیت پایین اسناد تاریخی و کمبود دادههای برچسبدار، پژوهشگران را به سمت مدلهایی سوق داده است که توانایی درک ساختارهای کلی، وابستگیهای بلندمدت و یادگیری از دادههای اندک را دارند.
ترکیب بهبود کیفیت اسناد با استفاده از مدلهای مولد، بهرهگیری از یادگیری خودنظارتی برای غلبه بر فقر داده و تولید دادههای مصنوعی حتی در شرایط تکنمونهای افقهای تازهای را پیشروی پژوهش در حوزه اسناد تاریخی گشوده است. این رویکردها نهتنها دقت و کارایی شناسایی دستخط را افزایش میدهند بلکه امکان دیجیتالسازی و دسترسپذیر کردن بخش مهمی از تاریخ مکتوب جهان اسلام و دیگر تمدنها را فراهم میکنند.
این پژوهشها نشان میدهد آینده حفاظت از اسناد تاریخی در همافزایی دانش انسانی و هوش مصنوعی رقم خواهد خورد؛ جایی که فناوریهای پیشرفته نه جایگزین تاریخ بلکه ابزاری برای زنده نگهداشتن آن خواهند بود.
انتهای پیام/