نسل تازه مدل‌های هوش مصنوعی مایکروسافت معرفی شد؛ از تبدیل گفتار تا تولید تصویر

| هوش مصنوعی، علم و فناوری | اخبار خارجی

۱۴۰۵/۰۱/۱۴

۰۱:۲۸:۰۲

| کد خبر: ۲۳۲۶۵۰۰

برنا - گروه‌ علمی و فناوری: مایکروسافت با رونمایی از سه مدل جدید هوش مصنوعی در حوزه گفتار، صدا و تصویر قدم تازه‌ای برای رقابت با اوپن ای آی و گوگل برداشت.

مایکروسافت با رونمایی از سه مدل جدید هوش مصنوعی اختصاصی خود گام مهمی برای رقابت مستقیم با OpenAI، گوگل و سایر بازیگران بزرگ این حوزه برداشت. این مدل‌ها که با نام‌های MAI‑Transcribe‑۱ MAI‑Voice‑۱ و MAI‑Image‑۲ عرضه شده‌اند اکنون از طریق Microsoft Foundry و MAI Playground در اختیار توسعه‌دهندگان قرار دارند و هرکدام کاربرد تخصصی مستقلی را هدف قرار می‌دهند.

به گزارش برنا، برانگیختگی این معرفی در صنعت هوش مصنوعی از آنجا ناشی می‌شود که مایکروسافت تا مدت‌ها طبق قرارداد با OpenAI قادر به توسعه مستقل مدل‌های پیشرفته نبود. بازنگری اخیر در آن قرارداد مسیر توسعه این نسل جدید را برای ردموندی‌ها هموار کرد.

سه مدل جدید و کاربرد‌های تخصصی آنها

• MAI‑Transcribe‑۱

این مدل برای تبدیل گفتار به متن طراحی شده و طبق اعلام مایکروسافت رکورد کمترین نرخ خطای کلمه (WER) را در آزمون جهانی FLEURS برای ۲۵ زبان پرترافیک اکوسیستم مایکروسافت به ثبت رسانده است. MAI‑Transcribe‑۱ در تمام این زبان‌ها عملکردی بهتر از Whisper-large-v۳ اوپن‌ای‌آی ارائه می‌دهد و در بسیاری از موارد مدل‌های گوگل و دیگر رقبا را نیز پشت سر گذاشته است. سرعت پردازش این مدل ۲.۵ برابر سریع‌تر از نسخه فعلی Azure Fast گزارش شده است.

• MAI‑Voice‑۱

این مدل نسل جدید تولید صدا با قابلیت ساخت صدا‌های طبیعی، پایدار و قابل‌استفاده در محتوای طولانی است. ویژگی برجسته آن امکان ساخت صدای سفارشی تنها با چند ثانیه نمونه صوتی است. MAI‑Voice‑۱ به‌عنوان رقیبی مستقیم برای شرکت‌هایی، چون ElevenLabs و Resemble AI مطرح شده و با هزینه ۲۲ دلار برای هر یک میلیون کاراکتر در دسترس است.

• MAI‑Image‑۲

نسل جدید مدل تولید تصویر مایکروسافت با سرعتی دو برابر نسبت به نسخه قبلی عمل می‌کند و اکنون در سرویس‌هایی همچون Bing و PowerPoint نیز به‌کار گرفته شده است. قیمت استفاده از این مدل ۵ دلار برای یک میلیون توکن ورودی متنی و ۳۳ دلار برای یک میلیون توکن تصویر اعلام شده است.

توسعه با تیم‌های کوچک راهبردی متفاوت

یکی از نکات قابل توجه در معرفی این مدل‌ها اندازه بسیار کوچک تیم‌های سازنده است؛ به‌طوری که هر مدل با کمتر از ۱۰ پژوهشگر و مهندس توسعه یافته است. این موضوع نشان می‌دهد مایکروسافت در حال پیگیری معماری جدیدی در تولید مدل‌های هوش مصنوعی است که هزینه توسعه را به‌شدت کاهش می‌دهد و این گزاره را تقویت می‌کند که ساخت مدل‌های پیشرفته لزوما نیازمند صد‌ها محقق و سرمایه‌های میلیارددلاری نیست.

نسل تازه مدل‌های هوش مصنوعی مایکروسافت معرفی شد؛ از تبدیل گفتار تا تولید تصویر

مایکروسافت در آستانه شکایت از اوپن‌ای‌آی و آمازون

مایکروسافت به‌روزرسانی فوری برای ویندوز ۱۱ منتشر کرد

مایکروسافت داده‌ها را روی شیشه آشپزخانه ذخیره می‌کند

سه مدل جدید و کاربرد‌های تخصصی آنها

توسعه با تیم‌های کوچک راهبردی متفاوت