اوپن‌ای آی از ChatGPT Images ۲.۰ رونمایی کرد

|
۱۴۰۵/۰۲/۰۲
|
۲۰:۰۰:۰۲
| کد خبر: ۲۳۳۲۸۴۰
اوپن‌ای آی از ChatGPT Images ۲.۰ رونمایی کرد
برنا – گروه علمی و فناوری: اوپن‌ای آی نسخه جدید ابزار تولید تصویر خود با نام ChatGPT Images ۲.۰ را معرفی کرد.

اوپن‌ای آی نسخه جدیدی از فناوری تولید تصویر خود با نام ChatGPT Images ۲.۰ را معرفی کرده است؛ به‌روزرسانی بزرگی که با ترکیب قابلیت‌های استدلال، پژوهش و طراحی و خروجی با کیفیت تا ۲ K تجربه تولید تصاویر مبتنی بر هوش مصنوعی را متحول می‌کند.

به گزارش interestingengineering، بیش از یک سال پس از اضافه شدن قابلیت تولید تصویر بومی به ChatGPT اکنون اوپن‌ای آی با این نسخه جدید تلاش می‌کند مرز‌های این فناوری را فراتر ببرد. این شرکت می‌گوید ChatGPT Images ۲.۰ یک جهش اساسی در نحوه ایجاد و ویرایش تصاویر توسط هوش مصنوعی محسوب می‌شود.در این نسخه جدید هدف صرفا تولید یک تصویر بر اساس یک دستور نیست؛ بلکه سیستم به‌گونه‌ای طراحی شده که بیشتر شبیه یک موتور خلاقیت تعاملی عمل کند.

OpenAI این انتشار را یک تغییر سطحی اساسی در مدل‌های تولید تصویر توصیف کرده و اعلام کرده است که در این نسخه پیروی دقیق‌تر از دستورها، بهبود رندر متن در تصویر و ترکیب‌بندی بهتر صحنه‌ها به‌طور قابل توجهی ارتقا یافته است.

علاوه بر این مدل جدید می‌تواند برای انجام وظایف مختلف استدلال کند؛ از جمله بررسی صحت خروجی‌ها و حتی استفاده از اطلاعات بیرونی برای بهبود نتیجه.

این تغییر نشان‌دهنده یک هدف بزرگ‌تر است: قابل اعتمادتر و کاربردی‌تر کردن تصاویر تولیدشده با هوش مصنوعی در جریان‌های کاری واقعی.

دو حالت عملکرد برای دو نوع نیاز

ChatGPT Images ۲.۰ با دو حالت عملیاتی متفاوت عرضه شده است: Instant و Thinking.

هر یک از این حالت‌ها برای پاسخ به نوع خاصی از نیاز‌های خلاقانه طراحی شده‌اند. حالت Instant بر سرعت تمرکز دارد. OpenAI این حالت را پیش از عرضه عمومی با نام رمز “duct tape” در پلتفرم LMArena آزمایش کرده بود. در این حالت مدل می‌تواند با سرعت بالا تصاویر تولید کند در حالی که همچنان کیفیت بصری قابل توجهی حفظ می‌شود.

در مقابل حالت Thinking رویکردی کندتر اما دقیق‌تر دارد. در این حالت مدل پیش از تولید تصویر فرآیند استدلال و تحلیل را انجام می‌دهد. این ویژگی باعث می‌شود مدل بتواند ثبات کاراکتر‌ها در چندین فریم مختلف را حفظ کند و روایت‌های بصری منسجم‌تری تولید کند.

چنین قابلیتی کاربرد‌های جدیدی را از جمله ساخت مانگا، طراحی استوری‌بورد برای فیلم و تولید صحنه‌های چندبخشی در طراحی‌های بصری ممکن می‌سازد. این تفاوت اهمیت زیادی دارد، زیرا مدل‌های قبلی تولید تصویر معمولا در حفظ پیوستگی و تداوم عناصر بصری در چند تصویر با مشکل مواجه بودند.
حالت Thinking تلاش می‌کند این محدودیت را برطرف کند و تولید تصویر را به جای یک خروجی تک‌مرحله‌ای به فرآیندی ساختاریافته و چندمرحله‌ای تبدیل کند.

گردش کار تعاملی در تولید تصویر

بزرگ‌ترین تغییر در ChatGPT Images ۲.۰ به نحوه تعامل کاربران با سیستم مربوط می‌شود.
در رویکرد جدید، OpenAI دیگر تولید تصویر را یک فرآیند ساده یک دستور، یک پاسخ در نظر نمی‌گیرد.

یکی از پژوهشگران OpenAI در جریان یک دمو گفت: این یک هوش مصنوعی است که شما با آن به‌صورت تعاملی صحبت می‌کنید و به شما پاسخ می‌دهد.

کاربران اکنون می‌توانند تصاویر تولیدشده را از طریق گفت‌و‌گو با سیستم به‌صورت مرحله‌ای اصلاح کنند. برای مثال امکان بزرگ‌نمایی بخش‌های خاص تصویر، تغییر عناصر صحنه یا اصلاح ترکیب‌بندی وجود دارد بدون اینکه نیاز باشد کل فرآیند از ابتدا آغاز شود.

مدل همچنین زمینه و تاریخچه ویرایش‌ها را حفظ می‌کند و به این ترتیب امکان طراحی تکرارشونده و تدریجی فراهم می‌شود.

در یکی از دمو‌ها سیستم با استفاده از یک تصویر آپلود شده هشت طراحی متفاوت از لباس‌های تابستانی تولید کرد.

در نمونه‌ای دیگر مدل واکنش‌های کاربران شبکه‌های اجتماعی نسبت به نسخه‌های آزمایشی قبلی را اسکن و تحلیل کرد سپس این بازخورد‌ها را به شکل خلاصه‌ای بصری ارائه داد و در نهایت یک کد QR ایجاد کرد که به ChatGPT لینک می‌شد. این مثال نشان می‌دهد که ابزار جدید می‌تواند استدلال، تحقیق و طراحی را در یک چرخه واحد ترکیب کند.

OpenAI همچنین اعلام کرده است که عملکرد مدل در رندر متن در زبان‌های غیرلاتین بهبود یافته است.

این سیستم اکنون در نمایش متن به زبان‌هایی مانند ژاپنی، کره‌ای، چینی، هندی و بنگالی عملکرد دقیق‌تری دارد؛ مشکلی که مدت‌ها یکی از محدودیت‌های مدل‌های تولید تصویر محسوب می‌شد.
این شرکت همچنین ادعا می‌کند که وفاداری مدل به سبک‌های بصری مختلف به شکل محسوسی افزایش یافته است و مدل می‌تواند سبک‌های هنری خاص را دقیق‌تر بازآفرینی کند.

این پیشرفت‌ها باعث می‌شود ابزار جدید برای حوزه‌هایی مانند توسعه بازی‌های ویدیویی و روایت‌های بصری کاربردی‌تر شود. از نظر فنی نیز Images ۲.۰ از نسبت‌های تصویر انعطاف‌پذیر پشتیبانی می‌کند؛ از ۳:۱ تا ۱:۳.

این مدل قادر است تصاویری با رزولوشن تا ۲ K تولید کند و در هر بار اجرا تا هشت تصویر ایجاد کند.

در شرایطی که بسیاری از آزمایشگاه‌های پیشرو هوش مصنوعی به سطح نسبتا مشابهی در عملکرد مدل‌های زبانی رسیده‌اند، رقابت اکنون به حوزه تولید تصویر منتقل شده است. به نظر می‌رسد اوپن‌ای آی در استراتژی جدید خود به‌طور جدی روی فناوری تصویر تمرکز کرده است تا مزیت رقابتی جدیدی ایجاد کند.

با عرضه ChatGPT Images ۲.۰ در نسخه وب و همچنین از طریق API این شرکت پیام روشنی درباره آینده تعامل با هوش مصنوعی ارسال می‌کند: تولید تصویر دیگر تنها یک قابلیت جانبی نیست؛ بلکه در حال تبدیل شدن به یکی از رابط‌های اصلی تعامل انسان با هوش مصنوعی است.

انتهای پیام/

نظر شما
captcha
پیشنهاد سردبیر