اوپنای آی از ChatGPT Images ۲.۰ رونمایی کرد
اوپنای آی نسخه جدیدی از فناوری تولید تصویر خود با نام ChatGPT Images ۲.۰ را معرفی کرده است؛ بهروزرسانی بزرگی که با ترکیب قابلیتهای استدلال، پژوهش و طراحی و خروجی با کیفیت تا ۲ K تجربه تولید تصاویر مبتنی بر هوش مصنوعی را متحول میکند.
به گزارش interestingengineering، بیش از یک سال پس از اضافه شدن قابلیت تولید تصویر بومی به ChatGPT اکنون اوپنای آی با این نسخه جدید تلاش میکند مرزهای این فناوری را فراتر ببرد. این شرکت میگوید ChatGPT Images ۲.۰ یک جهش اساسی در نحوه ایجاد و ویرایش تصاویر توسط هوش مصنوعی محسوب میشود.در این نسخه جدید هدف صرفا تولید یک تصویر بر اساس یک دستور نیست؛ بلکه سیستم بهگونهای طراحی شده که بیشتر شبیه یک موتور خلاقیت تعاملی عمل کند.
OpenAI این انتشار را یک تغییر سطحی اساسی در مدلهای تولید تصویر توصیف کرده و اعلام کرده است که در این نسخه پیروی دقیقتر از دستورها، بهبود رندر متن در تصویر و ترکیببندی بهتر صحنهها بهطور قابل توجهی ارتقا یافته است.
علاوه بر این مدل جدید میتواند برای انجام وظایف مختلف استدلال کند؛ از جمله بررسی صحت خروجیها و حتی استفاده از اطلاعات بیرونی برای بهبود نتیجه.
این تغییر نشاندهنده یک هدف بزرگتر است: قابل اعتمادتر و کاربردیتر کردن تصاویر تولیدشده با هوش مصنوعی در جریانهای کاری واقعی.
دو حالت عملکرد برای دو نوع نیاز
ChatGPT Images ۲.۰ با دو حالت عملیاتی متفاوت عرضه شده است: Instant و Thinking.
هر یک از این حالتها برای پاسخ به نوع خاصی از نیازهای خلاقانه طراحی شدهاند. حالت Instant بر سرعت تمرکز دارد. OpenAI این حالت را پیش از عرضه عمومی با نام رمز “duct tape” در پلتفرم LMArena آزمایش کرده بود. در این حالت مدل میتواند با سرعت بالا تصاویر تولید کند در حالی که همچنان کیفیت بصری قابل توجهی حفظ میشود.
در مقابل حالت Thinking رویکردی کندتر اما دقیقتر دارد. در این حالت مدل پیش از تولید تصویر فرآیند استدلال و تحلیل را انجام میدهد. این ویژگی باعث میشود مدل بتواند ثبات کاراکترها در چندین فریم مختلف را حفظ کند و روایتهای بصری منسجمتری تولید کند.
چنین قابلیتی کاربردهای جدیدی را از جمله ساخت مانگا، طراحی استوریبورد برای فیلم و تولید صحنههای چندبخشی در طراحیهای بصری ممکن میسازد. این تفاوت اهمیت زیادی دارد، زیرا مدلهای قبلی تولید تصویر معمولا در حفظ پیوستگی و تداوم عناصر بصری در چند تصویر با مشکل مواجه بودند.
حالت Thinking تلاش میکند این محدودیت را برطرف کند و تولید تصویر را به جای یک خروجی تکمرحلهای به فرآیندی ساختاریافته و چندمرحلهای تبدیل کند.
گردش کار تعاملی در تولید تصویر
بزرگترین تغییر در ChatGPT Images ۲.۰ به نحوه تعامل کاربران با سیستم مربوط میشود.
در رویکرد جدید، OpenAI دیگر تولید تصویر را یک فرآیند ساده یک دستور، یک پاسخ در نظر نمیگیرد.
یکی از پژوهشگران OpenAI در جریان یک دمو گفت: این یک هوش مصنوعی است که شما با آن بهصورت تعاملی صحبت میکنید و به شما پاسخ میدهد.
کاربران اکنون میتوانند تصاویر تولیدشده را از طریق گفتوگو با سیستم بهصورت مرحلهای اصلاح کنند. برای مثال امکان بزرگنمایی بخشهای خاص تصویر، تغییر عناصر صحنه یا اصلاح ترکیببندی وجود دارد بدون اینکه نیاز باشد کل فرآیند از ابتدا آغاز شود.
مدل همچنین زمینه و تاریخچه ویرایشها را حفظ میکند و به این ترتیب امکان طراحی تکرارشونده و تدریجی فراهم میشود.
در یکی از دموها سیستم با استفاده از یک تصویر آپلود شده هشت طراحی متفاوت از لباسهای تابستانی تولید کرد.
در نمونهای دیگر مدل واکنشهای کاربران شبکههای اجتماعی نسبت به نسخههای آزمایشی قبلی را اسکن و تحلیل کرد سپس این بازخوردها را به شکل خلاصهای بصری ارائه داد و در نهایت یک کد QR ایجاد کرد که به ChatGPT لینک میشد. این مثال نشان میدهد که ابزار جدید میتواند استدلال، تحقیق و طراحی را در یک چرخه واحد ترکیب کند.
OpenAI همچنین اعلام کرده است که عملکرد مدل در رندر متن در زبانهای غیرلاتین بهبود یافته است.
این سیستم اکنون در نمایش متن به زبانهایی مانند ژاپنی، کرهای، چینی، هندی و بنگالی عملکرد دقیقتری دارد؛ مشکلی که مدتها یکی از محدودیتهای مدلهای تولید تصویر محسوب میشد.
این شرکت همچنین ادعا میکند که وفاداری مدل به سبکهای بصری مختلف به شکل محسوسی افزایش یافته است و مدل میتواند سبکهای هنری خاص را دقیقتر بازآفرینی کند.
این پیشرفتها باعث میشود ابزار جدید برای حوزههایی مانند توسعه بازیهای ویدیویی و روایتهای بصری کاربردیتر شود. از نظر فنی نیز Images ۲.۰ از نسبتهای تصویر انعطافپذیر پشتیبانی میکند؛ از ۳:۱ تا ۱:۳.
این مدل قادر است تصاویری با رزولوشن تا ۲ K تولید کند و در هر بار اجرا تا هشت تصویر ایجاد کند.
در شرایطی که بسیاری از آزمایشگاههای پیشرو هوش مصنوعی به سطح نسبتا مشابهی در عملکرد مدلهای زبانی رسیدهاند، رقابت اکنون به حوزه تولید تصویر منتقل شده است. به نظر میرسد اوپنای آی در استراتژی جدید خود بهطور جدی روی فناوری تصویر تمرکز کرده است تا مزیت رقابتی جدیدی ایجاد کند.
با عرضه ChatGPT Images ۲.۰ در نسخه وب و همچنین از طریق API این شرکت پیام روشنی درباره آینده تعامل با هوش مصنوعی ارسال میکند: تولید تصویر دیگر تنها یک قابلیت جانبی نیست؛ بلکه در حال تبدیل شدن به یکی از رابطهای اصلی تعامل انسان با هوش مصنوعی است.
انتهای پیام/