گوگل مدل رباتیکی جدید خود را معرفی کرد
گوگل از یک مدل جدید هوش مصنوعی رونمایی کرده است که هدف آن کمک به رباتها برای درک بهتر محیط فیزیکی و تعامل موثرتر با آن است؛ چالشی که از مهمترین موانع پیشرفت رباتیک محسوب میشود. این مدل که Gemini Robotics‑ER ۱.۶ نام دارد بر مفهومی موسوم به استدلال تجسمیافته (Embodied Reasoning) تمرکز دارد؛ قابلیتی که به رباتها اجازه میدهد ورودیهای بصری را تفسیر کنند برای انجام وظایف برنامهریزی کنند و تشخیص دهند یک کار چه زمانی بهدرستی به پایان رسیده است.
به گزارش interestingengineering، این رویکرد نشاندهنده تغییر مهمی در مسیر توسعه رباتها است؛ از ماشینهایی که صرفا دستورات را اجرا میکنند به سیستمهایی که قادرند با توجه به زمینه و شرایط محیطی تصمیمگیری کنند.
نسخه جدید این مدل بر پایه نسخههای قبلی توسعه یافته و تواناییهای آن در استدلال فضایی و درک چندنمایی از محیط بهبود یافته است. به کمک این قابلیتها رباتها میتوانند اطلاعات دریافتی از چندین دوربین و محیطهای پویا را به شکل موثرتری پردازش کنند.از دیگر قابلیتهای تازه این سیستم خواندن ابزارهای اندازهگیری صنعتی است؛ قابلیتی که به رباتها امکان میدهد نشانگرها، گیجها و نمایشگرهایی را که در محیطهای صنعتی رایج هستند تفسیر کنند.
پل زدن میان دنیای دیجیتال و فیزیکی
یکی از پیشرفتهای کلیدی در این مدل به نحوه انجام وظایف مرتبط با استدلال فضایی مربوط میشود. Gemini Robotics‑ER ۱.۶ میتواند اشیا را شناسایی کند آنها را بشمارد و روابط میان آنها را با دقت بیشتری تشخیص دهد. همچنین این مدل قادر است در فرآیند استدلال خود به اشیا اشاره کند و بدین ترتیب وظایف پیچیده را به مراحل کوچکتر و قابل مدیریتتر تقسیم کند.
این قابلیت برای فعالیت در محیطهای واقعی اهمیت زیادی دارد؛ جایی که رباتها باید با اشیا تعامل داشته باشند در فضاهای شلوغ حرکت کنند و بر اساس اطلاعات ناقص یا شرایط در حال تغییر تصمیم بگیرند.
این مدل همچنین توانایی تشخیص موفقیت در انجام وظیفه را بهبود داده است. به این معنا که ربات میتواند ارزیابی کند آیا یک کار بهدرستی انجام شده یا نه. چنین قابلیتی در فرآیندهای خودکارسازی اهمیت زیادی دارد زیرا سیستم باید تصمیم بگیرد آیا لازم است عملی را دوباره تکرار کند یا به مرحله بعدی برود.
پیشرفت دیگر در حوزه استدلال چندنمایی (Multi‑view Reasoning) رخ داده است. رباتها معمولا به چندین ورودی تصویری متکی هستند؛ برای مثال تصاویر دوربینهای بالای سر یا دوربینهای نصبشده روی بازوی ربات. مدل جدید میتواند این دیدگاههای مختلف را ترکیب کند تا حتی در شرایطی مانند پوشیده شدن بخشی از تصویر یا دید محدود درک کاملتری از محیط به دست آورد.
خواندن سیگنالهای دنیای واقعی
یکی از کاربردیترین قابلیتهای افزودهشده توانایی خواندن ابزارهای اندازهگیری مانند گیجهای فشار شیشههای نشاندهنده سطح مایع و نمایشگرهای دیجیتال است.
این قابلیت در همکاری با شرکت Boston Dynamics توسعه یافته است؛ شرکتی که رباتهایی مانند Spot را برای بازرسی تأسیسات صنعتی به کار میگیرد.
مارکو دا سیلوا، معاون و مدیرکل بخش Spot در Boston Dynamics در اینباره میگوید: قابلیتهایی مانند خواندن ابزارهای اندازهگیری و استدلال دقیقتر در انجام وظایف به ربات Spot اجازه میدهد چالشهای دنیای واقعی را بهطور کامل به صورت خودکار مشاهده، درک و مدیریت کند.
این مدل برای تفسیر دادهها از ترکیبی از استدلال بصری و اجرای کد استفاده میکند. سیستم میتواند روی تصاویر زوم کند عناصر کلیدی مانند عقربهها و نشانهها را شناسایی کند و با دقت بالا مقدار اندازهگیریشده را محاسبه کند.
نتایج آزمونهای عملکرد نیز پیشرفت قابلتوجهی را نشان میدهد. دقت خواندن ابزارهای اندازهگیری که در مدلهای قبلی حدود ۲۳ درصد بود با فعالسازی قابلیت بینایی عاملمحور (Agentic Vision) به حدود ۹۳ درصد رسیده است. این مدل همچنین در رعایت محدودیتهای ایمنی عملکرد بهتری دارد؛ از جمله پرهیز از دستکاری اشیای خطرناک یا انجام عملیات ناایمن.
گوگل اعلام کرده است که این نسخه ایمنترین سیستم رباتیکی این شرکت تا امروز محسوب میشود و توانایی بهتری در تشخیص خطرات و رعایت قوانین ایمنی فیزیکی در سناریوهای متنی و بصری دارد.
مدل Gemini Robotics‑ER ۱.۶ اکنون از طریق Gemini API و پلتفرم Google AI Studi در اختیار توسعهدهندگان قرار گرفته است. همچنین ابزارهایی برای آزمایش و ساخت برنامههای مبتنی بر استدلال تجسمیافته در این پلتفرمها ارائه شده است.
انتهای پیام/