گوگل مدل رباتیکی جدید خود را معرفی کرد

|
۱۴۰۵/۰۱/۲۶
|
۲۳:۰۰:۰۲
| کد خبر: ۲۳۳۰۴۷۰
گوگل مدل رباتیکی جدید خود را معرفی کرد
برنا – گروه علمی و فناوری: گوگل با معرفی مدل Gemini Robotics‑ER ۱.۶ توانایی ربات‌ها در درک محیط، برنامه‌ریزی و خواندن دقیق ابزار‌های صنعتی را متحول کرد؛ قابلیتی که می‌تواند نسل تازه‌ای از ربات‌های خودمختار و ایمن را وارد محیط‌های واقعی کند.

گوگل از یک مدل جدید هوش مصنوعی رونمایی کرده است که هدف آن کمک به ربات‌ها برای درک بهتر محیط فیزیکی و تعامل موثرتر با آن است؛ چالشی که از مهم‌ترین موانع پیشرفت رباتیک محسوب می‌شود. این مدل که Gemini Robotics‑ER ۱.۶ نام دارد بر مفهومی موسوم به استدلال تجسم‌یافته (Embodied Reasoning) تمرکز دارد؛ قابلیتی که به ربات‌ها اجازه می‌دهد ورودی‌های بصری را تفسیر کنند برای انجام وظایف برنامه‌ریزی کنند و تشخیص دهند یک کار چه زمانی به‌درستی به پایان رسیده است.

به گزارش interestingengineering، این رویکرد نشان‌دهنده تغییر مهمی در مسیر توسعه ربات‌ها است؛ از ماشین‌هایی که صرفا دستورات را اجرا می‌کنند به سیستم‌هایی که قادرند با توجه به زمینه و شرایط محیطی تصمیم‌گیری کنند.

نسخه جدید این مدل بر پایه نسخه‌های قبلی توسعه یافته و توانایی‌های آن در استدلال فضایی و درک چندنمایی از محیط بهبود یافته است. به کمک این قابلیت‌ها ربات‌ها می‌توانند اطلاعات دریافتی از چندین دوربین و محیط‌های پویا را به شکل موثرتری پردازش کنند.از دیگر قابلیت‌های تازه این سیستم خواندن ابزار‌های اندازه‌گیری صنعتی است؛ قابلیتی که به ربات‌ها امکان می‌دهد نشانگرها، گیج‌ها و نمایشگر‌هایی را که در محیط‌های صنعتی رایج هستند تفسیر کنند.

پل زدن میان دنیای دیجیتال و فیزیکی

یکی از پیشرفت‌های کلیدی در این مدل به نحوه انجام وظایف مرتبط با استدلال فضایی مربوط می‌شود. Gemini Robotics‑ER ۱.۶ می‌تواند اشیا را شناسایی کند آنها را بشمارد و روابط میان آنها را با دقت بیشتری تشخیص دهد. همچنین این مدل قادر است در فرآیند استدلال خود به اشیا اشاره کند و بدین ترتیب وظایف پیچیده را به مراحل کوچک‌تر و قابل مدیریت‌تر تقسیم کند.

این قابلیت برای فعالیت در محیط‌های واقعی اهمیت زیادی دارد؛ جایی که ربات‌ها باید با اشیا تعامل داشته باشند در فضا‌های شلوغ حرکت کنند و بر اساس اطلاعات ناقص یا شرایط در حال تغییر تصمیم بگیرند.

این مدل همچنین توانایی تشخیص موفقیت در انجام وظیفه را بهبود داده است. به این معنا که ربات می‌تواند ارزیابی کند آیا یک کار به‌درستی انجام شده یا نه. چنین قابلیتی در فرآیند‌های خودکارسازی اهمیت زیادی دارد زیرا سیستم باید تصمیم بگیرد آیا لازم است عملی را دوباره تکرار کند یا به مرحله بعدی برود.

پیشرفت دیگر در حوزه استدلال چندنمایی (Multi‑view Reasoning) رخ داده است. ربات‌ها معمولا به چندین ورودی تصویری متکی هستند؛ برای مثال تصاویر دوربین‌های بالای سر یا دوربین‌های نصب‌شده روی بازوی ربات. مدل جدید می‌تواند این دیدگاه‌های مختلف را ترکیب کند تا حتی در شرایطی مانند پوشیده شدن بخشی از تصویر یا دید محدود درک کامل‌تری از محیط به دست آورد.

خواندن سیگنال‌های دنیای واقعی

یکی از کاربردی‌ترین قابلیت‌های افزوده‌شده توانایی خواندن ابزار‌های اندازه‌گیری مانند گیج‌های فشار شیشه‌های نشان‌دهنده سطح مایع و نمایشگر‌های دیجیتال است.

این قابلیت در همکاری با شرکت Boston Dynamics توسعه یافته است؛ شرکتی که ربات‌هایی مانند Spot را برای بازرسی تأسیسات صنعتی به کار می‌گیرد.

مارکو دا سیلوا، معاون و مدیرکل بخش Spot در Boston Dynamics در این‌باره می‌گوید: قابلیت‌هایی مانند خواندن ابزار‌های اندازه‌گیری و استدلال دقیق‌تر در انجام وظایف به ربات Spot اجازه می‌دهد چالش‌های دنیای واقعی را به‌طور کامل به صورت خودکار مشاهده، درک و مدیریت کند.

این مدل برای تفسیر داده‌ها از ترکیبی از استدلال بصری و اجرای کد استفاده می‌کند. سیستم می‌تواند روی تصاویر زوم کند عناصر کلیدی مانند عقربه‌ها و نشانه‌ها را شناسایی کند و با دقت بالا مقدار اندازه‌گیری‌شده را محاسبه کند.

نتایج آزمون‌های عملکرد نیز پیشرفت قابل‌توجهی را نشان می‌دهد. دقت خواندن ابزار‌های اندازه‌گیری که در مدل‌های قبلی حدود ۲۳ درصد بود با فعال‌سازی قابلیت بینایی عامل‌محور (Agentic Vision) به حدود ۹۳ درصد رسیده است. این مدل همچنین در رعایت محدودیت‌های ایمنی عملکرد بهتری دارد؛ از جمله پرهیز از دستکاری اشیای خطرناک یا انجام عملیات ناایمن.

گوگل اعلام کرده است که این نسخه ایمن‌ترین سیستم رباتیکی این شرکت تا امروز محسوب می‌شود و توانایی بهتری در تشخیص خطرات و رعایت قوانین ایمنی فیزیکی در سناریو‌های متنی و بصری دارد.
مدل Gemini Robotics‑ER ۱.۶ اکنون از طریق Gemini API و پلتفرم Google AI Studi در اختیار توسعه‌دهندگان قرار گرفته است. همچنین ابزار‌هایی برای آزمایش و ساخت برنامه‌های مبتنی بر استدلال تجسم‌یافته در این پلتفرم‌ها ارائه شده است.

انتهای پیام/

نظر شما
captcha
پیشنهاد سردبیر