۱۶ دی ۱۴۰۲ ۱۱:۴۰

گوگل به روش‌های جدیدی برای آموزش ربات‌ها با ویدیو و مدل‌های زبانی بزرگ اشاره می‌کند

گوگل درحال تحقیق روی استفاده از مدل‌های زبانی بزرگ و ویدیو برای آموزش ربات‌هاست.

به‌نظر می‌رسد که سال 2024 از نظر پیشرفت‌ها در دو حوزه هوش مصنوعی و رباتیک هیجان‌انگیز خواهد بود و از یادگیری گرفته تا طراحی محصول، هیجان زیادی در مورد پتانسیل کاربردهای مختلف این دو فناوری وجود دارد. محققان DeepMind Robotics گوگل یکی از معدود تیم‌هایی هستند که پتانسیل این فضا را بررسی می‌کنند و حالا با انتشار یک پست جدید، به تحقیقات خود در‌زمینه آموزش ربات‌ها برای درک بهتر دستورات اشاره کرده‌اند.

محققان گوگل در این پست که با عنوان «تشکیل آینده رباتیک پیشرفته» منتشر شده است، به پیشرفت‌های مختلفی درزمینه رباتیک اشاره کرده‌اند. AutoRT یکی از این سیستم‌هاست که با استفاده از یک مدل زبانی بصری (VLM) برای آگاهی بهتر از یک موقعیت معرفی شده است. درواقع AutoRT می‌تواند گروهی از ربات‌ها را که مجهز به دوربین هستند، مدیریت کند تا بتواند طرح محیط و اشیای درون آن را به‌دست آورد.

درهمین‌حال، با کمک مدل زبانی بزرگ می‌توان وظایفی به ربات محول کرد که توسط سخت‌افزار انجام می‌شوند. به عقیده دانشمندان، LLMها باعث می‌شوند که قابلیت‌های بیشتری در دسترس ربات‌ها قرار بگیرد و به‌طور مؤثر بتوانند دستورات زبان طبیعی را درک کنند و درواقع نیاز به مهارت‌های کدنویسی را کاهش می‌دهد.

محققان گوگل در طول ماه‌های گذشته درحال آزمایش این سیستم بوده‌اند. AutoRT می‌تواند تا 20 ربات و درمجموع 52 دستگاه مختلف را مدیریت کند. درمجموع DeepMind حدود 77 هزار آزمایش را که شامل بیش از 6000 وظیفه می‌شود، انجام داده است.

آموزش ربات‌ها با ویدیو

سیستم دیگر تیم گوگل RT-Trajectory نام دارد که با ورودی‌هایی ویدیویی به ربات آموزش می‌دهد. درحال‌حاضر تیم‌های زیادی درحال بررسی استفاده از ویدیوهای یوتوب برای آموزش ربات‌ها هستند، اما RT-Trajectory سطح جدیدی را برای این کار ارائه می‌کند.

به گفته DeepMind، این سیستم در مقایسه با مدل هوش مصنوعی RT-2 که اخیراً برای حرف‌زدن با ربات‌ها معرفی شد، درزمینه آموزش دو برابر عملکرد بهتری داشته است؛ یعنی 63 درصد در مقایسه با 29 درصد.

منبع: دیجیاتو

ارسال به دیگران

ربات

۱۶ دی ۱۴۰۲ ۱۱:۴۰