گوگل به روشهای جدیدی برای آموزش رباتها با ویدیو و مدلهای زبانی بزرگ اشاره میکند
گوگل درحال تحقیق روی استفاده از مدلهای زبانی بزرگ و ویدیو برای آموزش رباتهاست.
بهنظر میرسد که سال 2024 از نظر پیشرفتها در دو حوزه هوش مصنوعی و رباتیک هیجانانگیز خواهد بود و از یادگیری گرفته تا طراحی محصول، هیجان زیادی در مورد پتانسیل کاربردهای مختلف این دو فناوری وجود دارد. محققان DeepMind Robotics گوگل یکی از معدود تیمهایی هستند که پتانسیل این فضا را بررسی میکنند و حالا با انتشار یک پست جدید، به تحقیقات خود درزمینه آموزش رباتها برای درک بهتر دستورات اشاره کردهاند.
محققان گوگل در این پست که با عنوان «تشکیل آینده رباتیک پیشرفته» منتشر شده است، به پیشرفتهای مختلفی درزمینه رباتیک اشاره کردهاند. AutoRT یکی از این سیستمهاست که با استفاده از یک مدل زبانی بصری (VLM) برای آگاهی بهتر از یک موقعیت معرفی شده است. درواقع AutoRT میتواند گروهی از رباتها را که مجهز به دوربین هستند، مدیریت کند تا بتواند طرح محیط و اشیای درون آن را بهدست آورد.
درهمینحال، با کمک مدل زبانی بزرگ میتوان وظایفی به ربات محول کرد که توسط سختافزار انجام میشوند. به عقیده دانشمندان، LLMها باعث میشوند که قابلیتهای بیشتری در دسترس رباتها قرار بگیرد و بهطور مؤثر بتوانند دستورات زبان طبیعی را درک کنند و درواقع نیاز به مهارتهای کدنویسی را کاهش میدهد.
محققان گوگل در طول ماههای گذشته درحال آزمایش این سیستم بودهاند. AutoRT میتواند تا 20 ربات و درمجموع 52 دستگاه مختلف را مدیریت کند. درمجموع DeepMind حدود 77 هزار آزمایش را که شامل بیش از 6000 وظیفه میشود، انجام داده است.
آموزش رباتها با ویدیو
سیستم دیگر تیم گوگل RT-Trajectory نام دارد که با ورودیهایی ویدیویی به ربات آموزش میدهد. درحالحاضر تیمهای زیادی درحال بررسی استفاده از ویدیوهای یوتوب برای آموزش رباتها هستند، اما RT-Trajectory سطح جدیدی را برای این کار ارائه میکند.
به گفته DeepMind، این سیستم در مقایسه با مدل هوش مصنوعی RT-2 که اخیراً برای حرفزدن با رباتها معرفی شد، درزمینه آموزش دو برابر عملکرد بهتری داشته است؛ یعنی 63 درصد در مقایسه با 29 درصد.
منبع: دیجیاتو