الأخبار التكنولوجية والاستعراضات والنصائح!

أطلقت Google نموذج روبوت “يشبه GPT” ، RT-1

ستساعدك المقالة التالية: أطلقت Google نموذج روبوت “يشبه GPT” ، RT-1

أصدرت Google نموذج روبوت جديد ، RT-1 ، مشابه لنموذج GPT المستخدم في برنامج الذكاء الاصطناعي OpenAI الخاص بها. تم تصميم النموذج الجديد مع مراعاة برامج الروبوتات الأخرى من Google ، بما في ذلك برنامج السيارة بدون سائق. يعد نموذج RT-1 المقدم هنا خطوة نحو نماذج الذكاء الاصطناعي التوليدية في مجال الروبوتات. في العالم الحقيقي ، يمكن لـ RT-1 تنفيذ أكثر من 700 تعليمات بمعدل نجاح 97٪.

تم تمكين التطورات الأخيرة في أبحاث التعلم الآلي (ML) ، مثل رؤية الكمبيوتر ومعالجة اللغة الطبيعية ، من خلال نهج مشترك مشترك يستخدم مجموعات بيانات كبيرة ومتنوعة ونماذج معبرة. على الرغم من وجود محاولات مختلفة لتطبيق هذا النهج على الروبوتات ، إلا أن الروبوتات لم تستخدم حتى الآن نماذج عالية القدرة مثل الحقول الفرعية الأخرى.

يقوم النموذج بترميز أمر مكتوب ومجموعة من الصور كرموز باستخدام نموذج FiLM EfficientNet المدربين مسبقًا قبل ضغطهم باستخدام TokenLearner. هذه هي بنية RT-1. ثم يستقبل المحول هذه وينتج رموز الإجراءات.

قام المطورون بتجميع مجموعة بيانات كبيرة ومتنوعة من مسارات الروبوت من أجل تطوير نظام يمكنه التعميم على المهام الجديدة وإظهار القوة في مختلف الانحرافات والخلفيات. لجمع 130 ألف حلقة على مدار 17 شهرًا ، قاموا بنشر 13 معالج روبوت EDR ، لكل منها ذراع 7 درجات من الحرية ، ومقبض بإصبعين ، وقاعدة متحركة. استخدم الباحثون الأمثلة البشرية التي تم الحصول عليها عن بعد عن بعد ، وقاموا بتمييز كل حدث بشرح مكتوب للأمر الذي نفذه الروبوت للتو. يعد انتقاء الأشياء وترتيبها ، وفتح الأدراج وإغلاقها ، وإدخال الأشياء داخل الأدراج وخارجها ، ووضع الأشياء الممدودة في وضع مستقيم ، وطرق الأشياء ، وسحب المناديل ، وفتح الجرار من بين المهارات عالية المستوى المدرجة في مجموعة البيانات.

يعرض الفيديو التالي بعض نماذج أداء المهام طويلة المدى PaLM-SayCan-RT1 في عدة مطابخ فعلية.

في جميع المجالات الأربعة ، يعمل RT-1 بشكل أفضل بكثير من خطوط الأساس ، حيث يعرض مستويات استثنائية من التعميم والمرونة.

يعد RT-1 Robotics Transformer نموذجًا لتوليد الحركة لمهام الروبوتات في العالم الحقيقي وهي بسيطة وقابلة للتطوير. يقوم بترميز جميع المدخلات والمخرجات ويضغطها باستخدام نموذج EfficientNet المدربين مسبقًا مع اندماج اللغة المبكر ومتعلم رمزي. يوضح RT-1 أداءً قويًا عبر مئات المهام ، بالإضافة إلى التعميم الشامل والقوة في إعدادات العالم الحقيقي.

يتعلم أكثر: