▷قابل PaLM-E: نموذج لغة متعدد الوسائط مجسد جديد بقيمة 562 مليارًا يؤدي مهامًا مثل تخطيط المعالجة الروبوتية ، وضمان الجودة المرئي ✅

ستساعدك المقالة التالية: قابل PaLM-E: نموذج لغة متعدد الوسائط مجسد جديد بقيمة 562 مليارًا يؤدي مهامًا مثل تخطيط المعالجة الروبوتية ، وضمان الجودة المرئي

يتم عرض قدرات التفكير القوية بواسطة نماذج اللغات الكبيرة (LLMs) في مجموعة متنوعة من المجالات ، بما في ذلك المحادثة والتفكير التدريجي وحل المشكلات الحسابية وتأليف الكود. على الرغم من أن تدريب LLM على كميات هائلة من البيانات النصية يمكن أن ينتج تمثيلات تتعلق ببيئتهم المادية ، فإن ربط هذه التمثيلات بأساليب الاستشعار البصرية والمادية في العالم الحقيقي أمر بالغ الأهمية لحل مجموعة واسعة من مشاكل العالم الحقيقي في رؤية الكمبيوتر والروبوتات.

واجه العمل السابق ناتج LLM مع سياسات الروبوتات المكتسبة ووظائف القدرة على تحمل التكاليف لاتخاذ القرارات ، لكنه مقيد بهذه الطريقة. يتمثل الحد من العمل السابق في أن LLM لا تتلقى سوى إدخال نصي ، وهو أمر غير كافٍ للعديد من المهام حيث يكون التكوين الهندسي للمشهد أمرًا بالغ الأهمية. علاوة على ذلك ، يوضح بحثهم أن نماذج اللغة المرئية المتطورة المدربة على مهام لغة الرؤية المشتركة مثل الإجابة على الأسئلة المرئية (VQA) لا يمكنها حل مشاكل التفكير الروبوتي بشكل مباشر. في هذه الدراسة اقترح باحثون من Google و TU Berlin نماذج لغوية مجسدة ، والتي تتضمن بشكل مباشر مدخلات مستمرة من طرائق استشعار العامل المتجسد وتسمح لنموذج اللغة باستخلاص استنتاجات أكثر دقة لاتخاذ القرار المتسلسل في العالم الفعلي. لقد قاموا بتطوير PaLM-E وهو نموذج واحد كبير ومتعدد الوسائط يعرض انتقالًا إيجابيًا ويمكنه حل مجموعة من مشاكل التفكير المتجسدة من طرائق مراقبة مختلفة في تجسيدات عديدة.

يُظهر PaLM-E LLM انتقالًا إيجابيًا حيث يمكن تطبيق المعرفة أو المهارات من اللغة الأولى للمتعلم (L1) على تعلم اللغة الثانية (L2) ، مما يؤدي إلى اكتساب L2 بشكل أسرع وأكثر فعالية. على سبيل المثال ، إذا كان للمتعلم L1 بنية نحوية مشابهة للغة L2 التي يتعلمها ، فقد يتمكن من استخدام معرفته بقواعد اللغة L1 لفهم قواعد قواعد اللغة L2 وتطبيقها بسرعة أكبر. وبالمثل ، إذا كان المتعلمان L1 و L2 يشتركان في الكلمات المتشابهة (الكلمات التي لها تهجئة مماثلة ومعناها في كلتا اللغتين) ، فقد يكونون قادرين على توسيع مفردات اللغة الثانية لديهم بسرعة من خلال التعرف على هذه الكلمات المتشابهة وتذكرها. يمكن مقارنة التحويل الإيجابي بالنقل السلبي ، والذي يحدث عندما تتداخل المعرفة أو المهارات من المستوى الأول للمتعلم مع قدرته على اكتساب اللغة الثانية. على سبيل المثال ، إذا كانت البنية النحوية للغة L1 الخاصة بالمتعلم تختلف اختلافًا كبيرًا عن تلك الموجودة في اللغة الثانية ، فقد يواجهون صعوبة في تطبيق قواعد قواعد اللغة L2 بشكل صحيح ، حتى لو فهموها فكريا.

على غرار كيفية معالجة الرموز اللغوية بواسطة طبقات الانتباه الذاتي لـ LLM المستندة إلى Transformer ، يتم أيضًا دمج المدخلات مثل الصور وتقديرات الحالة في نفس التضمين الكامن مثل الرموز المميزة للغة. يبدأون بحقن المدخلات المستمرة من خلال جهاز تشفير في LLM مدرب مسبقًا. تلقت هذه المشفرات تدريبًا شاملاً لإنتاج أحكام متسلسلة باللغة الطبيعية ، والتي قد يفهمها الوكيل المتجسد من خلال تكوين قواعد منخفضة المستوى أو الاستجابة لاستعلام مجسد. من خلال مقارنة تمثيلات الإدخال المختلفة (مثل ترميز ViT المعياري مقابل ترميز الكائن للإدخال المرئي) ، والتجميد مقابل ضبط نموذج اللغة أثناء تدريب المشفرات ، وفحص ما إذا كان التدريب المشترك على مهام متعددة يسمح بالنقل ، يقومون بتقييم النهج في مجموعة من السياقات.

إنهم يختبرون التقنية على ثلاثة مجالات للمعالجة الآلية (اثنان منها عبارة عن حلقة مغلقة في العالم الحقيقي) ، ومهام اللغة المرئية الشائعة مثل VQA والتعليق على الصور ، ومهام اللغة ، لتحديد اتساع النهج. وفقًا للنتائج التي توصلوا إليها ، فإن التدريب متعدد المهام يعزز الأداء مقارنة بنماذج التدريب للمهام الفردية. يوضحون كيف أن هذا النقل بين المهام قد يؤدي إلى كفاءة كبيرة في البيانات لمهام الروبوتات ، بما في ذلك إظهار التعميم من طلقة واحدة أو إطلاق النار على مجموعات عناصر جديدة أو كائنات غير معروفة وتحسين أداء التعلم بشكل كبير من عدد صغير من عينات التدريب. على حد علمهم ، تم دمج 540B PaLM LLM و 22B Vision Transformer (ViT) لإنشاء أكبر نموذج للغة الرؤية تم نشره على الإطلاق ، لتوسيع نطاق PaLM-E حتى 562B معلمة.

بدون استخدام ضبط دقيق خاص بالمهمة ، يحقق PaLM-E-562B أداءً متطورًا على معيار OK-VQA. اكتشفوا أيضًا أن PaLM-E-562B يعرض نطاقًا واسعًا من المهارات على الرغم من أنه تم تدريبه على أمثلة الصورة الواحدة فقط ، بما في ذلك سلسلة التفكير متعددة الوسائط (CoT) ذات اللقطة الصفرية ، والتفكير الحسابي الخالي من التعرف الضوئي على الحروف ، والمنطق متعدد الصور. Zero-shot CoT ، مبدئيًا مفهوم اللغة فقط ، لم يتم عرضه بعد باستخدام نموذج شامل على بيانات متعددة الوسائط مع برامج خاصة بالمهام ، على حد علمهم.

لتلخيص مساهماتهم الأساسية ، (1) يقترحون ويوضحون كيف يمكن تضمين البيانات المجسدة في تدريب نموذج لغة كبيرة متعدد الوسائط لإنشاء وكيل صنع قرار عام ومتعلم ومتعدد التجسيدات. لقد أثبتوا أنه على الرغم من أن نماذج اللغة المرئية الحديثة ذات الأغراض العامة لا تعالج بفعالية قضايا التفكير المتجسد خارج الصندوق (طلقة صفرية) ، فمن الممكن تدريب نموذج لغة بصرية للأغراض العامة هذا هو العقل المتجسد الفعال والكفاءة. في البحث عن التدريب الأمثل لهذه النماذج ،

(3) يقدمون مفاهيم معمارية جديدة ، بما في ذلك الرموز المميزة للوسائط المتعددة لتمثيل الكيانات وتمثيلات المشهد العصبي. أخيرًا وليس آخرًا ، أظهروا (4) أن PaLM-E هي أيضًا رؤية ماهرة كميًا ومختصًا في اللغة ، بالإضافة إلى تركيزهم على PaLM-E كمنطق متجسد ، و (5) يوضحون أن توسيع حجم نموذج اللغة يتيح ضبط دقيق متعدد الوسائط مع نسيان أقل كارثية. يمكن العثور على عروض توضيحية مختلفة على موقع الويب الخاص بالمشروع.

قابل PaLM-E: نموذج لغة متعدد الوسائط مجسد جديد بقيمة 562 مليارًا يؤدي مهامًا مثل تخطيط المعالجة الروبوتية ، وضمان الجودة المرئي

نحن نوصيك: