الأخبار التكنولوجية والاستعراضات والنصائح!

تعرف على STEVE-1: نموذج ذكاء اصطناعي عام قابل للتوجيه لماين كرافت يتبع كلاً من التعليمات النصية والمرئية ويكلف 60 دولارًا فقط للتدريب

ستساعدك المقالة التالية: تعرف على STEVE-1: نموذج ذكاء اصطناعي عام قابل للتوجيه لماين كرافت يتبع كلاً من التعليمات النصية والمرئية ويكلف 60 دولارًا فقط للتدريب

يمكن الآن تشغيل نماذج الذكاء الاصطناعي القوية والتفاعل معها عبر أوامر اللغة ، مما يجعلها متاحة على نطاق واسع وقابلة للتكيف. يعد الانتشار المستقر ، الذي يحول اللغة الطبيعية إلى صورة ، و ChatGPT ، الذي يمكنه الرد على الرسائل المكتوبة بلغة طبيعية وتنفيذ مهام مختلفة ، أمثلة على هذه النماذج. في حين أن تكلفة تدريب هذه النماذج يمكن أن تتراوح من عشرات الآلاف إلى ملايين الدولارات ، كان هناك تطور مثير مماثل حيث يمكن تحسين نماذج الأساس القوية مفتوحة المصدر ، مثل LLaMA ، مع القليل من الحسابات والبيانات بشكل مفاجئ لتصبح تعليمات -التالي.

يبحث باحثون من جامعة تورنتو ومعهد Vector للذكاء الاصطناعي في جدوى مثل هذه الاستراتيجية في مجالات صنع القرار المتسلسلة في هذا البحث. تعد البيانات المتنوعة لصنع القرار المتسلسل مكلفة للغاية وغالبًا ما لا تحتوي على تسمية “تعليمات” سهلة الاستخدام مثل التسميات التوضيحية للصور ، على عكس مجالات النص والصور. يقترحون تعديل نماذج السلوك التوليدي المحددة مسبقًا باستخدام بيانات التعليمات ، بناءً على التطورات السابقة في LLMs المضبوطة بالتعليمات مثل Alpaca. تم توفير نموذجين أساسيين للعبة الفيديو المفتوحة المعروفة Minecraft في العام الماضي: MineCLIP ، وهو نموذج لمحاذاة النص ومقاطع الفيديو ، و VPT ، وهو نموذج للسلوك.

لقد خلق هذا فرصة رائعة للتحقيق في تحسين اتباع التعليمات في مجال صنع القرار المتسلسل في Minecraft. يتمتع الوكيل بفهم واسع النطاق لعالم Minecraft لأن VPT تم تدريبه على 70 ألف ساعة من وقت تشغيل Minecraft. ومع ذلك ، قد يكون لنموذج VPT القدرة على سلوك واسع ومحكوم إذا تم ضبطه لاتباع التوجيهات ، مثلما تم فتح الإمكانات الهائلة لـ LLM من خلال مواءمتها مع التعليمات. لقد أظهروا على وجه التحديد في بحثهم كيفية ضبط VPT للامتثال لتعليمات نصية قصيرة الأفق باستخدام 60 دولارًا فقط من الحوسبة وحوالي 2000 مقطع مسار معنون بالتعليمات.

تتأثر منهجيتهم ببرنامج unCLIP ، والذي تم استخدامه لتطوير نموذج النص إلى الصورة المعروف DALLe 2. يكسرون التحدي المتمثل في تصميم وكيل Minecraft الذي يتبع التعليمات في نموذج VPT المعدل لتحقيق الأهداف المرئية المخزنة في مساحة MineCLIP الكامنة ونموذج سابق يحول التعليمات النصية إلى زخارف مرئية MineCLIP. يستخدمون حفلات الزفاف المرئية MineCLIP بدلاً من ملصقات التعليمات النصية باهظة الثمن لضبط VPT عبر الاستنساخ السلوكي باستخدام البيانات الخاضعة للإشراف الذاتي التي تنتجها إعادة التسمية بعد فوات الأوان.

إنهم يجمعون بين unCLIP والتوجيه الخالي من المصنفات لتطوير وكيلهم ، المسمى STEVE-1 ، والذي يتجاوز إلى حد كبير المعيار الذي حدده Baker et al. للأمر المفتوح الذي يتبع في Minecraft باستخدام وحدات تحكم منخفضة المستوى (الماوس ولوحة المفاتيح) ومدخلات بكسل خام.

فيما يلي مساهماتهم الأساسية:

• قاموا بتطوير STEVE-1 ، وكيل Minecraft بدقة عالية أثناء تنفيذ الأوامر النصية والمرئية المفتوحة. يجرون تحليلات متعمقة لوكيلهم ، مما يدل على أنه يمكنه تنفيذ مهام مختلفة في الأفق القصير 1 في Minecraft. لقد أثبتوا أن التسلسل الفوري المباشر قد يعزز بشكل كبير الأداء للعمليات ذات الأفق الأطول مثل البناء والحرف اليدوية.

• يشرحون كيفية بناء STEVE-1 باستخدام 60 دولارًا فقط من الحوسبة ، مما يدل على أن التوجيه الخالي من المصنف وإلغاء القيود أمران حاسمان للأداء الفعال في صنع القرار المتسلسل.

• يقومون بإتاحة أوزان نموذج STEVE-1 ، ونصوص التقييم ، ونصوص التدريب لتشجيع الدراسة المستقبلية على وكلاء صنع القرار المتسلسل القابل للتعليم ، والمفتوح النهايات.

يحتوي الموقع على عروض فيديو توضيحية للوكيل في اللعبة.