الأخبار التكنولوجية والاستعراضات والنصائح!

قابل Voyager: وكيل قوي لماين كرافت مع GPT4 وأول وكيل تعلم مدى الحياة يلعب لعبة Minecraft في السياق البحت

ستساعدك المقالة التالية: قابل Voyager: وكيل قوي لماين كرافت مع GPT4 وأول وكيل تعلم مدى الحياة يلعب لعبة Minecraft في السياق البحت

تكمن المشكلة الكبرى التي تواجه باحثي الذكاء الاصطناعي اليوم في إنشاء كيانات متجسدة مستقلة تمامًا يمكنها التخطيط والاستكشاف والتعلم في بيئات مفتوحة. تعتمد الأساليب التقليدية على الإجراءات الأساسية لتدريب النماذج من خلال التعلم المعزز (RL) والتعلم المحاكي ، مما يجعل التحقيق المنهجي والتفسير وقابلية التعميم أمرًا صعبًا. تستخدم التطورات الحديثة في الوكلاء المعتمدين على نموذج اللغة الكبيرة (LLM) المعلومات العالمية المشفرة في LLMs المدربة مسبقًا لتطوير خطط عمل متسقة أو سياسات قابلة للتنفيذ. يتم استخدامها في أنشطة البرمجة اللغوية العصبية غير المجسدة بالإضافة إلى الأنشطة المجسدة مثل الألعاب والروبوتات.

Voyager هو أول عامل تعلم مدى الحياة مدعوم من LLM في Minecraft ، وهو دائمًا ما يستكشف عوالم جديدة ، ويكتسب مهارات جديدة ، ويقوم باكتشافات دون أي مساعدة من البشر. المكونات الثلاثة الرئيسية لـ Voyager هي:

  1. منهج آلي ، إطار تعليمي يعطي الأولوية للاكتشاف
  2. مستودع / مكتبة مهارات تتوسع باستمرار لرمز قابل للتنفيذ يمكنه تخزين الأنشطة المعقدة واسترجاعها.
  3. آلية تحفيز لتحسين البرنامج تتضمن بشكل متكرر تعليقات من البيئة المحيطة وأخطاء التنفيذ والتحقق الذاتي.

تستخدم Voyager استعلامات الصندوق الأسود للتواصل مع GPT-4 ، مما يلغي الحاجة إلى ضبط معلمات النموذج بدقة. تعمل مواهب Voyager المكتسبة بسرعة على مضاعفة وتخفيف النسيان الكارثي نظرًا لأنها ممتدة زمنياً وقابلة للتفسير والتركيب. تجريبيًا ، تُظهر Voyager أداءً استثنائيًا في لعبة الفيديو Minecraft وإمكانات تعليمية قوية مدى الحياة. يمكنه العثور على 3.3 أضعاف عدد السلع النادرة ، والسفر 2.3 مرة ، والوصول إلى المعالم الحاسمة في شجرة التكنولوجيا حتى 15.3 مرة أسرع من SOTA السابقة. بينما تفشل الطرق الأخرى في التعميم ، يمكن لـ Voyager تطبيق مكتبة المهارات المكتسبة في بيئة Minecraft الجديدة لأداء تحديات جديدة تمامًا من البداية.

تنمو مواهب Voyager بسرعة بفضل التوليف التركيبي للمهارات المعقدة ، مما يمنع النسيان الكارثي الذي ابتليت به أشكال أخرى من التعلم المستمر. يتم أخذ تقدم استكشاف Voyager والحالة الحالية للوكيل في الاعتبار في المنهج التلقائي ، والذي يقترح مهامًا أكثر صعوبة بشكل متزايد على Voyager لحلها. من خلال “اكتشاف أكبر عدد ممكن من الأشياء المختلفة” كهدف أساسي لها ، ينشئ GPT-4 مخطط الدورة التدريبية. يمكن تفسير هذه الاستراتيجية على أنها بحث جديد يعمل داخل سياق معين. تم إنشاء مكتبة مهارات Voyager بمرور الوقت من البرامج النشطة التي تساهم في حل مهمة ناجح. يعمل الوصف المضمن لكل برنامج بمثابة فهرس يمكن استرجاعه في حالات مماثلة مستقبلية.

  • لكن LLMs تحتاج إلى مساعدة في تطوير رمز الإجراء الصحيح على الفور وغالبًا ما تخطئ. اقترح مجتمع البحث نظام دفع تكراري لحل هذه المشكلة.
  • يقوم بتشغيل الكود الذي تم إنشاؤه لجمع البيانات من محاكاة Minecraft وتتبع مكدس لأخطاء الترجمة.
  • تدمج GPT-4 الآن التعليقات في طلبها لتحسين البرمجة.
  • يتكرر حتى يصادق المدقق المضمن على انتهاء المهمة عند إضافة الرمز إلى مكتبة المهارات.

يمكن العثور على خطوات التعليمات البرمجية والتثبيت على GitHub هنا https://github.com/MineDojo/Voyager

القيود والعمل المستقبلي

  • القيود وسعر العمالة المستقبلية. هناك نفقات كبيرة تتعلق بـ GPT-4 API. يكلف 15 سنتًا أكثر من GPT-3.5. ومع ذلك ، فإن التحسين الكمي لـ GPT-4 في جودة إنشاء الكود هو ما تحتاجه Voyager ، ولا يمكن لـ GPT-3.5 و LLMs مفتوح المصدر تقديمه.
  • عدم الدقة. في بعض الأحيان ، على الرغم من التنبيه المتكرر للوكيل ، لا يزال الوكيل عالقًا ويحتاج إلى المساعدة لتطوير الموهبة المناسبة. من الممكن أن تتعطل وحدة التحقق الذاتي ، على سبيل المثال ، عن طريق الفشل في تفسير سلسلة العنكبوت كدليل على محاولة قتل عنكبوت ناجحة. يمكن للمنهج التلقائي المحاولة مرة أخرى في وقت لاحق إذا فشل.
  • الهلوسة. هناك أوقات يقترح فيها المنهج التلقائي أهدافًا من المستحيل الوصول إليها. على الرغم من أنه لا يمكن استخدام المرصوفة بالحصى كوقود في اللعبة ، إلا أن GPT-4 تفعل ذلك كثيرًا. على سبيل المثال ، قد يطلب من الوكيل إنشاء “سيف نحاسي” أو “لوحة صندوق نحاسية” ، وكلاهما غير موجود في اللعبة. يؤدي إنشاء الكود أيضًا إلى الهلوسة. قد يتسبب أيضًا في حدوث مشكلات في التنفيذ من خلال محاولة استخدام وظيفة لا تدعمها واجهات برمجة التطبيقات لأولييات التحكم المحددة.

الباحثون متفائلون بأن التحديثات المستقبلية لنماذج GPT API والأساليب المتطورة لضبط LLM مفتوحة المصدر ستزيل هذه العيوب. يمكن استخدام Voyager كنقطة بداية لإنشاء وكلاء عام فعال دون ضبط معلمات النموذج. قدرة Voyager على التعلم مدى الحياة مثيرة للإعجاب في هذا الموقف. يمكن للنظام بناء مكتبة دائمة التوسع من برامج العمل القابلة لإعادة الاستخدام والتفسير والتعميم لأداء المهام الفردية. تتفوق Voyager في العثور على موارد جديدة ، والتقدم من خلال شجرة Minecraft التقنية ، واستكشاف بيئات جديدة ، وتطبيق المعرفة المكتسبة على مواقف جديدة في عالم تم إنشاؤه حديثًا.