الأخبار التكنولوجية والاستعراضات والنصائح!

تفوق LLM على التعلم المعزز – قابل SPRING: إطار عمل مبتكر للماجستير مصمم لتمكين تخطيط سلسلة الأفكار في السياق والاستدلال

ستساعدك المقالة التالية: تفوق LLM على التعلم المعزز – قابل SPRING: إطار عمل مبتكر للماجستير مصمم لتمكين تخطيط سلسلة الأفكار في السياق والاستدلال

هي سياسة قائمة على LLM تتفوق على خوارزميات التعلم المعزز في بيئة تفاعلية تتطلب تخطيطًا متعدد المهام والاستدلال.

مجموعة من الباحثين من ، و ، وقد بحثوا في استخدام نماذج اللغة الكبيرة (LLMs) لفهم واستدلال المعرفة البشرية في سياق الألعاب. يقترحون نهجًا من مرحلتين يسمى ، والتي تتضمن دراسة ورقة أكاديمية ثم استخدام إطار سؤال وجواب (QA) لتبرير المعرفة التي تم الحصول عليها.

مزيد من التفاصيل حول الربيع

في المرحلة الأولى ، قرأ المؤلفون كود مصدر LaTeX للورقة الأصلية بواسطة هافنر (2021) لاستخراج المعرفة السابقة. لقد استخدموا LLM لاستخراج المعلومات ذات الصلة ، بما في ذلك ميكانيكا اللعبة والسلوكيات المرغوبة الموثقة في الورقة. ثم استخدموا إطار تلخيص ضمان الجودة مشابه لـ Wu et al. (2023) لإنشاء حوار ضمان الجودة استنادًا إلى المعرفة المستخرجة ، مما يمكّن SPRING من التعامل مع المعلومات السياقية المتنوعة.

ركزت المرحلة الثانية على التفكير المتسلسل في السياق باستخدام LLMs لحل الألعاب المعقدة. قاموا ببناء رسم بياني لا دوري موجه (DAG) كوحدة تفكير ، حيث تكون الأسئلة عبارة عن عقد ويتم تمثيل التبعيات بين الأسئلة كحواف. على سبيل المثال ، السؤال “لكل إجراء ، هل تم استيفاء المتطلبات؟” مرتبط بالسؤال “ما هي أهم 5 إجراءات؟” ضمن DAG ، إنشاء تبعية من السؤال الأخير إلى السؤال الأول.

يتم حساب إجابات LLM لكل عقدة / سؤال عن طريق اجتياز DAG بالترتيب الطوبولوجي. تمثل العقدة الأخيرة في DAG السؤال حول أفضل إجراء يمكن اتخاذه ، ويتم ترجمة إجابة LLM مباشرة إلى إجراء بيئي.

التجارب والنتائج

إن لعبة Crafter Environment ، التي قدمها هافنر (2021) ، هي لعبة بقاء في عالم مفتوح مع 22 إنجازًا تم تنظيمها في شجرة تقنية ذات عمق 7. يتم تمثيل اللعبة كعالم شبكي مع ملاحظات من أعلى إلى أسفل ومساحة عمل منفصلة تتكون من 17 خيارات. توفر الملاحظات أيضًا معلومات حول حالة المخزون الحالية للاعب ، بما في ذلك النقاط الصحية والغذاء والماء ومستويات الراحة وعناصر المخزون.

قارن المؤلفون طرق SPRING وطرق RL الشائعة على مقياس Crafter. بعد ذلك ، تم إجراء تجارب وتحليلات على مكونات مختلفة من بنيتها لفحص تأثير كل جزء على قدرات “التفكير” في السياق لـ LLM.

قارن المؤلفون أداء خطوط الأساس المختلفة لـ RL بأداء SPRING مع GPT-4 ، المشروط بورقة البيئة بواسطة هافنر (2021). يتفوق SPRING على أحدث الأساليب السابقة (SOTA) بهامش كبير ، محققًا تحسنًا نسبيًا بنسبة 88٪ في النتيجة داخل اللعبة وتحسنًا بنسبة 5٪ في المكافأة مقارنةً بأسلوب RL الأفضل أداءً بواسطة Hafner et al. (2023).

والجدير بالذكر أن SPRING يستفيد من المعرفة السابقة من قراءة الورقة ولا يتطلب خطوات تدريب صفرية ، بينما تتطلب أساليب RL عادةً الملايين من خطوات التدريب.

يمثل الشكل أعلاه مخططًا لمعدلات إلغاء القفل لمهام مختلفة ، مع مقارنة SPRING بخطوط أساس RL الشائعة. يتفوق SPRING ، المدعوم من المعرفة السابقة ، على أساليب RL بأكثر من عشر مرات في الإنجازات مثل “Make Stone Pickaxe” و “Make Stone Sword” و “Collect Iron” ، وهي أعمق في شجرة التكنولوجيا (حتى العمق 5) ويصعب الوصول إليه من خلال الاستكشاف العشوائي.

علاوة على ذلك ، يؤدي SPRING أداءً مثاليًا في إنجازات مثل “Eat Cow” و “Collect Drink”. في الوقت نفسه ، تتمتع أطر RL القائمة على النماذج مثل Dreamer-V3 بمعدلات فتح أقل (أقل بخمس مرات) لـ “Eat Cow” بسبب التحدي المتمثل في الوصول إلى الأبقار المتحركة من خلال الاستكشاف العشوائي. الأهم من ذلك ، أن SPRING لا يتخذ إجراء “Place Stone” لأنه لم تتم مناقشته على أنه مفيد للوكيل في الورقة بواسطة Hafner (2021) ، على الرغم من أنه يمكن تحقيقه بسهولة من خلال الاستكشاف العشوائي.

محددات

أحد قيود استخدام LLM للتفاعل مع البيئة هو الحاجة إلى التعرف على الكائن والتأريض. ومع ذلك ، لا يوجد هذا القيد في البيئات التي توفر معلومات دقيقة عن الكائنات ، مثل الألعاب المعاصرة وعوالم الواقع الافتراضي. بينما تكافح العمود الفقري المرئي المُدرَّب مسبقًا مع الألعاب ، إلا أنها تؤدي أداءً جيدًا بشكل معقول في بيئات تشبه العالم الحقيقي. تشير التطورات الحديثة في نماذج اللغة المرئية إلى إمكانية وجود حلول موثوقة في فهم اللغة المرئية في المستقبل.

خاتمة

باختصار ، يعرض إطار عمل SPRING إمكانات نماذج اللغة (LLMs) لفهم اللعبة والاستنتاج المنطقي. من خلال الاستفادة من المعرفة السابقة من الأوراق الأكاديمية وتوظيف التفكير المتسلسل في السياق ، يتفوق SPRING على أحدث الأساليب السابقة في معيار Crafter ، ويحقق تحسينات كبيرة في النتيجة والمكافأة في اللعبة. تسلط النتائج الضوء على قوة LLM في مهام اللعبة المعقدة وتشير إلى أن التطورات المستقبلية في نماذج اللغة المرئية يمكن أن تعالج القيود الحالية ، مما يمهد الطريق لحلول موثوقة وقابلة للتعميم.