الأخبار التكنولوجية والاستعراضات والنصائح!

الحلم أولاً ، تعلم لاحقًا: DECKARD هو نهج ذكاء اصطناعي يستخدم LLM لتدريب وكلاء التعلم المعزز (RL)

ستساعدك المقالة التالية: الحلم أولاً ، تعلم لاحقًا: DECKARD هو نهج ذكاء اصطناعي يستخدم LLM لتدريب وكلاء التعلم المعزز (RL)

التعلم المعزز (RL) هو نهج شائع لتدريب الوكلاء المستقلين الذين يمكنهم تعلم أداء المهام المعقدة من خلال التفاعل مع بيئتهم. تمكنهم RL من تعلم أفضل إجراء في ظروف مختلفة والتكيف مع بيئتهم باستخدام نظام المكافآت.

يتمثل أحد التحديات الرئيسية في RL في كيفية استكشاف مساحة الدولة الشاسعة للعديد من مشكلات العالم الحقيقي بكفاءة. ينشأ هذا التحدي بسبب حقيقة أن الوكلاء في RL يتعلمون من خلال التفاعل مع بيئتهم من خلال الاستكشاف. فكر في وكيل يحاول لعب Minecraft. إذا سمعت عنها من قبل ، فأنت تعرف كيف تبدو شجرة صياغة Minecraft معقدة. لديك المئات من الأشياء القابلة للتصنيع ، وقد تحتاج إلى صنع واحدة لصناعة أخرى ، وما إلى ذلك ، لذا فهي بيئة معقدة حقًا.

نظرًا لأن البيئة يمكن أن تحتوي على عدد كبير من الحالات والإجراءات المحتملة ، فقد يصبح من الصعب على الوكيل العثور على السياسة المثلى من خلال الاستكشاف العشوائي وحده. يجب على الوكيل أن يوازن بين استغلال أفضل سياسة حالية واستكشاف أجزاء جديدة من فضاء الدولة لإيجاد سياسة أفضل محتملة. يعد العثور على طرق استكشاف فعالة يمكنها تحقيق التوازن بين الاستكشاف والاستغلال مجالًا نشطًا للبحث في RL.

من المعروف أن أنظمة اتخاذ القرار العملية تحتاج إلى استخدام المعرفة السابقة حول مهمة ما بكفاءة. من خلال الحصول على معلومات مسبقة حول المهمة نفسها ، يمكن للوكيل تكييف سياسته بشكل أفضل ويمكنه تجنب الوقوع في سياسات دون المستوى الأمثل. ومع ذلك ، فإن معظم أساليب التعلم المعزز يتم تدريبها حاليًا دون أي تدريب سابق أو معرفة خارجية.

لكن لماذا هذا هو الحال؟ في السنوات الأخيرة ، كان هناك اهتمام متزايد باستخدام نماذج اللغة الكبيرة (LLMs) لمساعدة وكلاء RL في الاستكشاف من خلال توفير المعرفة الخارجية. لقد أظهر هذا النهج واعدًا ، ولكن لا يزال هناك العديد من التحديات التي يجب التغلب عليها ، مثل تأسيس معرفة LLM في البيئة والتعامل مع دقة مخرجات LLM.

لذا ، هل يجب أن نتخلى عن استخدام LLM لمساعدة وكلاء RL؟ إذا لم يكن الأمر كذلك ، فكيف يمكننا إصلاح هذه المشكلات ثم استخدامها مرة أخرى لتوجيه وكلاء RL؟ الجواب له اسم ، وهو DECKARD.

DECKARD تم تدريبه على Minecraft ، حيث أن صياغة عنصر معين في Minecraft يمكن أن يكون مهمة صعبة إذا كان المرء يفتقر إلى معرفة الخبراء باللعبة. وقد تم إثبات ذلك من خلال الدراسات التي أظهرت أن تحقيق هدف في Minecraft يمكن أن يكون أسهل من خلال استخدام المكافآت الكثيفة أو عروض الخبراء. نتيجة لذلك ، أصبحت صياغة العناصر في Minecraft تحديًا مستمرًا في مجال الذكاء الاصطناعي.

DECKARD يستخدم تقنية تحفيز قليلة اللقطات على نموذج لغة كبير (LLM) لإنشاء نموذج عالمي مجردة (AWM) للأهداف الفرعية. يستخدم LLM لفرضية AWM ، مما يعني أنه يتعلق بالمهمة وخطوات حلها. ثم يستيقظ ويتعلم سياسة معيارية للأهداف الفرعية التي يولدها أثناء الحلم. نظرًا لأن هذا يتم في البيئة الحقيقية ، يمكن لـ DECKARD التحقق من AWM المفترض. يتم تصحيح AWM أثناء مرحلة الاستيقاظ ، ويتم تمييز العقد المكتشفة على أنها تم التحقق منها لاستخدامها مرة أخرى في المستقبل.

توضح لنا التجارب أن إرشادات LLM ضرورية للاستكشاف في DECKARD ، مع إصدار الوكيل دون توجيه LLM الذي يستغرق ضعف الوقت لصياغة معظم العناصر أثناء الاستكشاف المفتوح. عند استكشاف مهمة معينة ، DECKARD يحسن كفاءة العينة بأوامر من حيث الحجم مقارنة بالعوامل المماثلة ، مما يدل على إمكانية تطبيق LLM بقوة على RL.