الأخبار التكنولوجية والاستعراضات والنصائح!

يقدم باحثو جامعة كاليفورنيا في بيركلي مكافآت التنبؤ بالفيديو (VIPER): خوارزمية تستفيد من نماذج التنبؤ بالفيديو مسبقة التدريب كإشارات مكافأة خالية من الإجراءات لتعلم التعزيز

ستساعدك المقالة التالية: يقدم باحثو جامعة كاليفورنيا في بيركلي مكافآت التنبؤ بالفيديو (VIPER): خوارزمية تستفيد من نماذج التنبؤ بالفيديو مسبقة التدريب كإشارات مكافأة خالية من الإجراءات لتعلم التعزيز

يستغرق تصميم وظيفة المكافأة يدويًا وقتًا طويلاً ويمكن أن يؤدي إلى عواقب غير مقصودة. هذا هو عقبة رئيسية في تطوير عوامل صنع القرار العامة القائمة على التعلم المعزز (RL).

كانت أساليب التعلم السابقة القائمة على الفيديو تكافئ الوكلاء الذين تشبه ملاحظاتهم الحالية إلى حد كبير ملاحظات الخبراء. لا يمكنهم التقاط أنشطة ذات مغزى طوال الوقت لأن المكافآت مشروطة فقط بالملاحظة الحالية. ويعوق التعميم تقنيات التدريب العدائي التي تؤدي إلى انهيار الوضع.

طور باحثو جامعة كاليفورنيا في بيركلي طريقة جديدة لاستخراج الحوافز من نماذج التنبؤ بالفيديو تسمى حوافز التنبؤ بالفيديو للتعلم المعزز (VIPER). يمكن لـ VIPER تعلم وظائف المكافأة من الأفلام الخام والتعميم على المجالات غير المدربة.

أولاً ، يستخدم VIPER أفلامًا تم إنشاؤها بواسطة الخبراء لتدريب نموذج تنبؤ. ثم يتم استخدام نموذج التنبؤ بالفيديو لتدريب عامل على التعلم المعزز لتحسين احتمالية تسجيل مسارات العامل. يجب تصغير توزيع مسارات الوكيل لمطابقة توزيع نموذج الفيديو. باستخدام احتمالية نموذج الفيديو كإشارة مكافأة مباشرة ، قد يتم تدريب الوكيل على اتباع توزيع مسار مشابه لنموذج الفيديو. على عكس المكافآت على مستوى الملاحظة ، فإن تلك التي توفرها نماذج الفيديو تحدد الاتساق الزمني للسلوك. كما أنه يسمح بإطارات زمنية أسرع للتدريب وتفاعلات أكبر مع البيئة لأن تقييم الاحتمالات يكون أسرع بكثير من القيام بإطلاق نماذج الفيديو.

من خلال 15 مهمة DMC و 6 مهام RLBench و 7 مهام Atari ، يجري الفريق دراسة شاملة ويوضح أن VIPER يمكنه تحقيق التحكم على مستوى الخبراء دون استخدام مكافآت المهام. وفقًا للنتائج ، تغلب وكلاء RL المدربون من قبل VIPER على تعلم التقليد العدائي في جميع المجالات. نظرًا لأن VIPER مدمج في الإعداد ، فإنه لا يهتم بأي وكيل RL يتم استخدامه. نماذج الفيديو قابلة للتعميم بالفعل على مجموعات المهام / التسلح التي لم تتم مواجهتها أثناء التدريب ، حتى في نظام مجموعة البيانات الصغيرة.

يعتقد الباحثون أن استخدام نماذج الفيديو الشرطية الكبيرة المدربة مسبقًا سيجعل وظائف المكافأة أكثر مرونة ممكنة. بمساعدة الاختراقات الأخيرة في النمذجة التوليدية ، يعتقدون أن عملهم يوفر للمجتمع أساسًا لمواصفات المكافآت القابلة للتطوير من الأفلام غير المصنفة.