الأخبار التكنولوجية والاستعراضات والنصائح!

مجموعة جديدة من المهام المساعدة على أساس التدبير اللاحق لتحسين التمثيلات التي يكتسبها وكلاء التعلم المعزز العميق

ستساعدك المقالة التالية: مجموعة جديدة من المهام المساعدة على أساس التدبير اللاحق لتحسين التمثيلات التي يكتسبها وكلاء التعلم المعزز العميق

في التعلم المعزز العميق ، يستخدم الوكيل شبكة عصبية لتخطيط الملاحظات لسياسة ما أو توقع العودة. تتمثل وظيفة هذه الشبكة في تحويل الملاحظات إلى سلسلة من الخصائص الدقيقة تدريجياً ، والتي تتحد بعدها الطبقة النهائية خطيًا للحصول على التنبؤ المطلوب. تمثيل الوكيل لحالته الحالية هو كيف يرى معظم الناس هذا التغيير والخصائص الوسيطة التي يخلقها. وفقًا لهذا المنظور ، ينفذ وكيل التعلم مهمتين: التعلم التمثيلي ، والذي يتضمن العثور على خصائص حالة قيمة ، وتخصيص الائتمان ، والذي يستلزم ترجمة هذه الميزات إلى تنبؤات دقيقة.

تتضمن طرق RL الحديثة عادةً آلات تحفز تعلم تمثيلات الحالة الجيدة ، مثل التنبؤ بالمكافآت الفورية ، أو الحالات المستقبلية ، أو الملاحظات ، وترميز مقياس التشابه ، وزيادة البيانات. لقد ثبت أن RL من طرف إلى طرف يحصل على أداء جيد في مجموعة متنوعة من المشكلات. غالبًا ما يكون من المجدي والمرغوب فيه الحصول على تمثيل غني بدرجة كافية قبل أداء تخصيص الائتمان ؛ كان التعلم التمثيلي مكونًا أساسيًا لـ RL منذ بدايتها. يعد استخدام الشبكة للتنبؤ بالمهام الإضافية المتعلقة بكل حالة طريقة فعالة لتعلم تمثيلات الحالة.

يمكن إظهار مجموعة من الخصائص المقابلة للمكونات الأساسية لمصفوفة المهام المساعدة على أنها ناتجة عن مهام إضافية في بيئة مثالية. وبالتالي ، يمكن فحص خطأ التقريب النظري للتمثيل المتعلم والتعميم والاستقرار. قد يكون من المفاجئ معرفة مدى ضآلة ما يُعرف عن سلوكهم في محيط واسع النطاق. لا يزال يتم تحديد كيفية تأثير توظيف المزيد من المهام أو توسيع سعة الشبكة على ميزات القياس لتعلم التمثيل من الأنشطة المساعدة. يسعى هذا المقال إلى سد فجوة المعلومات. يستخدمون مجموعة من الحوافز الإضافية التي يمكن أخذ عينات منها كنقطة انطلاق لاستراتيجيتهم.

يقوم باحثون من جامعة ماكجيل وجامعة مونتريال ومعهد كيبيك للذكاء الاصطناعي وجامعة أكسفورد وأبحاث Google على وجه التحديد بتطبيق الإجراء اللاحق ، الذي يوسع تمثيل الخلف عن طريق استبدال مجموعة التضمين بمساواة الدولة. في هذه الحالة ، تعمل مجموعة الوظائف الثنائية على الحالات كتعريف ضمني لهذه المجموعات. تركز معظم أبحاثهم على العمليات الثنائية التي تم الحصول عليها من الشبكات التي تمت تهيئتها بشكل عشوائي ، والتي ثبت بالفعل أنها مفيدة كمتراكمات عشوائية. على الرغم من إمكانية تطبيق النتائج التي توصلوا إليها أيضًا على المكافآت المساعدة الأخرى ، فإن نهجهم له العديد من المزايا:

  • يمكن زيادتها بسهولة باستخدام عينات شبكة عشوائية إضافية كمهام إضافية.
  • يرتبط ارتباطًا مباشرًا بوظائف المكافأة الثنائية الموجودة في معايير RL العميقة.
  • إنه مفهوم جزئيًا.

إن توقع العودة المتوقعة للسياسة العشوائية للحوافز الإضافية ذات الصلة هو المهمة الإضافية الحقيقية ؛ في البيئة المجدولة ، هذا يتوافق مع وظائف القيمة الأولية. وهم يشيرون إلى نهجهم على أنه شبكات ذات قيمة أولية نتيجة لذلك. يقومون بالبحث في مدى نجاح هذا النهج في بيئة تعلم الممرات. عند استخدامها مع تقريب الوظيفة الخطية ، فإنها تدرس الخصائص التي تعلمتها PVN وتوضح مدى تمثيلها للبنية الزمنية للبيئة. بشكل عام ، اكتشفوا أن PVN تحتاج فقط إلى جزء صغير من التفاعلات مع وظيفة مكافأة البيئة لإعطاء خصائص حالة غنية بما يكفي لدعم تقديرات القيمة الخطية المكافئة لتلك الخاصة بـ DQN في الألعاب المختلفة.

اكتشفوا في أبحاث الاجتثاث أن توسيع قدرة شبكة القيمة يعزز بشكل كبير أداء وكلاءهم الخطيين وأن الشبكات الأكبر يمكنها التعامل مع المزيد من الوظائف. يكتشفون أيضًا ، بشكل غير متوقع إلى حد ما ، أن استراتيجيتهم تعمل بشكل أفضل مع ما قد يبدو أنه عدد متواضع من المهام الإضافية: تُنشئ أصغر الشبكات التي يقومون بتحليلها أفضل تمثيلات من 10 مهام أو أقل ، والأكبر ، من 50 إلى 100 مهمة. وخلصوا إلى أن المهام المحددة قد تؤدي إلى تمثيلات أكثر ثراءً مما كان متوقعًا وأن تأثير أي وظيفة معينة على الشبكات ذات الحجم الثابت لا يزال بحاجة إلى فهم كامل.