الأخبار التكنولوجية والاستعراضات والنصائح!

5 أسباب لماذا تستخدم نماذج اللغة الكبيرة (LLMs) مثل ChatGPT التعلم المعزز بدلاً من التعلم الخاضع للإشراف للضبط النهائي

ستساعدك المقالة التالية: 5 أسباب لماذا تستخدم نماذج اللغة الكبيرة (LLMs) مثل ChatGPT التعلم المعزز بدلاً من التعلم الخاضع للإشراف للضبط النهائي

مع النجاح الهائل للذكاء الاصطناعي التوليدي في الأشهر القليلة الماضية ، تتقدم نماذج اللغات الكبيرة وتتحسن باستمرار. تساهم هذه النماذج في بعض التحولات الاقتصادية والمجتمعية الجديرة بالملاحظة. يعد ChatGPT الشهير ، الذي طورته OpenAI ، نموذجًا لمعالجة اللغة الطبيعية يسمح للمستخدمين بإنشاء نص ذي معنى تمامًا مثل البشر. ليس هذا فحسب ، بل يمكنه الإجابة على الأسئلة ، وتلخيص الفقرات الطويلة ، وكتابة الرموز ورسائل البريد الإلكتروني ، وما إلى ذلك. وقد أظهرت نماذج اللغة الأخرى ، مثل Pathways Language Model (PaLM) ، و Chinchilla ، وما إلى ذلك ، أيضًا أداءً رائعًا في تقليد البشر.

تستخدم نماذج اللغة الكبيرة التعلم المعزز للضبط الدقيق. التعلم المعزز هو طريقة تعلم الآلة تعتمد على التغذية الراجعة وتستند إلى نظام المكافآت. يتعلم الوكيل الأداء في بيئة من خلال إكمال مهام معينة ومراقبة نتائج تلك الإجراءات. يحصل الوكيل على ردود فعل إيجابية لكل مهمة جيدة وعقوبة لكل فعل سيء. تصور LLM مثل ChatGPT أداءً استثنائيًا ، كل ذلك بفضل Reinforcement Learning.

يستخدم ChatGPT التعلم المعزز من ردود الفعل البشرية (RLHF) لضبط النموذج عن طريق تقليل التحيزات. ولكن لماذا لا يتم الإشراف على التعلم؟ يتكون نموذج التعلم التعزيزي الأساسي من الملصقات المستخدمة لتدريب النموذج. ولكن لماذا لا يمكن استخدام هذه التسميات بشكل مباشر مع نهج التعلم الخاضع للإشراف؟ سيباستيان راشكا، الباحث في الذكاء الاصطناعي والتعلم الآلي ، شارك بعض الأسباب في تغريدته حول سبب استخدام التعلم المعزز في الضبط الدقيق بدلاً من التعلم الخاضع للإشراف.

  1. السبب الأول لعدم استخدام التعلم الخاضع للإشراف هو أنه يتوقع الرتب فقط. لا ينتج استجابات متماسكة. يتعلم النموذج فقط إعطاء درجات عالية للإجابات المشابهة لمجموعة التدريب ، حتى لو لم تكن متماسكة. من ناحية أخرى ، يتم تدريب RLHF على تقدير جودة الاستجابة المنتجة بدلاً من مجرد درجة التصنيف.
  1. يشارك سيباستيان راشكا فكرة إعادة صياغة المهمة كمشكلة تحسين مقيدة باستخدام التعلم الخاضع للإشراف. تجمع وظيفة الخسارة بين فقد النص الناتج ومصطلح درجة المكافأة. سيؤدي هذا إلى جودة أفضل للاستجابة المتولدة والرتب. لكن هذا النهج يعمل فقط عندما يكون الهدف هو إنتاج أزواج من الأسئلة والأجوبة بشكل صحيح. لكن المكافآت التراكمية ضرورية أيضًا لتمكين المحادثات المتماسكة بين المستخدم و ChatGPT ، والتي لا تستطيع SL توفيرها.
  1. السبب الثالث لعدم اختيار SL هو أنه يستخدم الانتروبيا المتقاطعة لتحسين خسارة مستوى الرمز المميز. على الرغم من أنه على مستوى الرمز المميز لمقطع نصي ، فإن تغيير الكلمات الفردية في الاستجابة قد يكون له تأثير ضئيل فقط على الخسارة الإجمالية ، إلا أن المهمة المعقدة لإنشاء محادثات متماسكة يمكن أن يكون لها تغيير كامل في السياق إذا تم رفض الكلمة. وبالتالي ، فإن الاعتماد على اللغة المصدر لا يمكن أن يكون كافياً ، و RLHF ضروري للنظر في سياق وتماسك المحادثة بأكملها.
  1. يمكن استخدام التعلم الخاضع للإشراف لتدريب نموذج ، ولكن وجد أن RLHF يميل إلى أداء أفضل من الناحية التجريبية. أظهرت ورقة بحثية صدرت عام 2022 بعنوان “تعلم التلخيص من ردود الفعل البشرية” أن أداء RLHF أفضل من SL. والسبب هو أن RLHF تأخذ في الاعتبار المكافآت التراكمية للمحادثات المتماسكة ، والتي يفشل SL في التقاطها بسبب وظيفة فقدان مستوى الرمز المميز.
  1. تستخدم LLMs مثل InstructGPT و ChatGPT كلاً من التعلم الخاضع للإشراف والتعلم المعزز. الجمع بين الاثنين أمر بالغ الأهمية لتحقيق الأداء الأمثل. في هذه النماذج ، يتم ضبط النموذج أولاً باستخدام SL ثم تحديثه مرة أخرى باستخدام RL. تسمح مرحلة SL للنموذج بتعلم البنية الأساسية ومحتوى المهمة ، بينما تعمل مرحلة RLHF على تحسين استجابات النموذج لتحسين الدقة.

تحقق من https://aitoolsclub.com للعثور على مئات من أدوات الذكاء الاصطناعي الرائعة

المقال السابقالتعلم العميق عن حمية البياناتالمقال التالي بحث جديد للذكاء الاصطناعي يشرح كيف يعمل تعلم التعليمات داخل السياق (ICIL) على تحسين أداء تعميم المهام بدون طلقة لكل من النماذج المحددة مسبقًا والتعليمية المضبوطة بدقة