الأخبار التكنولوجية والاستعراضات والنصائح!

تقدم Hugging Face نموذج لغة StackLLaMA: نموذج لغة معامِل 7B يعتمد على LLaMA ويتم تدريبه على البيانات من Stack Exchange باستخدام RLHF

ستساعدك المقالة التالية: تقدم Hugging Face نموذج لغة StackLLaMA: نموذج لغة معامِل 7B يعتمد على LLaMA ويتم تدريبه على البيانات من Stack Exchange باستخدام RLHF

على مدى السنوات القليلة الماضية ، حظيت النماذج اللغوية الكبيرة باهتمام كبير من الباحثين والأفراد العاديين على حد سواء بسبب قدراتها الرائعة. يمكن لهذه النماذج ، مثل GPT-3 ، إنشاء نص يشبه الإنسان ، والمشاركة في محادثة مع المستخدمين ، وتنفيذ مهام مثل تلخيص النص والإجابة على الأسئلة ، وحتى كتابة التعليمات البرمجية. هناك العديد من السيناريوهات حيث تلعب جودة النص الذي تم إنشاؤه دورًا رئيسيًا في تقييم نموذج اللغة. على سبيل المثال ، للحصول على تجربة مستخدم جيدة ، يتوقع المستخدم أن يقوم النموذج بإنشاء كود تنفيذي خالٍ من الأخطاء أو كتابة قصيدة تعرض مستوى معينًا من الإبداع. وبالتالي يتم استخدام وظائف الخسارة من أجل التقاط هذه السمات. تركز معظم الأبحاث السابقة على استخدام وظائف الخسارة بناءً على توقع الرمز التالي أو معايير أخرى مماثلة. ومع ذلك ، يركز مجال بحث قادم آخر على دمج التغذية الراجعة البشرية كمقياس للأداء واستخدام تلك التعليقات كخسارة لتحسين النموذج. تُعرف هذه الفكرة باسم التعلم التعزيزي من ردود الفعل البشرية (RLHF) ، وتستخدم العديد من النماذج القوية الحالية ، مثل ChatGPT و GPT-4 و Claude ، هذه التقنية حاليًا.

بإضافة نموذج آخر إلى قائمة التطبيقات الناجحة لـ RLHF ، يقوم باحثون من Hugging Face بإصدار StackLLaMA ، وهو نموذج لغة 7B يعتمد على نموذج Meta LLaMA الذي تم تدريبه للإجابة على الأسئلة من Stack Exchange باستخدام RLHF مع Hugging Face’s Transformer Reinforcement Learning (TRL ) مكتبة. صقل الباحثون نموذج LLaMA الأصلي من Meta باستخدام مزيج من ثلاث استراتيجيات أساسية: الضبط الدقيق الخاضع للإشراف (SFT) ، ونمذجة المكافآت / التفضيلات (RM) ، والتغذية المرتدة البشرية للتعلم التعزيزي (RLHF). يمكن الوصول إلى النموذج هنا، وخط أنابيب التدريب بأكمله متاح كجزء من مكتبة TRL.

أشار باحثو Hugging Face إلى أن RLHF ليس سوى خطوة ضبط دقيقة ؛ ومن ثم ، فإن تحديد النموذج الأولي هو خطوة أولية حاسمة. وبالتالي ، اختار الباحثون النماذج اللغوية الأكبر التي تم تقديمها مؤخرًا والتي طورتها نماذج Meta AI و LLaMA لغرضهم. يمكن لهذه المجموعة من نماذج لغة الأساس أن تتفوق حتى على GPT-3 وهي متوفرة في مجموعة من المعلمات ، تتراوح من 7B إلى 65B. قرر الباحثون المضي قدمًا في نموذج المعلمة 7B لتجاربهم. وأشار الباحثون أيضًا إلى أن مجموعة البيانات الجيدة تلعب دورًا مهمًا في إعطاء التغذية الراجعة البشرية الصحيحة. على هذا الصعيد ، اختار الباحثون مجموعة بيانات StackExchange ، والتي تضم أكثر من 10 ملايين زوج من الأسئلة والأجوبة حول مجموعة واسعة من الموضوعات وحتى مقتطفات التعليمات البرمجية من StackOverflow. ميزة أخرى جذابة لمجموعة البيانات هذه هي أنها تتكون من عدد الأصوات المؤيدة وتسمية للإجابة المقبولة ، والتي كانت مفيدة جدًا لنموذج المكافأة.

سعى فريق Hugging Face إلى ضبط النموذج لمجال معين (في حالتهم ، مهام الإجابة على الأسئلة) مع هدف نمذجة اللغة السببية قبل تدريب نموذج المكافأة وضبطه مع التعلم المعزز. لتحقيق ذلك ، قام الفريق بتدريب نموذج اللغة على مجموعة فرعية من مجموعة بيانات StackExchange باستخدام تقنية تُعرف باسم التعبئة. تتضمن هذه التقنية الفعالة إضافة رموز إضافية إلى نهاية التسلسلات الأقصر من الطول المطلوب أو اقتطاع التسلسلات الأطول من الطول المطلوب. ثم يتم تدريب النموذج على مدى آلاف العصور ، وهو ما يمثل نهاية خطوة الضبط الدقيق. كانت الخطوة التالية هي تدريب نموذج المكافأة. نظرًا لأن الضبط الدقيق للنموذج باستخدام RLHF مباشرةً مع التعليقات التوضيحية اليدوية يستغرق وقتًا طويلاً ويتطلب جهدًا كثيفًا ، فقد نظر الباحثون في تدريب نموذج المكافأة من خلال استخدام تكتيكات معينة من شأنها تقليد كيفية تقييم الإنسان للنص. تتمثل إحدى هذه الإستراتيجيات في توقع التعليق التوضيحي بناءً على درجة معينة أو قيمة ثنائية توضح ما إذا كان التعليق التوضيحي جيدًا أم سيئًا. نظرًا لأن مجموعة بيانات StackExchange تتكون من إجابتين على الأقل لكل سؤال ، فقد اختار الباحثون إجابة مفضلة بناءً على مقياس درجة معين. طبق الباحثون هذه المنهجية على مجموعة فرعية من مجموعة البيانات لاختبار نموذج المكافأة. إن دقتها النهائية البالغة 67٪ ملحوظة للغاية ، مع الأخذ في الاعتبار مدى صعوبة إكمال المهمة حتى مع المعلقين البشريين.

مع نموذج اللغة المضبوط بدقة ونموذج المكافأة في متناول اليد ، كانت الخطوة الأخيرة التي اتبعها الباحثون هي تشغيل حلقة RL. يمكن تلخيص هذا الإجراء في ثلاث مراحل رئيسية: إنشاء استجابات من المطالبات ، وتقييم الردود بنموذج المكافأة ، وتشغيل خطوة تحسين سياسة التعلم المعزز مع التقييمات. استنادًا إلى الأعمال السابقة المتعلقة بتدريب النماذج اللغوية باستخدام RL ، فقد لوحظ أن النموذج يمكن أن يتعلم استغلال نموذج المكافأة عن طريق توليد رطانة كاملة ، مما يجعل نموذج المكافأة يخصص مكافآت عالية. لمواجهة هذا ، أضاف الباحثون عقوبة إلى المكافأة. استنادًا إلى بعض التجارب التي أجراها الفريق ، من الآمن استنتاج أن النموذج الناتج يعطي نتائج مرضية في مجموعة واسعة من الموضوعات.

باختصار ، يمكن تلخيص عمل الباحثين في Hugging Face على أنه إنشاء مجموعة بيانات مشروحة بشريًا ، وتكييف نموذج اللغة مع المجال ، وتدريب نموذج المكافأة ، وفي النهاية تدريب النموذج باستخدام RL. على الرغم من أن StackLLaMA هي نقطة انطلاق رئيسية في عالم RLHF ، إلا أن النموذج بعيد عن الكمال. هناك العديد من المشكلات المستمرة التي يعمل فريق Hugging Face بجد لحلها ، مثل الارتفاع المفاجئ في الخسائر ، مما يؤدي إلى عدم استقرار النموذج. حاليًا ، تم إصدار النموذج للجمهور لأغراض تعليمية وبحثية فيما يتعلق بمكتبة RLHF ومكتبة TRL. صرح الفريق أيضًا صراحةً أنه يتم جمع المطالبات التي تم إدخالها في التطبيق لمزيد من ضبط النموذج. وبالتالي ، يجب على المستخدمين الامتناع عن مشاركة أي معلومات شخصية حساسة على التطبيق.