ستساعدك المقالة التالية: تعرف على LETI: نموذج لغة جديد (LM) يستكشف إمكانات LM للتعلم من التفاعلات النصية
مع تزايد شعبية نماذج اللغات الكبيرة (LLMs) ، يتم تقديم أبحاث وتطورات جديدة كل يوم تقريبًا. باستخدام تقنيات التعلم العميق وقوة الذكاء الاصطناعي ، تتطور LLMs وتنتشر باستمرار في كل مجال. يتم تدريب LLM على كميات هائلة من النص الخام ، ومن أجل تحسين أدائها ، تم ضبط هذه النماذج بدقة. أثناء عملية الضبط الدقيق ، يتم تدريب LLM على مهام معينة باستخدام إشارات تدريب مباشرة تقيس أدائها ، مثل دقة التصنيف والإجابة على الأسئلة وتلخيص المستندات وما إلى ذلك.
في الآونة الأخيرة ، تم تقديم نموذج ضبط دقيق جديد يسمى LETI (التعلم من التفاعلات النصية) ، والذي يغوص في الإمكانات التي يمكن أن تتعلمها النماذج اللغوية الكبيرة من التفاعلات النصية والتعليقات. يتيح LETI لنماذج اللغة أن تفهم ليس فقط ما إذا كانت مخطئة ولكن سبب خطأها. يمكّن هذا النهج LLM من تجاوز قيود التعلم فقط من التسميات والمكافآت العددية.
ذكر فريق الباحثين وراء تطوير LETI كيف يوفر هذا النهج ملاحظات نصية لنموذج اللغة. يساعد في التحقق من صحة مخرجات النموذج بمساعدة التسميات الثنائية ويحدد ويشرح الأخطاء في الكود الذي تم إنشاؤه. يشبه نموذج LETI العملية التكرارية لتطوير البرامج ، والتي تتضمن قيام مطور بكتابة برنامج واختباره وتحسينه بناءً على التعليقات. وبالمثل ، تعمل LETI على تحسين LLM من خلال توفير ملاحظات نصية تحدد الأخطاء والأخطاء.
أثناء عملية الضبط الدقيق ، يُطلب من النموذج وصف مشكلة اللغة الطبيعية ، متبوعًا بإنتاج مجموعة من الحلول. يقوم مُقيِّم الحلول بعد ذلك بتقييم هذه الحلول باستخدام مجموعة من حالات الاختبار. استخدم الباحثون مترجم Python لاستخدام رسائل الخطأ وتتبعات المكدس التي تم الحصول عليها من الشفرة التي تم إنشاؤها كمصدر للتعليقات النصية. مقيم الحل هو مترجم بايثون.
تتكون بيانات التدريب المستخدمة لضبط النموذج من ثلاثة مكونات: تعليمات اللغة الطبيعية ، والبرامج التي يتم إنشاؤها بواسطة LM ، والتعليقات النصية. عندما يتعذر على البرنامج الذي تم إنشاؤه توفير حل ، يتم تقديم التعليقات إلى LLM. بخلاف ذلك ، يتم توفير رمز مكافأة للنموذج في شكل ردود فعل ثنائية لتشجيعه على إنشاء حل دقيق. يتم استخدام الملاحظات النصية التي تم إنشاؤها في عملية الضبط الدقيق لـ LM ، والمعروفة باسم الضبط الدقيق للتغذية الراجعة.
بالنسبة لعملية التقييم ، استخدم الباحثون مجموعة بيانات من مهام إنشاء الكود تسمى مجموعات البيانات MBPP (مشاكل البرمجة الكبيرة المتعددة). أظهرت النتائج أن LETI يحسن بشكل كبير أداء اثنين من LM الأساسيين بمقاييس مختلفة على مجموعة بيانات MBPP دون الحاجة إلى مخرجات الحقيقة للتدريب. في مجموعة بيانات HumanEval ، تحقق LETI أداءً مشابهًا أو أفضل من أداء LMs الأساسي في المشكلات غير المرئية. علاوة على ذلك ، وجد الباحثون أنه بالمقارنة مع التغذية الراجعة الثنائية ، فإن استخدام التغذية الراجعة النصية يسمح للنموذج بتحقيق نفس الأداء ولكن بخطوات متدرجة أقل.
في الختام ، LETI هو نهج رائع للضبط الدقيق الذي يعزز نماذج اللغة باستخدام ملاحظات نصية مفصلة. تمكنهم من التعلم من الأخطاء وتحسين الأداء في مهام مثل إنشاء التعليمات البرمجية. LETI تبدو واعدة.