ستساعدك المقالة التالية: يقدم الباحثون في جامعة ستانفورد Gisting: تقنية جديدة للضغط الفوري الفعال في نماذج اللغة
يتضمن التخصص النموذجي تكييف نموذج تعلم آلي مُدرَّب مسبقًا لمهمة أو مجال معين. في نماذج اللغة (LMs) ، يعد تخصص النموذج أمرًا حاسمًا في تحسين أدائها في مهام مختلفة مثل التلخيص والإجابة على الأسئلة والترجمة وتوليد اللغة. العمليتان الرئيسيتان لتخصيص نموذج لغوي لمهام محددة هما الضبط الدقيق للإرشادات (تكييف نموذج مدرب مسبقًا لمهمة جديدة أو مجموعة من المهام) وتقطير النموذج (نقل المعرفة من نموذج “المعلم” المدرب مسبقًا إلى نموذج “طالب” أصغر ومتخصص). يعد الدفع مفهومًا رئيسيًا في مجال تخصص LM ، حيث يوفر طريقة لتوجيه النموذج نحو سلوكيات محددة ، ويسمح باستخدام أكثر كفاءة لبيانات التدريب المحدودة ، وهو أمر حاسم لتحقيق أداء متطور. ضغط المطالبات هي تقنية تتم دراستها على أمل تحقيق وفورات كبيرة في الحوسبة والذاكرة والتخزين وعدم حدوث انخفاض كبير في الأداء العام أو جودة المخرجات.
تقترح هذه الورقة ، التي قدمها باحثون من جامعة ستانفورد ، تقنية جديدة للضغط الفوري تسمى gisting ، والتي تدرب LM على ضغط المحفزات إلى مجموعات أصغر من الرموز المميزة “الجوهرية”. من أجل تقليل تكلفة الموجه ، يمكن استخدام تقنيات مثل الضبط الدقيق أو التقطير لتدريب نموذج يتصرف مثل النموذج الأصلي دون موجه ، ولكن في هذه الحالة ، يجب إعادة تدريب النموذج على كل موجه جديد ، وهو بعيد كل البعد عن المثالية. ومع ذلك ، فإن الفكرة وراء التضمين هي استخدام نهج التعلم التلوي للتنبؤ بالرموز المميزة للجوهر من موجه لا يتطلب إعادة تدريب النموذج لكل مهمة وسيمكن التعميم على التعليمات غير المرئية دون تدريب إضافي. سيأتي هذا مع انخفاض في التكلفة الحسابية وسيمكن من ضغط المطالبة وتخزينها مؤقتًا وإعادة استخدامها لتحقيق كفاءة الحوسبة. سيسمح أيضًا للمستخدمين بملاءمة المزيد من المحتوى في نافذة السياق المحدودة.
جرب المؤلفون طريقة بسيطة لتحقيق مثل هذا النموذج – استخدموا LM نفسه (مستفيدًا من معرفته الموجودة مسبقًا) للتنبؤ بالرموز المميزة للجوهر أثناء الضبط الدقيق للتعليمات أثناء تعديل أقنعة انتباه المحولات. نظرًا لوجود زوج (مهمة ، إدخال) ، يضيفون رموز جوهرية بين المهمة والإدخال ويضبطون قناع الانتباه بالطريقة التالية: لا يمكن لرموز الإدخال بعد الرموز المميزة المضمنة حضور أي من الرموز المميزة للمطالبة قبل الرموز المميزة للجوهر (ولكن يمكنهم حضور الرموز المميزة الجوهرية). نظرًا لأن المدخلات والمخرجات لا يمكنها حضور الموجه ، فإن هذا يفرض على النموذج ضغط المعلومات من الموجه إلى الرموز المميزة المضمنة بينهما.
لتدريب النماذج الجوهرية ، احتاجوا إلى مجموعة بيانات بها مجموعة كبيرة ومتنوعة من المهام ، لذلك قاموا بإنشاء مجموعة بيانات أطلقوا عليها اسم Alpaca + ، والتي جمعت البيانات من مجموعتي بيانات ضبط التعليمات الحالية (Standford Alpaca و Self-Instruct) والتي بلغ مجموعها أكثر من 130 ألفًا. أمثلة. ثم قاموا بإجراء 3 تقسيمات للتحقق ليتمكنوا من التحقق من صحة النموذج بعد التدريب الذي تمت ملاحظته ، وغير المرئي ، والمطالبات البشرية المصنوعة يدويًا. وبهذه الطريقة ، تمكنوا من اختبار التعميم على التعليمات غير المرئية ، حيث شكل الانقسام البشري تحديًا أقوى للتعميم. استخدموا أيضًا العديد من بنيات LM (مثل LLaMA-7Bm ، نموذج GPT لوحدة فك التشفير فقط ، و FLAN-T5-XXL) ونماذج جوهرية مدربة مع عدد متفاوت من الرموز المميزة (1 ، 2 ، 5 ، أو 10). ومع ذلك ، أظهرت النتائج أن النماذج كانت بشكل عام غير حساسة لعدد رموز gist ، وفي بعض الحالات أظهرت أن عددًا أكبر من الرموز كان في الواقع ضارًا بالأداء. لذلك ، استخدموا نموذجًا واحدًا لبقية التجارب.
لتقييم جودة الضغط الفوري ، قاموا بمعايرة الأداء مقابل عنصر تحكم إيجابي ، والذي كان فعالاً عبارة عن تعليمات قياسية ضبط دقيق ، والتي وفرت حدًا أعلى للأداء ، والتحكم السلبي حيث لن يتمكن النموذج من الوصول إلى التعليمات على الإطلاق ، مما أدى إلى رموز عشوائية عشوائية ، والتي قدمت حدًا أقل على الأداء. لمقارنة مخرجات نماذجهم بالتحكم الإيجابي وقياس معدل الفوز مقابل ذلك ، طلبوا من ChatGPT اختيار الاستجابة الأفضل ، موضحين أسبابها. كما استخدموا أيضًا إحصاءً بسيطًا للتداخل المعجمي يسمى ROUGE-L (مقياس يقيس أوجه التشابه بين النص المُنشأ والتعليمات المكتوبة بواسطة الإنسان في الضبط الدقيق للتعليمات المفتوحة). يشير معدل الفوز بنسبة 50٪ إلى أن النموذج ذو جودة مماثلة لنموذج لا يقوم بالضغط الفوري.
أظهرت النتائج أنه وفقًا للتعليمات الموضحة ، كان أداء النماذج الجوهرية قريبًا جدًا من نماذج التحكم الإيجابية بمعدلات فوز 48.6٪ (LLaMA) و 50.8٪ (FLAN-T5). والأهم من ذلك ، أنهم كانوا قادرين على إظهار أن النماذج الجوهرية لها تعميمات تنافسية للمطالبات غير المرئية ، مع معدلات فوز 49.7٪ (LLaMA) و 46.2٪ (FLAN-T5). فقط في الانقسام البشري الأكثر تحديًا ، شهدوا انخفاضًا طفيفًا في معدلات الفوز (ولكن لا تزال تنافسية) بنسبة 45.8٪ (LLaMA) و 42.5٪ (FLAN-T5). جلب الأداء السيئ قليلاً لـ FLAN-T5 وحالات الفشل الخاصة المزيد من الفرضيات ليتم اختبارها في الأوراق المستقبلية.
حقق الباحثون أيضًا في مكاسب الكفاءة المحتملة التي يمكن تحقيقها من خلال التعزيز ، والذي كان الدافع الأساسي للدراسة. كانت النتائج مشجعة للغاية ، حيث أدى التخزين المؤقت للجوهر إلى تقليل بنسبة 40٪ في FLOPs و 4-7٪ وقت ساعة حائط أقل مقارنة بالنماذج غير المحسّنة. في حين تم العثور على هذه التحسينات لتكون أصغر بالنسبة لنماذج اللغة الخاصة بوحدة فك التشفير فقط ، أظهر الباحثون أيضًا أن نماذج الجوهر أتاحت ضغطًا بمقدار 26 ضعفًا للمطالبات غير المرئية ، مما يوفر مساحة إضافية كبيرة في نافذة سياق الإدخال.
بشكل عام ، توضح هذه النتائج الإمكانات الكبيرة للتوجيه لتعزيز كل من فعالية وكفاءة النماذج اللغوية المتخصصة. يقترح المؤلفون أيضًا العديد من التوجيهات الواعدة لمتابعة العمل على التزجيج. على سبيل المثال ، يشترطون أن أكبر مكاسب في الكفاءة والحوسبة من التضمين ستأتي من ضغط المطالبات الأطول وأن “التدريب المسبق الجوهري” يمكن أن يحسن أداء الضغط من خلال تعلم ضغط الامتدادات التعسفية للغة الطبيعية قبل تعلم الضغط الفوري.