الأخبار التكنولوجية والاستعراضات والنصائح!

تُظهر ورقة AI هذه وسيلة لإنشاء كميات كبيرة من بيانات التعليمات بمستويات متفاوتة من التعقيد باستخدام LLM بدلاً من البشر

ستساعدك المقالة التالية: تُظهر ورقة AI هذه وسيلة لإنشاء كميات كبيرة من بيانات التعليمات بمستويات متفاوتة من التعقيد باستخدام LLM بدلاً من البشر

تعتبر نتائج تدريب LLM على البيانات من اتباع تعليمات المجال المفتوح استثنائية. ومع ذلك ، فإن تطوير هذا النوع من البيانات التعليمية يدويًا يستغرق وقتًا وجهدًا. علاوة على ذلك ، قد يحتاج البشر إلى المساعدة في إنشاء تعليمات معقدة للغاية. ركزت العديد من الجهود المجتمعية الحديثة لمعالجة اللغة الطبيعية (NLP) على تدريس نماذج اللغة الكبيرة لفهم أفضل واتباع التعليمات. أظهرت الأبحاث الحديثة أن LLM قد تستفيد أيضًا من التعاليم. لذلك ، يتم الآن استخدام هذا النوع من البيانات بشكل روتيني للتدريب وضبط LLMs في المجال المفتوح.

Evol-Instruct هي طريقة ثورية تستخدم LLMs لإنشاء كميات هائلة من بيانات التعليمات ذات التعقيد المختلف ؛ قام فريق من الباحثين من Microsoft وجامعة بكين بتطويره. تم تقييم التعليمات المنتجة باستخدام نموذج WizardLM للفريق بدرجة أعلى في التقييمات البشرية من تلك الموجودة في مجموعات بيانات التعليمات التي أنشأها الإنسان.

هناك ثلاث مراحل في خط أنابيب Evol-Instruct:

  1. تطور التعليمات
  2. تطور الاستجابة بناءً على التعليم المطور حديثًا
  3. تطور القضاء

لإنشاء تعليمات أكثر تعقيدًا من تعليمات أولية بسيطة ، يمكن لـ Evol-Instruct إما إجراء عملية التطور المتعمق (والتي تتضمن واحدة من خمس عمليات: إضافة قيود ، والتعميق ، والخرسانة ، وزيادة خطوات الاستدلال ، وتعقيد المدخلات) أو التطور الشامل ( والذي يتكون من إنشاء تعليمات جديدة بناءً على التعليمات المقدمة). المرحلة الأخيرة ، القضاء على التطور ، تعمل كمرشح للتخلص من التعليمات السيئة.

استخدم الباحثون Evol-Instruct لتوليد تعليمات بدرجات متفاوتة من التعقيد. بعد ذلك ، قاموا بدمج جميع بيانات التعليمات المنتجة لضبط LLaMA LLM وتطوير نموذج WizardLM في دراسة تجريبية. تم تقييم WizardLM مقابل أدوات الصناعة القياسية مثل ChatGPT و Alpaca و Vicuna.

استنتج الباحثون بالدرجة الأولى أن:

  • تتفوق تعليمات Evol-Instruct على أداء ShareGPT ، التي طورها البشر. يتفوق نموذج WizardLM بشكل كبير على Vicuna عند ضبط LLaMA 7B باستخدام نفس المقدار من بيانات Evol-Instruct (على سبيل المثال ، 70 كيلو) ، مع معدل فوز أعلى بنسبة 12.4٪ من Vicuna (41.3٪ مقابل 28.9٪).
  • عند إعطاء تعليمات اختبار صعبة ، يكون المصممون أكثر رضا عن نتائج WizardLM من نتائج ChatGPT. خسر WizardLM أمام ChatGPT بنسبة 12.8٪ في مجموعة الاختبار ، مع معدل انتصار 28.0٪ مقارنة بـ 40.8٪ لـ ChatGPT. ومع ذلك ، يتفوق WizardLM على ChatGPT بنسبة 7.9 نقطة مئوية في الجزء عالي الصعوبة من مجموعة الاختبار (مستوى الصعوبة 8) ، بمعدل فوز 42.9٪ مقابل 35.0٪. يشير هذا إلى أن التقنية تعزز بشكل كبير قدرة النماذج اللغوية الكبيرة على التعامل مع التعليمات المعقدة.

يوضح مؤلفو الدراسة أنه يتم اختيار مخرجات نموذج WizardLM على مخرجات OpenAI ChatGPT من خلال تقييم نتائج التقييمات البشرية للمكون عالي التعقيد. تُظهر النتائج أن الضبط الدقيق باستخدام الإرشادات المطورة بواسطة الذكاء الاصطناعي هو طريق محتمل لتقوية نماذج اللغات الكبيرة ، حتى لو كان WizardLM لا يزال وراء ChatGPT من عدة نواحٍ. يمكن رؤية كل من الكود المصدري وبيانات الإخراج في https://github.com/nlpxucan/WizardLM.

يستخدم الباحثون LLMs الثلاثة التالية كنقاط انطلاقنا:

أنشأ أوبن إيه آي روبوت الدردشة بالذكاء الاصطناعي ChatGPT لتسهيل المحادثة بطريقة تبدو طبيعية ومثيرة للاهتمام. يعتمد على LLMs المدربة باستخدام كميات هائلة من البيانات النصية من الإنترنت ، مثل GPT-3.5 و GPT-4. تُستخدم أساليب التعلم الخاضع للإشراف والمعزز لضبط ChatGPT تحت إشراف مدربين بشريين.

Alpaca هي مبادرة من جامعة ستانفورد لإنشاء ونشر نموذج مجاني يحركه المجتمع للإرشادات التالية. تم تطوير النموذج باستخدام 52K من حالات اتباع التعليمات التي تم إنشاؤها عن طريق الاستعلام عن نموذج OpenAI’s text-davinci003 وهو مبني على LLaMA 7B ، وهو نموذج لغة كبير تم تدريبه على عدة مصادر نصية.

يمكن لـ Vicuna ، وهو روبوت محادثة مفتوح المصدر ، تزويد المستخدمين بردود بشرية ومثيرة للاهتمام. استنادًا إلى LLaMA 13B ، تم ضبطه بدقة باستخدام بيانات مأخوذة من محادثات شاركها المستخدم 70 ألفًا على ShareGPT.

يستخدم الباحثون ChatGPT لتقييم مدى تعقيد وصعوبة كل تعليمات ، مما يسمح لهم بالتعمق أكثر في عملية تطوير التعليمات. وفقًا لترخيص نموذج LLaMA ، يقوم الباحثون بالإفراج عنهم [WizardLM] أوزان على شكل أثقال دلتا. يمكن الحصول على أوزان WizardLM عن طريق إضافة دلتا إلى أوزان LLaMA الأولية.

يستخدم الباحثون مجموعة تقييم التعليمات البشرية لمقارنة مخرجات المعالج بتلك الناتجة عن المقيّمين البشريين. تم إجراء مقارنة زوجية عمياء بين الساحر وعناصر التحكم. يمتد جمع بيانات تقييم المؤلفين على العديد من المهام التي تركز على المستخدم ، من إنشاء الترميز المعقد وتصحيح الأخطاء إلى التفكير الرياضي والتفكير حول التنسيقات المعقدة والكتابة الأكاديمية والتخصصات الشاملة.

تُظهر هذه النتائج أن نهج التعليم الذي تطوره الذكاء الاصطناعي في Evol-Instruct يمكن أن يحسن بشكل كبير أداء LLM وتجهيز النماذج بالمال للتعامل مع التعليمات الصعبة والمعقدة ، مثل تلك التي تتضمن الحساب الرياضي ، والتطوير البرنامجي ، والتداول المنطقي.