الأخبار التكنولوجية والاستعراضات والنصائح!

تأخذ GPT-4 زمام المبادرة في ضبط تعليمات نماذج اللغات الكبيرة: تعزيز قدرات التعميم لمهام العالم الحقيقي

ستساعدك المقالة التالية: تأخذ GPT-4 زمام المبادرة في ضبط تعليمات نماذج اللغات الكبيرة: تعزيز قدرات التعميم لمهام العالم الحقيقي

تم إثبات مهارات التعميم المتميزة لنماذج اللغة الكبيرة (LLMs) ، مثل التعلم في السياق والاستدلال المتسلسل للأفكار. كان الباحثون يتطلعون إلى تقنيات لضبط تعليمات LLMs لمساعدتهم على اتباع التعليمات بلغة واضحة وإنهاء الوظائف في العالم الفعلي. يتم تحقيق ذلك إما عن طريق الضبط النهائي الخاضع للإشراف باستخدام معايير وقواعد بيانات متاحة للجمهور محسّنة يدويًا ، أو تعليمات تم إنشاؤها تلقائيًا ، أو عن طريق تدريب النموذج على مهام مختلفة باستخدام المطالبات والتعليقات بشرح.

طور مجال الدراسة حول ضبط التعليمات طرقًا فعالة لرفع قدرات التعميم الصفرية والقليلة من LLMs. الضبط الذاتي ، أحد هذه التقنيات ، يوازن LLMs مع الغرض البشري من خلال التعلم من البيانات التالية للتعليمات التي ينتجها المعلمون المتطورون LLM الذين قاموا بضبط تعليماتهم. من خلال ضبط التعليمات ، يوفر النجاح الأخير لـ ChatGPT و GPT-4 ثروة من الفرص لتعزيز LLM مفتوحة المصدر. تعمل مجموعة من LLM مفتوحة المصدر تسمى LLaMA على قدم المساواة مع LLMs التجارية مثل GPT-3.

بفضل أدائه العالي وتكلفته غير المكلفة ، تم تكييف الضبط الذاتي للتعليمات بسهولة لتدريب LLaMA على الامتثال للتعليمات. على سبيل المثال ، تستخدم Vicuna حوالي 700 ألف عينة من عينات التعليمات التي يتم مشاركتها بواسطة المستخدم-ChatGPT ، بينما يستخدم Stanford Alpaca عينات 52K التالية للتعليمات التي تنتجها GPT-3.5. يقترحون في البداية استخدام GPT-4 كمدرس لضبط التوجيه الذاتي لتحسين ضبط التعليمات على أحدث طراز لـ LLMs.

في هذه الدراسة ، يساهم باحثون من Microsoft بما يلي:

بيانات GPT-4: إنها توفر البيانات التي تنتجها GPT-4 ، مثل مجموعة بيانات 52K باللغتين الإنجليزية والصينية لمتابعة التعليمات ، وبيانات التغذية الراجعة التي تنتجها GPT-4 والتي تسجل نتائج ثلاثة نماذج مضبوطة بالتعليمات.

النماذج والتقييم: لقد أنشأوا نماذج مكافأة ونماذج LLaMA مضبوطة بالتعليمات باستخدام البيانات التي تم جمعها بواسطة GPT-4. يستخدمون ثلاثة مقاييس تم تقييمها على عينات الاختبار (أي تعليمات غير مرئية) لقياس فعالية LLMs المضبوطة بالتعليمات: التقييم البشري على ثلاثة معايير محاذاة ، والتقييم التلقائي باستخدام ملاحظات GPT-4 ، و ROUGE-L على تعليمات اصطناعية.

تم توضيح كفاءة تعديل التعليمات باستخدام GPT-4 في هذا البحث. يؤكد تحقيقهم التجريبي قيمة استخدام البيانات المقدمة من GPT-4 لتعديل تعليمات LLM. يقدم نصائح مفيدة لإنشاء وكيل تتبع التعليمات للأغراض العامة بناءً على LLMs. لقد قاموا بإصدار 52 ألفًا من أمثلة تتبع التعليمات باللغة الإنجليزية والصينية التي تم إنشاؤها باستخدام GPT-4 جنبًا إلى جنب مع نقاط التحقق النموذجية المعدلة من LLaMA على أمل أن تساعد نتائجهم التجريبية ومواردهم في إنشاء LLM مفتوحة المصدر وعامة تكون أكثر قدرة على العمل من خلال القيم الإنسانية لإكمال المهام.

لا يزال هذا العمل قيد التقدم ، ويمكن التحقيق في العديد من السبل: مقياس البيانات والنموذج. حجم نموذج LLaMA الأساسي هو 7B ، في حين أن حجم بيانات GPT-4 هو 52 كيلوبايت. تستخدم Vicuna نموذج 13B LLaMA وتجمع حوالي 700 ألف دورة تحويل (بناءً على بيانات ShareGPT متعددة الأدوار). سيكون من المشجع الاستمرار في جمع بيانات إضافية لاتباع تعليمات GPT-4 ، ودمجها مع بيانات ShareGPT ، وتدريب نماذج LLaMA أكبر لزيادة الأداء. RLHF هو (ii). إن استخدام نموذج المكافأة أثناء مرحلة فك التشفير يعني أنه من المرجح أن تقدم البيانات المقارنة تعليقات ذات صلة بتدريب LLM. يبدو من المنطقي الاستمرار في وضع LLM من خلال تدريب نموذج المكافأة ، مثل التعلم المعزز من خلال التعليقات التي يتم إنشاؤها بواسطة الآلة. إنهم يجعلون البيانات التي تم إنشاؤها باستخدام GPT-4 وقاعدة التعليمات البرمجية على حد سواء عامة.