الأخبار التكنولوجية والاستعراضات والنصائح!

تقدم Microsoft AI Research التحسين الفوري التلقائي (APO): إطار عمل بسيط وعامة الأغراض للتحسين التلقائي لموجهات LLM

ستساعدك المقالة التالية: تقدم Microsoft AI Research التحسين الفوري التلقائي (APO): إطار عمل بسيط وعامة الأغراض للتحسين التلقائي لموجهات LLM

أدى التطور الأخير لنماذج اللغات الكبيرة (LLMs) إلى تغيير البرمجة اللغوية العصبية. أثبتت LLMs هذه قدرة غير عادية على إنتاج نص يشبه الكلام البشري استجابة لإدخال المستخدم. ومع ذلك ، فإن معيار المطالبات المقدمة من المستخدم يؤثر بشكل كبير على مدى جودة أداء هذه النماذج. زاد مستوى الاهتمام. في تحسين الهندسة السريعة وتحسينها حيث تصبح المطالبات معقدة ومعقدة بشكل متزايد.

وفقًا لبيانات Google Trends ، شهدت “الهندسة السريعة” ارتفاعًا حادًا في شعبيتها خلال الأشهر الستة الماضية. تتوفر العديد من الأدلة والقوالب على شبكات التواصل الاجتماعي لإنشاء مطالبات مقنعة. ومع ذلك ، قد لا يكون تطوير المطالبات بالكامل من خلال أساليب التجربة والخطأ هو الاستراتيجية الأكثر فاعلية. لحل هذه المشكلة ، طور باحثو Microsoft طريقة تحسين سريعة جديدة تسمى التحسين الفوري التلقائي (APO) لحل هذه المشكلة.

APO هي خوارزمية تحسين سريع عامة وغير معلمية مستوحاة من نزول التدرج العددي. يهدف إلى أتمتة عملية التطوير السريع لـ LLMs وتحسينها. تعتمد الخوارزمية على الأساليب الآلية الحالية ، بما في ذلك تدريب النماذج المساعدة أو التمثيلات التفاضلية للموجه وتطبيق التلاعبات المنفصلة باستخدام التعلم المعزز أو التعليقات المستندة إلى LLM.

على عكس الأساليب السابقة ، يتعامل APO مع حاجز التحسين المنفصل عن طريق استخدام النسب المتدرج في حوار سقراطي قائم على النص. يستبدل التمايز بتعليقات LLM و backpropagation بتحرير LLM. تبدأ الخوارزمية باستخدام مجموعات صغيرة من بيانات التدريب للحصول على “تدرجات” لغة طبيعية تصف العيوب في موجه معين. توجه هذه التدرجات اللونية عملية التحرير ، حيث يتم ضبط الموجه في الاتجاه الدلالي المعاكس للتدرج اللوني. ثم يتم إجراء بحث شعاعي أوسع لتوسيع مساحة البحث للمطالبات ، وتحويل مشكلة التحسين الفوري إلى مشكلة اختيار مرشح الحزمة. هذا النهج يعزز كفاءة الخوارزمية.

لتقييم فعالية APO ، قارنه فريق البحث في Microsoft بثلاثة خطوط أساسية للتعلم الفوري على أحدث طراز حول مهام البرمجة اللغوية العصبية المختلفة ، بما في ذلك الكشف عن كسر الحماية ، واكتشاف الكلام الذي يحض على الكراهية ، واكتشاف الأخبار المزيفة ، واكتشاف السخرية. تفوق APO باستمرار على خطوط الأساس في جميع المهام الأربع ، وحقق تحسينات كبيرة على خطوط أساس Monte Carlo (MC) والتعلم المعزز (RL).

والجدير بالذكر أن هذه التحسينات تم إجراؤها بدون تدريب إضافي على النموذج أو تحسين المعلمة الفائقة. يوضح هذا مدى كفاءة وفعالية APO في تحسين مطالبات LLM. التقدم المشجع في الهندسة السريعة لـ LLM هو ظهور APO. يقلل APO من العمل اليدوي ووقت التطوير اللازم للتطوير السريع من خلال أتمتة عملية التحسين الفوري باستخدام تقنيات البحث عن النسب المتدرجة والحزمة. تكشف النتائج التجريبية عن قدرتها على رفع الجودة السريعة في مجموعة من مهام البرمجة اللغوية العصبية ، مما يسلط الضوء على قدرتها على رفع كفاءة النماذج اللغوية الكبيرة.