الأخبار التكنولوجية والاستعراضات والنصائح!

يقدم باحثو Microsoft إعادة صياغة: خوارزمية أخذ العينات التكرارية التي تبحث عن وصفات سلسلة الأفكار (CoT) لمهمة معينة دون تدخل بشري

ستساعدك المقالة التالية: يقدم باحثو Microsoft إعادة صياغة: خوارزمية أخذ العينات التكرارية التي تبحث عن وصفات سلسلة الأفكار (CoT) لمهمة معينة دون تدخل بشري

في الآونة الأخيرة ، طورت نماذج اللغات الكبيرة (LLMs) وحوَّلت معالجة اللغة الطبيعية بتقنياتها المحفزة ذات اللقطات القليلة. وسعت هذه النماذج من قابليتها للاستخدام في كل مجال تقريبًا ، بدءًا من الترجمة الآلية وفهم اللغة الطبيعية وإكمال النص وتحليل المشاعر والتعرف على الكلام وما إلى ذلك. مع نهج التحفيز قليل اللقطات ، يتم تزويد LLM ببعض الأمثلة لمهمة معينة ، جنبًا إلى جنب مع بعض تعليمات اللغة الطبيعية ، واستخدام هذه ؛ إنهم قادرون على التكيف وتعلم كيفية أداء المهمة بشكل صحيح. تأتي المهام التي تتطلب خطوات تكرارية وانتشار القيود مع العديد من القيود عند استخدام تقنيات التحفيز هذه ، للتغلب على أي نهج جديد تم تقديمه.

قدم فريق من الباحثين في Microsoft Research ، ريدموند ، الولايات المتحدة الأمريكية مؤخرًا طريقة جديدة تسمى Reprompting ، والتي تعالج جميع القيود المصاحبة لتقنيات التحفيز. يبحث هذا النهج تلقائيًا عن بعض المطالبات المفيدة والفعالة لسلسلة الأفكار (CoT). يساعد توجيه سلسلة الأفكار على تحسين القدرة المنطقية لنماذج اللغة الكبيرة ويساعدهم على أداء مهام التفكير المعقدة. لهذا ، يتم تقديم عدد قليل من سلاسل الأفكار التوضيحية كنماذج أثناء التحفيز. يجد التراجع عن تحفيز CoT بكفاءة عالية دون أي تدخل بشري.

استخدم الباحثون أسلوب أخذ العينات التكراري المعروف باسم أخذ عينات جيبس ​​في خوارزمية إعادة برومبتينج. إنه يؤطر المشكلة كأخذ عينات من التوزيع المشترك لوصفات CoT. نظرًا لصعوبة توصيف التوزيع بشكل مباشر ، فقد تم استخدام Gibbs Sampling كطريقة تقريبية. تساعد طريقة أخذ العينات هذه في تحديد أفضل التعليمات من خلال تجربة تعليمات مختلفة وتحديد أيها يعمل بشكل أفضل.

تبدأ خوارزمية Reproompting بأخذ عينات من وصفات CoT الأولية بمساعدة مطالبة إطلاق النار الصفري ، حيث لا يتم توفير معلومات فورية. تمكّن مطالبة Zero-shot LLM من إنشاء استجابات للمهام دون تدريب مسبق. تقوم الخوارزمية بعد ذلك بتجربة وصفات جديدة بشكل متكرر باستخدام حلول تم أخذ عينات منها مسبقًا كمطالبات من الوالدين ، ويتم استخدام هذه الوصفات الجديدة لحل مشكلات التدريب الأخرى ، بهدف العثور على مجموعة من المحفزات التي تشترك في مطالبات CoT المماثلة.

تم تقييم الخوارزمية في المهام الخمس الكبيرة (BBH) التي تتطلب تفكيرًا متعدد الخطوات. يركز BBH على المهام التي يعتقد أنها تتجاوز قدرات وإمكانيات النماذج اللغوية الحالية. تم استخدام ChatGPT و InstructGPT كـ LLMs لتقييم الخوارزمية. عند التقييم ، أثبت Reprompting أنه يعمل بشكل أفضل من تقنيات تحفيز CoT التي يكتبها الإنسان.

أظهر إعادة التشكيل أيضًا إمكانات كبيرة في تركيبة النموذج باستخدام LLMs مختلفة لتهيئة الوصفات الجديدة وأخذ عينات منها. يمكن أن يساعد في نقل المعرفة من نموذج أقوى إلى نموذج أضعف ، مما يؤدي إلى أداء أفضل بشكل ملحوظ يظهر من خلال النموذج الأضعف. كان أداء Reprompting أفضل من CoT المكتوبة من قبل الإنسان والتي تحث على مهام BBH بما يصل إلى 17 نقطة. ذكر الباحثون أن وصفات CoT التي تعمل بشكل جيد على أحد النماذج قد لا تعمل بشكل جيد مع نموذج آخر ، مما يبرز الحاجة إلى تحسين CoT لكل نموذج للحصول على مقارنات أكثر عدلاً.

باختصار ، تعد خوارزمية Reprompting طريقة آلية رائعة لإيجاد مطالبات CoT فعالة لـ LLM دون تدخل بشري. إنه نهج قيم لمعالجة قيود الأساليب الحالية وتحقيق أداء متفوق في المهام التي تتطلب تفكيرًا متعدد الخطوات.