الأخبار التكنولوجية والاستعراضات والنصائح!

تقدم ورقة الذكاء الاصطناعي هذه التعريف الذاتي: إطار عمل لتحسين المخرجات الأولية من LLMs من خلال التعليقات التكرارية والتحسين

ستساعدك المقالة التالية: تقدم ورقة الذكاء الاصطناعي هذه التعريف الذاتي: إطار عمل لتحسين المخرجات الأولية من LLMs من خلال التعليقات التكرارية والتحسين

الصقل التكراري هو جانب رئيسي من جوانب حل مشاكل الإنسان. التنقيح التكراري هو عملية تتضمن عمل مسودة أولية ثم تحسينها من خلال التعليقات الذاتية. على سبيل المثال ، أثناء كتابة رسالة بريد إلكتروني إلى زميل في العمل لطلب مستند ، سيستخدم الشخص أولاً طلبًا مباشرًا مثل “أعطني البيانات فورًا”. ولكن ، بعد بعض التفكير ، يمكن للمؤلف أن يدرك أن العبارة يمكن اعتبارها غير ودية وتغييرها إلى “هل يمكن أن تزودني بالبيانات؟” باستخدام التغذية الراجعة والتعديل التكراري ، أظهروا في هذه الدراسة أن نماذج اللغة الكبيرة (LLMs) يمكن أن تحاكي بنجاح هذه العملية المعرفية لدى البشر.

على الرغم من أن LLMs قادرة على إنتاج مخرجات متماسكة في المرحلة الأولية ، فإنها غالبًا ما تقصر عند معالجة متطلبات أكثر تعقيدًا ، لا سيما للمهام ذات الأهداف المتعددة (مثل إنشاء استجابة للحوار بمعايير مثل جعل الاستجابة ذات صلة ، والمشاركة ، وآمنة) أو تلك ذات أهداف أقل وضوحًا (على سبيل المثال ، تحسين إمكانية قراءة البرنامج). قد تخلق LLMs الحديثة مخرجات مفهومة في مثل هذه الحالات. ومع ذلك ، فإن التحسين التكراري مطلوب لضمان معالجة جميع متطلبات التخصيص وتحقيق المستوى المناسب من الجودة.

الأساليب المتقدمة التي تعتمد على نماذج المكافأة والإشراف من طرف ثالث تستدعي إما كميات هائلة من بيانات التدريب أو التعليقات التوضيحية البشرية باهظة الثمن ، والتي غالبًا ما تكون عملية للحصول عليها. تسلط هذه العيوب الضوء على الحاجة إلى طريقة أكثر كفاءة وقابلية للتكيف لإنشاء النص والتي يمكن استخدامها في العديد من الوظائف مع القليل من المراقبة. في هذه الدراسة ، اقترح باحثون من CMU ، ومعهد ألين ، وجامعة واشنطن ، و NVIDIA ، و UCSD ، و Google Research ، التغلب على هذه القيود وتكرار عملية الإنتاج الإبداعي البشري بشكل أفضل دون الحاجة إلى حلقة ردود فعل بشرية مكلفة. (شكل 1).

يعمل نصفا SELF-REFINE – FEEDBACK و REFINE – معًا في دورة تكرارية لإنتاج نتائج عالية الجودة. يرسلون نفس النموذج M (1) ، إخراج أولية مسودة أنتجها النموذج M (0) ، لتلقي ردود الفعل (1). يتم إعطاء نفس النموذج (3) تغذية راجعة حول الإنتاج الأصلي ، والذي يعمل بشكل متكرر على تحسين (0) المخرجات التي تم إنتاجها في البداية. يستمر تكرار هذا الإجراء بشكل متكرر حتى يرى النموذج أنه لا يلزم تحسين إضافي ، وعند هذه النقطة تنتهي العملية. تتمثل الفرضية المركزية لهذه الدراسة في أنه في حالات قليلة ، يتعامل نموذج اللغة الأساسي نفسه مع الملاحظات والتحسين.

يوفر SELF-REFINE أول استراتيجية تكرارية لتعزيز التوليد باستخدام تعليقات NL بشكل فعال.

الشكل 1 يصور الإجراء في مثال. يستخدمون SELF-REFINE لإكمال المهام المختلفة التي تمتد عبر العديد من المجالات وتستدعي تقنيات التغذية الراجعة والمراجعة ، مثل إعادة كتابة المراجعة ، وإنشاء الاختصارات ، والتوليد المحدود ، وتوليد السرد ، وإعادة كتابة الكود ، وتوليد الاستجابة ، والقضاء على السمية. يتم إنشاء مثيل لمكوناتها الأساسية باستخدام إستراتيجية تحفيز قليلة اللقطات ، والتي تمكننا من استخدام بعض الحالات لتحفيز تعلم النموذج. يهدف نهجهم التكراري ، الذي يتضمن التجارب ، وتحليل المكونات ، ومجموعة متنوعة من المهام ، وتوليد الملاحظات المفيدة ، ومعايير التوقف ، إلى توجيه البحث المستقبلي في هذا المجال.

مساهماتهم ، باختصار ، هي:

  1. لمساعدة LLM على الأداء بشكل أفضل في مجموعة متنوعة من المهام ، يقترحون SELF-REFINE ، وهي تقنية فريدة تمكنهم من تحسين نتائجهم باستخدام ملاحظاتهم بشكل متكرر. على عكس الجهود السابقة ، تتطلب طريقتهم LLM واحدًا ، والذي يستخدم التعلم المعزز أو بيانات التدريب تحت الإشراف.
  2. يجرون تجارب مكثفة على سبع مهام مختلفة – إعادة كتابة المراجعة ، وإنشاء الاختصارات ، وإنشاء القصة ، وإعادة كتابة الكود ، وتوليد الاستجابة ، والتوليد المقيد ، وإزالة السمية – ويظهرون أن أداء SELF-REFINE أفضل بنسبة 5٪ على الأقل – وأحيانًا يصل إلى أكثر من 40٪ أفضل من الجيل المباشر من المولدات القوية مثل GPT-3.5 وحتى GPT-4.