الأخبار التكنولوجية والاستعراضات والنصائح!

إحداث ثورة في حل المشكلات الرياضية: نهج OpenAI المبتكر الذي يستفيد من الإشراف على العمليات على الإشراف على النتائج

ستساعدك المقالة التالية: إحداث ثورة في حل المشكلات الرياضية: نهج OpenAI المبتكر الذي يستفيد من الإشراف على العمليات على الإشراف على النتائج

شهدت السنوات الأخيرة تطورات هائلة في قدرة النماذج اللغوية الضخمة على تنفيذ التفكير المعقد متعدد الخطوات. تستمر النماذج الحديثة ، على الرغم من تطورها ، في ارتكاب أخطاء لا معنى لها. يمكن استخدام نوعين من الإشراف لتدريب نماذج أكثر دقة: الإشراف على النتائج ، والذي يوفر تغذية راجعة على النتيجة النهائية ، والإشراف على العملية ، والذي يوفر تغذية راجعة حول كل مرحلة وسيطة في عملية التفكير. يتطلب الذكاء الاصطناعي العام المتوافق (AGI) تقليل الهلوسة. قد تكون مثل هذه الهلوسة كارثية في المجالات التي تتطلب فيها المشكلات المعقدة خطوطًا متعددة من التفكير. يعتمد تحسين قدرة الفرد على التفكير على التعرف على الهلوسة والسيطرة عليها.

تتمثل إحدى هذه الإستراتيجيات في تدريب نماذج المكافآت للتمييز بين النتائج الجيدة والسيئة. يمكن بعد ذلك دمج نموذج المكافأة في خط أنابيب RL أو استخدامه لبحث RS. على الرغم من فعاليته ، يعتمد النظام الناتج على دقة نموذج المكافأة ليعمل.

يستخدم برنامج OpenAI تقنية تسمى “الإشراف على العمليات” لتدريبها. يسمح الإشراف على العملية للنموذج باتباع الجمعيات المعتمدة من قبل الإنسان ، بينما يكافئ الإشراف على النتائج صحة النتيجة النهائية فقط. نتائج التفكير المتسلسل أكثر جدارة بالثقة.

هناك الكثير مما يحدث للإشراف على العملية. يعطي استجابات أكثر تحديدًا لأنه يحدد مكان حدوث المشكلات. كما أن لها فوائد مختلفة تتعلق بمحاذاة الذكاء الاصطناعي ، بما في ذلك كونها أبسط للناس لفهم وتقديم المزيد من المكافآت المباشرة للنماذج التي تلتزم بخط من التفكير المعتمد من قبل البشر. على عكس نماذج المكافآت الخاضعة للإشراف العملي (PRMs) ، والتي تحصل على تعليقات في كل مرحلة من مراحل عملية التفكير الخاصة بالنموذج ، يتم تدريب نماذج المكافآت الخاضعة للإشراف على النتائج (ORMs) باستخدام النتيجة النهائية فقط لعملية التفكير الخاصة بالنموذج. النماذج التي تم تدريبها باستخدام الإشراف على النتائج كثيرًا ما تستغل التفكير الخاطئ في التفكير المنطقي للوصول إلى النتيجة النهائية الصحيحة. وقد ثبت أن الإشراف على العملية يمكن أن يقلل من هذا السلوك غير المتطابق.

اكتشف أوساتو أنه على الرغم من هذه الفوائد ، أدت النتيجة والإشراف على العملية إلى أداء نهائي مماثل في الرياضيات الابتدائية. يختلف التقييم المتعمق للنتيجة مقابل الإشراف على العملية بشكل أساسي من ثلاث طرق:

  • تدريب واختبار مجموعة بيانات الرياضيات الأكثر صعوبة.
  • استخدم نموذجًا أساسيًا أكثر قدرة.
  • استخدم المزيد من التعليقات البشرية بشكل كبير.

فيما يلي بعض أهم المساهمات التي قدمها الباحثون:

يجد الباحثون أن الإشراف على العملية يمكن أن يوفر نماذج مكافآت جديرة بالثقة أثناء التدريب أكثر من الإشراف على النتائج. يمكن لأحدث PRM حل 78.2٪ من عينة من المشاكل من مجموعة اختبار MATH.

إنهم يبرهنون على قدرة نموذج المكافأة الكبيرة على التنفيذ الفعال لعمليات الاجتثاث في جمع البيانات على نطاق واسع وتقليد الإشراف البشري بنجاح على نماذج المكافآت الأصغر.

كما أنها تظهر أن كفاءة البيانات للإشراف على العملية تزداد بمقدار 2.6 مرة بسبب التعلم النشط.

لتشجيع المزيد من الدراسة في هذا المجال ، يقوم الباحثون بإتاحة مجموعة بيانات الإشراف على عملية PRM800K بأكملها.

باتباع منهجية مماثلة مثل Uesato ، يقوم الباحثون بتحليل الاختلافات بين النتيجة والإشراف على العملية. يمكن الإشراف على النتائج الخالية من الإنسان نظرًا لأنه يمكن التحقق تلقائيًا من جميع الحلول للأسئلة في مجموعة بيانات الرياضيات. من ناحية أخرى ، لا يمكن أتمتة عملية الإشراف على العمليات بسهولة.

الإدارة على أساس المخرجات مقابل المدخلات

النهج الأساسي مشابه ، لكن هناك ثلاثة اختلافات رئيسية. يبدأ الباحثون بجمع مجموعة بيانات PRM800K وإجراء الاختبارات الضخمة باستخدام نموذج أكثر قوة. نتج عن كل من الإشراف على النتائج والعملية نفس معدلات الخطأ تقريبًا للحل النهائي ، لكن الإشراف على العملية فعل ذلك مع عدد أقل من الملاحظات. تمشيا مع نتائج Uesato ، يكون الأداء الناتج مكافئًا حتى عندما يتم الإشراف على العملية والنتيجة بشكل كبير. حتى عند تقييمها حصريًا من حيث النتائج ، فإن الإشراف على العملية يقاس أفضل من الإشراف على النتائج.

تُستخدم طرق المحاذاة (طرق المحاذاة) في الذكاء الاصطناعي لجعل إجراءات أنظمة الذكاء الاصطناعي تتماشى مع القيم الإنسانية ، مما يجعلها أكثر أمانًا واتساقًا مع تلك القيم. وفقًا لمؤلفي الدراسة ، سيؤثر سعر المحاذاة على الاستخدام الواسع النطاق لتقنية المحاذاة من خلال ممارسة الضغط على نشر النموذج. يمكن أن يؤدي هذا في النهاية إلى تحسين أداء الأنظمة. يُستخدم مصطلح “ضريبة المحاذاة” لوصف هذه النتيجة غير المقصودة.

في ضربة حظ ، تظهر النتائج التجريبية أن تكلفة المحاذاة للإشراف على العملية سلبية في الرياضيات ، مما قد يؤدي إلى اعتمادها على نطاق واسع. على الرغم من أنه من غير الواضح للباحثين إلى أي مدى يمكن تطبيق عملهم خارج الرياضيات ، فإن مراقبة عملية البحث أمر بالغ الأهمية للعمل في مواضيع أخرى. عندما يتم تطبيق هذه النتائج على نطاق واسع ، يتحسن الإشراف على العملية من حيث الفعالية والاتساق.

في الاستدلال الرياضي ، أظهر الباحثون أنه يمكن استخدام الإشراف على العملية لتدريب نماذج مكافأة جديرة بالثقة أكثر بكثير من الإشراف على النتائج. أظهر الباحثون أيضًا أن التعلم النشط قد يقلل من نفقات جمع البيانات البشرية من خلال إعطاء الأولوية لإكمال النموذج الذي يجب تقديمه إلى البشر للتقييم. يتوقع الباحثون أنه من خلال إزالة هذا الحاجز الكبير أمام الدخول ، سيتم تحفيز المزيد من الدراسة حول محاذاة نماذج اللغة الكبيرة من خلال توفر PRM800K ، وهي مجموعة البيانات الكاملة للتعليقات البشرية المستخدمة لتدريب نموذج المكافآت الحديث. يعتقد الباحثون أن عملية الإشراف على العمليات غير مكتشفة حاليًا. لذلك يتطلع الباحثون إلى البحث المستقبلي الذي يدرس قابلية تعميم هذه الأساليب بمزيد من التفصيل.