الأخبار التكنولوجية والاستعراضات والنصائح!

أوبن إيه آي: نمذجة المكافآت الجديدة الخاضعة للإشراف على العمليات تحسن استدلال الذكاء الاصطناعي

ستساعدك المقالة التالية: أوبن إيه آي: نمذجة المكافآت الجديدة الخاضعة للإشراف على العمليات تحسن استدلال الذكاء الاصطناعي

استحوذت شركة OpenAI مرة أخرى على انتباه مجتمع الذكاء الاصطناعي من خلال عملها الرائد في نمذجة المكافآت التي تخضع للإشراف (PRMs). يهدف هذا النهج المبتكر إلى تقييم الخطوات الوسيطة والاستدلال لنماذج الذكاء الاصطناعي ، مما يؤدي إلى تحسين الأداء والمقاييس.

الائتمان: Metaverse Post (mpost.io)

في التعلم التعزيزي التقليدي من ردود الفعل البشرية (RLHF) ، يتم تقديم ملاحظات النموذج عادةً بناءً على النتيجة الإجمالية الناتجة عن النموذج. ومع ذلك ، يستكشف بحث OpenAI الجديد فكرة تقييم الخطوات الفردية وعمليات التفكير التي يقوم بها النموذج. من خلال القيام بذلك ، يمكنهم تقديم تقييمات وتعليقات أكثر دقة.

لمعالجة هذه المشكلة ، اختارت OpenAI مسائل رياضية تتطلب إجراءات متعددة. تم تدريب نموذج منفصل لتقييم الخطوات الوسيطة بشكل فعال ، حيث عمل كناقد لتحديد أي أحكام خاطئة صادرة عن النموذج الأساسي. لا تعمل هذه العملية على تحسين الأداء العام فحسب ، بل تعمل أيضًا على تحسين المقاييس المستخدمة لتقييم قدرات النموذج.

خطت OpenAI خطوات كبيرة في هذا المجال ، مع إصدار مجموعة بيانات منظمة بدقة تتكون من 800000 حكم ملحوظ. يمثل كل حكم مرحلة منفصلة في حل المشكلات الرياضية وتم إنشاؤه يدويًا. يسلط هذا الضوء على مستوى التفاني والموارد التي تستثمرها OpenAI في تطوير مجموعات بيانات عالية الجودة ، مما يثير تساؤلات حول حجم البيانات التي تم جمعها لمجالات أخرى مثل البرمجة أو الأسئلة المفتوحة.

إن تدريب GPT-4 ، أحدث تكرار لـ OpenAI لسلسلة GPT ، قيد التنفيذ بالفعل. بينما لم يتم دمج مكون RLHF في التجارب الحالية ، يتم استخدام نموذج لغة خالصة. والجدير بالذكر أن OpenAI يذكر أن هناك إصدارات متعددة من GPT-4 ، حتى أن أصغر إصدار يتطلب موارد أقل بكثير للتدريب – ما يقرب من 200 مرة أقل.

الائتمان: OpenAI

يُظهر مثال مثير للاهتمام تشاركه شركة OpenAI كيفية تقييم النموذج لكل خطوة قرار فردية. في لقطة الشاشة المضمنة في المنشور ، يتم وضع علامة على الأخطاء في الحل ومنحها أدنى درجة صحة ، مظللة باللون الأحمر. يسلط هذا العرض التوضيحي الضوء على قدرة النموذج على التفكير ويقدم رؤى قيمة في عملية صنع القرار. قدمت OpenAI أيضًا تعليمات حول العلامات ، مما يوفر فرصًا للمتعاقدين الجماعي للمساهمة في عملهم والاستفادة منه.

مع استمرار OpenAI في دفع حدود أبحاث الذكاء الاصطناعي ، فإن تركيزهم على الاستدلال النموذجي ونمذجة المكافآت الخاضعة للإشراف يجلب إمكانيات جديدة لقدرات الذكاء الاصطناعي المحسّنة. يُظهر هذا الاختراق الأخير التزامهم بتحسين أداء النموذج ويفتح الأبواب لمزيد من التقدم في هذا المجال.

  • حديثاً، Apple يقيد استخدام الموظفين لـ ChatGPT وروبوتات الدردشة الأخرى التي تعمل بالذكاء الاصطناعي بسبب مخاوف تتعلق بالخصوصية. ذكرت صحيفة وول ستريت جورنال أن العمال ممنوعون أيضًا من استخدام أداة الذكاء الاصطناعي التابعة لشركة GitHub ، والتي تمكن المستخدمين من كتابة كود البرنامج تلقائيًا. ChatGPT عبارة عن روبوت محادثة مدعوم بالذكاء الاصطناعي تم تطويره بواسطة OpenAI ، والذي تم انتقاده بسبب انتهاكات الخصوصية.

اقرأ المزيد عن الذكاء الاصطناعي: