الأخبار التكنولوجية والاستعراضات والنصائح!

بحث جديد للذكاء الاصطناعي من جامعة ستانفورد يقدم شرحًا بديلاً للقدرات الناشئة الحادة وغير المتوقعة لنماذج اللغات الكبيرة

ستساعدك المقالة التالية: بحث جديد للذكاء الاصطناعي من جامعة ستانفورد يقدم شرحًا بديلاً للقدرات الناشئة الحادة وغير المتوقعة لنماذج اللغات الكبيرة

اكتشف الباحثون منذ فترة طويلة السمات الناشئة للأنظمة المعقدة ، من الفيزياء إلى علم الأحياء إلى الرياضيات. يعد تعليق الفيزيائي الحائز على جائزة نوبل بي دبليو أندرسون “المزيد هو الاختلاف” أحد الأمثلة البارزة. إنه يوضح أنه مع زيادة تعقيد النظام ، قد تظهر خصائص جديدة لا يمكن التنبؤ بها (بسهولة أو على الإطلاق) ، حتى من خلال الفهم الكمي الدقيق للتفاصيل المجهرية للنظام. نظرًا للاكتشافات التي تُظهر نماذج اللغة الكبيرة (LLMs) ، مثل GPT و PaLM و LaMDA ، والتي قد تُظهر ما يُعرف باسم “القدرات الناشئة” عبر مجموعة متنوعة من المهام ، فقد جذبت الناشئة مؤخرًا الكثير من الاهتمام بالتعلم الآلي.

لقد تم التأكيد مؤخرًا وبإيجاز على أن “القدرات الناشئة لـ LLMs” تشير إلى “القدرات غير الموجودة في النماذج الأصغر حجمًا ولكنها موجودة في النماذج واسعة النطاق ؛ وبالتالي ، لا يمكن التنبؤ بها ببساطة عن طريق استقراء تحسينات الأداء على النماذج الأصغر حجمًا “. ربما كانت عائلة GPT-3 هي أول من اكتشف مثل هذه المهارات الناشئة. أكدت الأعمال اللاحقة على الاكتشاف ، وكتبت أن “الأداء يمكن التنبؤ به على المستوى العام ، والأداء في مهمة معينة يمكن أن يظهر في بعض الأحيان بشكل غير متوقع ومفاجئ على نطاق واسع” ؛ في الواقع ، كانت هذه القدرات الناشئة مذهلة للغاية ورائعة لدرجة أنه قيل إن مثل هذا “التحجيم المفاجئ والمحدّد للقدرات” يجب اعتباره أحد السمتين الرئيسيتين المحددتين لـ LLM. بالإضافة إلى ذلك ، تم استخدام عبارات “انعطاف حاد إلى اليسار” و “قدرات اختراق”.

تحدد هذه الاقتباسات السمتين اللتين تميزان المهارات الناشئة في ماجستير في القانون:

1. الحدة ، التغيير من الغائب إلى الحاضر ظاهريًا على الفور

2. عدم القدرة على التنبؤ ، والانتقال في أحجام النماذج التي تبدو غير محتملة. لقد جذبت هذه المهارات المكتشفة حديثًا الكثير من الاهتمام ، مما أدى إلى استفسارات مثل ما الذي يحدد القدرات التي ستظهر؟ ما الذي يحدد متى تظهر المهارات؟ كيف يمكنهم التأكد من ظهور المواهب المرغوبة دائمًا مع تسريع ظهور المواهب غير المرغوب فيها؟ يتم إبراز أهمية هذه القضايا لسلامة الذكاء الاصطناعي ومواءمته من خلال القدرات الناشئة ، التي تحذر من أن النماذج الأكبر قد تمتلك يومًا ما ، دون سابق إنذار ، إتقانًا غير مرغوب فيه للمهارات الخطرة.

ينظر باحثون من جامعة ستانفورد إلى فكرة أن LLM تحتوي على قدرات ناشئة بشكل أكثر دقة ، وتغييرات مفاجئة وغير متوقعة في مخرجات النموذج كدالة لمقياس النموذج في مهام معينة في هذه الدراسة. تنبع شكوكنا من اكتشاف أن المهارات الناشئة تبدو مقصورة على المقاييس التي تقيس بشكل متقطع أو غير خطي معدل الخطأ لكل رمز لأي نموذج. على سبيل المثال ، أوضحوا أنه في اختبارات BIG-Bench ، يندرج أكثر من 92٪ من المواهب الناشئة تحت أحد مقياسين: خيارات متعددة. إذا كان الاختيار مع أعلى احتمال هو 0 ، فإن الدرجة def = 1 ؛ خلاف ذلك. إذا كانت سلسلة الإخراج تتطابق تمامًا مع السلسلة المستهدفة ، فعندئذٍ Exact String Match def = 1 ؛ آخر ، 0.

يثير هذا احتمال وجود تفسير مختلف لظهور القدرات الناشئة لـ LLM: التغييرات التي تبدو مفاجئة وغير متوقعة قد تكون ناجمة عن اختيار قياس الباحث. على الرغم من تغير معدل الخطأ لكل رمز لعائلة النموذج بسلاسة واستمرار وبشكل متوقع مع زيادة مقياس النموذج ، فإن هذا يثير احتمال وجود تفسير آخر.

يزعمون على وجه التحديد أن اختيار الباحث لمقياس يؤدي إلى تشويه معدلات الخطأ لكل رمز بشكل غير خطي أو بشكل متقطع ، ونقص بيانات الاختبار لتقدير أداء النماذج الأصغر بدقة (مما أدى إلى ظهور نماذج أصغر غير قادرة تمامًا على أداء المهمة) ، و تقييم عدد قليل جدًا من النماذج كبيرة الحجم كلها أسباب تجعل القدرات الناشئة سرابًا. إنهم يقدمون نموذجًا رياضيًا مباشرًا للتعبير عن وجهة نظرهم البديلة وإظهار كيف يدعم إحصائيًا الدليل على مهارات LLM الناشئة.

بعد ذلك ، وضعوا نظريتهم البديلة على المحك بثلاث طرق متكاملة:

1. باستخدام عائلة نماذج InstructGPT / GPT-3 ، يقومون بصياغة واختبار وتأكيد ثلاث تنبؤات بناءً على فرضياتهم البديلة.

2. يجرون تحليلًا تلويًا للبيانات المنشورة سابقًا ويظهرون أن المهارات الناشئة تحدث فقط لمقاييس معينة وليس للعائلات النموذجية في المهام (الأعمدة) في مساحة التوائم الثلاثية العائلية للنموذج المتري. ويوضحون كذلك أن تغيير مقياس المخرجات من النماذج الثابتة يتلاشى ظاهرة الظهور.

3. يوضحون كيف أن الاختيارات المترية المتطابقة قد تنتج ما يبدو أنها مهارات ناشئة عن طريق الحث المتعمد للقدرات الناشئة في الشبكات العصبية العميقة لمختلف البنى على مهام الرؤية المختلفة (والتي ، على حد علمهم ، لم يتم إثباتها أبدًا).