الأخبار التكنولوجية والاستعراضات والنصائح!

يتناقض أداء GPT-4 في امتحان نقابة المحامين بالولايات المتحدة مع مطالباتها

ستساعدك المقالة التالية: يتناقض أداء GPT-4 في امتحان نقابة المحامين بالولايات المتحدة مع مطالباتها

في فحص حديث لأداء GPT-4 في اختبار الشريط الموحد (UBE) ، نشأت شكوك حول دقة ادعاءات OpenAI فيما يتعلق بمعدل نجاح النموذج. على عكس التأكيد الأولي بأن GPT-4 يتفوق على 90٪ من الأفراد ، تشير النتائج إلى وجود تباين كبير بين الأداء التقديري والأداء الفعلي لنموذج الذكاء الاصطناعي. يؤكد هذا الكشف على أهمية إجراءات التقييم الشفافة والبيانات التي يمكن الوصول إليها للتحقق من صحة هذه الادعاءات.

تضمين التغريدة

ركز الفحص على عوامل مختلفة للتأكد من القدرات الحقيقية لـ GPT-4. أولاً ، كشف تحليل اختبارات فبراير في إلينوي أن درجات GPT-4 اقتربت من النسبة المئوية التسعين. ومع ذلك ، فقد لوحظ أن هذه الدرجات قد تأثرت بشكل كبير بالمعادين الذين فشلوا سابقًا في امتحان يوليو وبالتالي سجلوا درجات أقل من المتوسط ​​العام.

علاوة على ذلك ، تناقضت نتائج اختبار يوليو مع ادعاءات OpenAI ، وكشفت أن GPT-4 سيتفوق فقط على 68٪ من الأشخاص و 48٪ من المقالات. تم تقييم أداء GPT-4 ضد المتقدمين لأول مرة (باستثناء عمليات إعادة التسجيل) عند النسبة المئوية 63 عندما تم النظر في البيانات الرسمية من عدة اختبارات في فترات مختلفة ، مع تسجيل المقالات أقل بكثير عند النسبة المئوية 41.

تم الحصول على منظور إضافي من خلال فحص أداء الذين اجتازوا الامتحان ، بمن فيهم الأفراد المرخص لهم ومن ينتظرون الترخيص. في هذا الصدد ، تم تصنيف الأداء العام لـ GPT-4 في النسبة المئوية 48 ، مع أداء المقالات أسوأ حتى في النسبة المئوية 15.

في حين أن هذه النتائج مثيرة للقلق ، فمن الأهمية بمكان النظر في احتمال حدوث خطأ بشري في عملية المراجعة. يؤكد مؤلف المقال على أهمية فهم العينة المستخدمة من قبل الباحثين لتقييم أداء GPT-4. إن الافتقار إلى البيانات الرسمية ، لا سيما في شكل مجمع ، يجعل المقارنة والتقييم العادلين للنسب المئوية أمرًا صعبًا. يعد إنشاء تقنيات تقييم واضحة ويمكن الوصول إليها يمكن تقييمها من قبل جميع أصحاب المصلحة أمرًا بالغ الأهمية.

استجابة لهذه المخاوف ، نحث OpenAI على معالجة التناقضات وتقديم مزيد من الأفكار حول عملية التقييم. الشفافية والانفتاح ضروريان لاكتساب الثقة وضمان مصداقية نماذج الذكاء الاصطناعي في المجالات عالية المخاطر مثل القانون.

وتجدر الإشارة إلى أن المقالة لا تناقش الدرجة المحددة التي حققتها GPT-4 ، والتي تم الإبلاغ عنها بأنها 298. تقييم أهمية هذه الدرجة يتطلب فهمًا سياقيًا لنظام الدرجات المستخدم. مثلما يمكن أن يكون الطفل العائد إلى المنزل من المدرسة مع B إما سببًا للاحتفال أو خيبة الأمل ، فإن تفسير درجة GPT-4 يعتمد على المقياس المستخدم.

يثير تقييم أداء GPT-4 في امتحان المحاماة مخاوف جدية بشأن صحة تأكيدات OpenAI الأولية. تؤكد الفجوة بين الأداء المقدر والفعلي على أهمية وجود أنظمة تقييم واضحة وبيانات يسهل الوصول إليها. يتم تشجيع OpenAI على مواجهة هذه التحديات وتطوير نهج أكثر شمولاً وموثوقية لتقييم نموذج الذكاء الاصطناعي.

اقرأ المزيد عن الذكاء الاصطناعي: