الأخبار التكنولوجية والاستعراضات والنصائح!

تقترح ورقة AI هذه لتحليل أداء ChatGPT وإمكانية شرحه ومعايرته وإخلاصه بشكل منهجي

ستساعدك المقالة التالية: تقترح ورقة AI هذه لتحليل أداء ChatGPT وإمكانية شرحه ومعايرته وإخلاصه بشكل منهجي

تعد ChatGPT ، التي طورتها شركة OpenAI ، حاليًا نموذج اللغة الكبيرة الأكثر شيوعًا (LLM) الذي يفهم نوايا الإنسان. إنه ينشئ محتوى عالي الجودة ويشتهر بإجراء محادثات شبيهة بالمحادثات البشرية. يتم تدريب LLM على كمية هائلة من البيانات النصية وإظهار قدرات غير عادية في معالجة اللغة الطبيعية (NLP) وفهم اللغة الطبيعية (NLU). باستخدام التعلم العميق ، تقوم LLM بمعالجة اللغة الطبيعية وتتفوق في المهام المتعلقة باللغة.

تعمل LLMs مثل ChatGPT و PaLM بشكل جيد للغاية في المهام غير المرئية بمساعدة التعليمات المناسبة أو تعريف المهمة. حتى أنهم يستخدمون سلسلة الفكر (CoT) التي تحثهم على تحسين أدائهم في مثل هذه المهام ، وهي طريقة تحفيزية تمكن LLM من شرح أسبابها. توفر مطالبة CoT للنموذج سلسلة من المطالبات ذات الصلة لتوجيه استجاباته.

في ورقة بحثية صدرت مؤخرًا ، ناقش المؤلفون أداء ChatGPT وطريقة تقييم قدرته الكلية على أداء مهام استخراج المعلومات الدقيقة (IE). استخراج المعلومات (IE) هو عملية استخراج معلومات محددة تلقائيًا ، مثل المعلومات المنظمة ، من مصدر بيانات غير منظم أو شبه منظم مثل نص نصي. يستخرج الهياكل غير المتجانسة ، باستخدام المعرفة الواقعية ، واستهداف المعلومات المتنوعة ، مما يجعله سيناريو مثاليًا لتقييم قدرات ChatGPT.

يتطلب تقييم استجابات ChatGPT تقييم قدرتها على تحقيق أداء عالٍ وقياس موثوقية إجاباتها. لمساعدة المستخدمين على فهم الجودة الشاملة لاستجابات ChatGPT ، صمم مؤلفو البحث أربعة أبعاد متريّة: الأداء ، والتفسير ، والمعايرة ، والإخلاص. يشير الأداء إلى الأداء العام لـ ChatGPT في مهام IE المختلفة من وجهات نظر عديدة. تقوم قابلية التفسير بتقييم ما إذا كان بإمكان ChatGPT تقديم سبب مبرر لتوقعه أم لا. يقدم نظرة ثاقبة في عملية صنع القرار. تقيس المعايرة عدم اليقين التنبؤي للنموذج وتقيّم ما إذا كانت ChatGPT شديدة الثقة في تنبؤاتها. أخيرًا ، يحدد الإخلاص ما إذا كانت التفسيرات المقدمة من ChatGPT صادقة للمدخلات أم أنها خاطئة.

أجرى المؤلفون تجاربهم وتحليلاتهم بناءً على 14 مجموعة بيانات تنتمي إلى 7 مهام IE دقيقة الحبيبات ، بعضها يتضمن التعرف على الكيانات المسماة (NER) ، واستخراج العلاقة (RE) ، واستخراج الأحداث (EE). تظهر النتائج أن أداء ChatGPT في إعداد Standard-IE ضعيف ، لذا فهو يكافح مع المهام التي تتطلب استخراج المعلومات المنظمة. من ناحية أخرى ، فإنه يعرض أداءً ممتازًا في إعداد OpenIE ، والذي يتضمن استخراج المعلومات من نص غير منظم. تم إثبات هذه النتائج من خلال التقييم البشري ، حيث صنف المقيّمون البشريون ردود ChatGPT على أنها عالية الجودة ومناسبة.

شارك المؤلفون كيف تقدم ChatGPT تفسيرات عالية الجودة وجديرة بالثقة لقراراتها ، لكن طبيعتها المفرطة في الثقة تؤدي إلى معايرة منخفضة ، أي أن احتمالاتها المتوقعة لا تتطابق مع الاحتمالات الفعلية. يصور ChatGPT مستوى عالٍ من الإخلاص للنص الأصلي في معظم الحالات ، وبالتالي فهو وفاء لمعنى النص الأصلي والغرض منه.

في الختام ، يوفر هذا البحث إطارًا قيمًا لتقييم ChatGPT وما شابهها من LLM ، مما يمكّن المستخدمين من فهم الجودة الشاملة لردودهم بشكل أفضل. دراسة لقدرات استخراج المعلومات في ChatGPT: تقييم أدائها وإمكانية التفسير والمعايرة والإخلاص