الأخبار التكنولوجية والاستعراضات والنصائح!

10 مقاييس تقييم لنماذج التعلم الآلي

ستساعدك المقالة التالية: 10 مقاييس تقييم لنماذج التعلم الآلي

لا يعد بناء نموذج التعلم الآلي أمرًا لمرة واحدة. قد لا تعرف ما إذا كان النموذج المبني يعمل ، أو إذا كان يعمل ، هل يعمل كما هو متوقع. يعمل بناء مثل هذه النماذج على مبدأ الحصول على ردود الفعل من مقياس ما ، وتنفيذ التحسينات الصحيحة ، وإعادة البناء لتحقيق الدقة المثالية المطلوبة.

ومع ذلك ، فإن اختيار المقياس الصحيح لتقييم أداء ودقة نموذجك يعد مهمة بحد ذاتها. لذلك ، بعد الانتهاء من نموذجك التنبئي أو التصنيف أو الانحدار – إليك قائمة بمقاييس التقييم التي يمكن أن تساعدك في اختبار دقة النموذج وملموسيته.

الارتباك مصفوفة

ببساطة ، إنها مصفوفة بحجم 2 × 2 للتصنيف الثنائي مع محور واحد يتكون من قيم فعلية والمحور الآخر بقيم متوقعة. يمكن أن يزداد حجم المصفوفة اعتمادًا على عدد الفئات التي يتم توقعها.

بخلاف ذلك ، يُعرف باسم “مصفوفة الخطأ” ، وهو تمثيل مرئي جدولي لتنبؤات النموذج مقابل تسميات الحقيقة الأساسية.

صحيح إيجابي هو التنبؤ الإيجابي الصحيح للنموذج.

سلبي حقيقي هو التنبؤ السلبي الصحيح بواسطة النموذج.

إيجابية كاذبة هو توقع خاطئ للإيجابي من قبل النموذج.

سلبي خطأ هو توقع خاطئ للنموذج السلبي.

باستخدام هذه القيم ، يمكننا حساب معدل كل فئة من فئات التنبؤ بمعادلة بسيطة.

دقة التصنيف

أبسط مقياس يتم حسابه بواسطة قسمة عدد التنبؤات الصحيحة على العدد الإجمالي للتنبؤات ، مضروبًا في 100.

الدقة / الخصوصية

إذا كان توزيع الفئة غير متوازن ، فإن دقة التصنيف ليست أفضل مؤشر لأداء النموذج. لمعالجة مشكلة خاصة بالفئة ، نحتاج إلى مقياس دقيق يتم حسابه بواسطة الإيجابيات الحقيقية مقسومة على مجموع الإيجابيات الحقيقية والإيجابيات الخاطئة.

أذكر / حساسية

الاسترجاع هو جزء من العينات من فئة واحدة تم توقعها بشكل صحيح بواسطة النموذج. يتم حسابها بواسطة الإيجابيات الحقيقية مقسومة على مجموع الإيجابيات الحقيقية والسلبيات الكاذبة.

انقر هنا لقراءة المزيد عن مقاييس التقييم لمشاكل التصنيف.

نتيجة F1

الآن بعد أن عرفنا ما هي الدقة والاستدعاء لمشاكل التصنيف ، لحساب كليهما في وقت واحد – F1 ، المتوسط ​​التوافقي لكليهما ، والذي يعمل أيضًا بشكل جيد على مجموعة بيانات غير متوازنة.

كما هو موضح في المعادلة أعلاه ، تعطي درجة F1 نفس الأهمية لكل من – الاسترجاع والدقة. إذا أردنا إعطاء وزن أكبر لواحد منهم ، فيمكن حساب درجة F1 عن طريق إرفاق قيمة إما بالاستدعاء أو الدقة اعتمادًا على عدد المرات التي تكون فيها القيمة مهمة. في المعادلة أدناه ، β هو الوزن.

الجامعة الأمريكية بالقاهرة – جمهورية الصين

المنطقة الواقعة تحت المنحنى (AUC) مستقلة عن التغيرات في نسبة المستجيبين. عندما نحصل على مصفوفة ارتباك تنتج قيمة مختلفة لكل مقياس في نموذج احتمالي ، أي عندما نحصل على قيمة دقة (خصوصية) مختلفة لكل استدعاء (حساسية) – يمكننا رسم منحنى خاصية تشغيل جهاز الاستقبال (ROC) و ابحث عن المنطقة الواقعة أسفل المنحنى كما هو موضح أدناه.

نظرًا لأن المنطقة محسوبة بين المحور ، فإنها دائمًا ما تكون بين 0 و 1. وكلما اقتربت من 1 ، كان النموذج أفضل.

خطأ مربع متوسط ​​الجذر (RMSE)

أحد المقاييس الأكثر شيوعًا المستخدمة في مشكلات الانحدار ، يفترض RMSE أن الأخطاء التي تحدث غير متحيزة وتتبع التوزيع الطبيعي. كلما زاد عدد العينات ، زادت موثوقية إعادة بناء توزيع الخطأ من خلال RMSE. يتم الحصول على معادلة المقياس من خلال:

انقر هنا للحصول على شرح أكثر تفصيلاً لمقاييس التقييم المختلفة.

خسارة عبر الانتروبيا

يُعرف فقدان الانتروبيا ، المعروف أيضًا باسم “ Log Loss ” ، في الشبكات العصبية العميقة لأنه يتغلب على مشاكل التدرج المتلاشي. يتم حسابه من خلال جمع القيمة اللوغاريتمية لتوزيع احتمالية التنبؤ لنقاط البيانات المصنفة بشكل خاطئ.

معامل جيني

يستخدم في مشاكل التصنيف ، ومعامل جيني مشتق من رقم AUC – ROC. إنها النسبة بين منحنى ROC والخط القطري. إذا كان معامل جيني أعلى من 60٪ ، فإن النموذج يعتبر جيدًا. الصيغ المستخدمة لهذا هي:

جيني = 2 * AUC – 1

نقاط جاكارد

درجة Jaccard هي مقياس مؤشر التشابه بين مجموعتين من البيانات. يتم احتساب النتيجة بين 0 و 1 بحيث يكون الرقم 1 هو الأفضل. لحساب درجة Jaccard ، نجد العدد الإجمالي للملاحظات في كلتا المجموعتين ، ونقسمه على العدد الإجمالي للملاحظات في أي من المجموعتين.

J (أ ، ب) = | A∩B | / | A∪B |

فيما يلي دليل عملي لمقاييس التقييم لنماذج التعلم الآلي.