الأخبار التكنولوجية والاستعراضات والنصائح!

تقدير أداء النموذج دون الحقيقة الأساسية – نحو الذكاء الاصطناعي

ستساعدك المقالة التالية: تقدير أداء النموذج دون الحقيقة الأساسية – نحو الذكاء الاصطناعي

نُشر في الأصل على نحو AI ، الشركة الرائدة في العالم في مجال الذكاء الاصطناعي والأخبار التقنية والإعلام. إذا كنت تقوم ببناء منتج أو خدمة متعلقة بالذكاء الاصطناعي ، فنحن ندعوك للتفكير في أن تصبح راعيًا للذكاء الاصطناعي. في نحو الذكاء الاصطناعي ، نساعد في توسيع نطاق الشركات الناشئة في مجال الذكاء الاصطناعي والتكنولوجيا. دعنا نساعدك على إطلاق التكنولوجيا الخاصة بك للجماهير.

هذا ممكن ، طالما حافظت على معايرة احتمالاتك

لا ينبغي أن يكون هناك أخبار لأفراد علم البيانات أنه بمجرد نشر النموذج التنبئي أخيرًا ، تبدأ المتعة فقط. النموذج في الإنتاج يشبه الطفل: يجب مراقبته وجليسة الأطفال للتأكد من أنه يعمل على ما يرام ولا يحدث شيء خطير للغاية. تتمثل إحدى المهام الرئيسية التي تقوم بها جليسة الأطفال في مراقبة أداء النموذج باستمرار والتفاعل إذا تدهورت. إنها مهمة معيارية إلى حد ما طالما أن المرء لديه الأهداف المرصودة تحت تصرفه. ولكن كيف يمكن تقدير أداء النموذج في غياب الحقيقة الأساسية؟ دعني اريك!

مراقبة الاداء

لنبدأ بالأساسيات. لماذا نهتم حتى بمراقبة الأداء؟ بعد كل شيء ، تم اختبار النموذج بشكل صحيح على بيانات جديدة غير مرئية قبل شحنها ، أليس كذلك؟ لسوء الحظ ، تمامًا كما هو الحال في الاستثمار المالي ، فإن الأداء السابق ليس ضمانًا للنتائج المستقبلية. تميل جودة نماذج التعلم الآلي إلى التدهور بمرور الوقت ، وأحد الأسباب الرئيسية هو انحراف البيانات.

انحراف البيانات

(المعروف أيضًا باسم) هو حالة يتغير فيها توزيع مدخلات النموذج. الأسباب المحتملة لمثل هذا التغيير وفيرة.

فكر في البيانات التي يتم جمعها تلقائيًا بواسطة نوع من أجهزة الاستشعار. قد ينكسر الجهاز أو يتلقى تحديثًا للبرنامج يغير طريقة أخذ القياسات. وإذا كانت البيانات تصف الأشخاص ، على سبيل المثال المستخدمين أو العملاء أو المشاركين في الاستطلاع ، فمن المرجح أن ينجرفوا بعيدًا ، لأن الموضة والتركيبة السكانية تتطور باستمرار.

نتيجة لذلك ، يتم تغذية النموذج في الإنتاج ببيانات موزعة بشكل مختلف مقارنة بتلك التي شاهدها أثناء التدريب. ما هي عواقب أدائها؟ ضع في اعتبارك الرسومات التالية.

عندما يتغير توزيع بيانات الإدخال كثيرًا ، فقد يتجاوز حدود قرار النموذج مما يؤدي إلى أداء أسوأ.

مراقبة أداء النموذج

من الأهمية بمكان أن يكون لديك مراقبة مناسبة لتتمكن من اكتشاف العلامات المبكرة لأداء النموذج المتراجع. إذا تم تنبيهنا مبكرًا بما فيه الكفاية ، فقد لا يزال هناك وقت للتحقيق في أسبابه واتخاذ قرار بإعادة تدريب النموذج ، على سبيل المثال.

في كثير من الحالات ، تعتبر مراقبة الأداء مهمة قياسية نسبيًا. إنه الأسهل عندما تكون أهداف الحقيقة الأرضية متاحة. فكر في التنبؤ بالتخبط. لدينا تنبؤات نموذجنا لمجموعة من المستخدمين ، ونعرف ما إذا كانوا قد تغيروا أم لا خلال إطار زمني معين. يتيح لنا ذلك حساب المقاييس التي نختارها ، مثل الدقة أو الدقة أو ROC AUC ، ويمكننا الاستمرار في حسابها باستمرار باستخدام مجموعات جديدة من البيانات.

في سيناريوهات أخرى ، قد لا نلاحظ أهداف الحقيقة الأساسية بشكل مباشر ، ولكن مع ذلك ، نتلقى بعض التعليقات حول جودة النموذج. فكر في عوامل تصفية البريد العشوائي. في النهاية ، لن تعرف أبدًا ما إذا كان كل بريد إلكتروني معين في قاعدة بياناتك بريدًا عشوائيًا أم لا. ولكن يجب أن تكون قادرًا على ملاحظة بعض إجراءات المستخدم التي تشير إلى ذلك ، مثل نقل الرسائل من البريد الوارد إلى البريد العشوائي أو إخراج بريد إلكتروني مصنف كرسائل غير مرغوب فيها من مجلد البريد العشوائي. إذا لم يزداد تكرار مثل هذه الإجراءات ، فقد يقودنا ذلك إلى استنتاج أن أداء النموذج مستقر.

تعتبر مراقبة الأداء أمرًا سهلاً ، طالما أن أهداف الحقيقة الأساسية أو غيرها من التعليقات المباشرة على جودة النموذج متوفرة.

أخيرًا ، دعنا نفكر في السيناريو النهائي الذي لا يتوفر فيه سوى القليل من التعليقات على جودة النموذج. كنت ذات مرة جزءًا من مشروع يعمل على تحديد الموقع الجغرافي للأجهزة المحمولة بهدف التنبؤ بموقع المستخدم من أجل تزويدهم بالعروض التسويقية ذات الصلة. في حين أن أداء الشركة بالكامل كان مؤشراً على جودة نماذج التعلم الآلي ، لم تكن هناك نقاط بيانات حقيقة أساسية متاحة لكل مدخلات النماذج التي تم استلامها في الإنتاج. كيف نبدأ في المراقبة إذن؟

يمكننا تقدير أداء النموذج بدون تسميات الحقيقة الأساسية عندما يتم معايرة النموذج بشكل صحيح.

يعد تقدير أداء النموذج في حالة عدم وجود بيانات الحقيقة أمرًا صعبًا ، ولكن من الممكن تحقيقه. نحتاج فقط لشيء واحد: نموذج معاير. دعنا نتحدث عما يعنيه الآن.

معايرة الاحتمالية

لفهم معايرة الاحتمالات ، دعنا نتحدث عن الاحتمال نفسه أولاً. بعد ذلك ، سوف ننظر في كيفية ارتباط المفهوم بنماذج التصنيف.

ما هو الاحتمال؟

والمثير للدهشة أنه لا يوجد إجماع على ماهية الاحتمال حقًا. نتفق جميعًا على أنه مقياس يقين ويتم التعبير عنه عادةً كرقم بين صفر وواحد ، مع وجود قيم أعلى تدل على مزيد من اليقين. وهنا تنتهي الاتفاقية.

هناك مدرستان فكريتان حول الاحتمال: المتكرر (المعروف أيضًا باسم الكلاسيكي) و Bayesian. سيخبرك المتكرر أن “احتمال حدث هو حد تواتره النسبي في العديد من التجارب”. إذا رميت عملة معدنية عدة مرات ، سيظهر ما يقرب من نصف الرميات على شكل رؤوس. كلما زاد عدد القذفات ، اقترب هذا المعدل من 0.5. لذلك ، فإن احتمال رمي الوجه بعملة معدنية هو 0.5.

قد لا يتفق بايزي مع ذلك ، مدعيًا أنه يمكنك التوصل إلى احتمالات دون ملاحظة حدوث شيء ما عدة مرات أيضًا. يمكنك قراءة المزيد عن طريقة التفكير البايزية هنا وهنا. دعنا نتخطى هذه المناقشة ، مع ذلك ، لأن موضوعنا الرئيسي يتعلق بالتعريف المتكرر للاحتمال. في الواقع ، نحن بحاجة إلى نموذج التصنيف الخاص بنا لإنتاج احتمالات متكررة.

نماذج التعلم الآلي والاحتمالات

يشار إلى النماذج التي تنتج احتمالات متكررة على أنها معايرة جيدًا. في مثل هذه الحالة ، إذا قام النموذج بإرجاع احتمال 0.9 للفئة الموجبة لعدد من حالات الاختبار ، فيمكننا أن نتوقع أن تكون 90٪ منها فئة موجبة حقًا.

يشار إلى النماذج التي تنتج احتمالات متكررة على أنها معايرة جيدًا.

ومع ذلك ، فإن معظم المصنفات الثنائية تنتج درجات تميل إلى تفسيرها على أنها احتمالات ليست كذلك في الواقع. هذه الدرجات جيدة للترتيب – الرقم الأعلى يعني بالفعل احتمال أعلى للفئة الإيجابية – لكنها ليست احتمالات. أسباب ذلك خاصة بهياكل النماذج المختلفة ، ولكن بشكل عام ، تميل العديد من المصنفات إلى المبالغة في التنبؤ بالاحتمالات المنخفضة والتنبؤ بالاحتمالات العالية.

معايرة المصنفات

أحد الاستثناءات من القاعدة المذكورة أعلاه هو الانحدار اللوجستي. عن طريق البناء ، فإنه يصوغ الاحتمالات وينتج نتائج معايرة. هذا هو السبب في أن إحدى طرق معايرة نموذج غير معاير هي تمرير تنبؤاته إلى مصنف الانحدار اللوجستي الذي يجب أن يغيرها بشكل مناسب.

بمعرفة كل هذا ، مع نموذجنا الذي تم معايرته جيدًا ، يمكننا أخيرًا اللجوء إلى تقدير الأداء بدون الأهداف!

تقدير الأداء القائم على الثقة

تسمى الخوارزمية التي تسمح لنا بتقدير أداء النموذج في غياب الحقيقة الأساسية ، التي طورتها NannyML ، وهي مكتبة مفتوحة المصدر لعلوم بيانات ما بعد النشر ، أو CBPE.

الفكرة من وراء ذلك هي تقدير عناصر مصفوفة الارتباك بناءً على معدلات الخطأ المتوقعة ، والتي نعرفها بافتراض أن النموذج محسوب جيدًا. بوجود مصفوفة الارتباك ، يمكننا بعد ذلك تقدير أي مقياس أداء نختاره. دعونا نرى كيف يعمل.

خوارزمية CBPE

من أجل فهم خوارزمية CBPE ، دعنا نذهب إلى مثال بسيط. لنفترض أن نموذجنا قد استخدم في الإنتاج ثلاث مرات وأنتج الاحتمالات التالية: [0.90, 0.63, 0.21]. وبالطبع ، لا نعرف الفئات المستهدفة الحقيقية.

تأمل في التوقع الأول عند 0.9 ، والممثل على شكل فقاعة على الصورة أدناه. نظرًا لأنه أكبر من عتبة نموذجية 0.5 ، يتم تصنيف هذا المثال على أنه فئة إيجابية. ومن ثم ، هناك خياران: إذا كان النموذج صحيحًا ، فهو إيجابي حقيقي وإذا كان خاطئًا ، فهو إيجابي خاطئ. نظرًا لأن 0.9 الناتج عن النموذج هو احتمال معاير ، يمكننا أن نتوقع أن يكون النموذج صحيحًا في 90٪ من الحالات المماثلة ، أو بعبارة أخرى ، نتوقع أن يكون النموذج صحيحًا بنسبة 90٪. وهذا يترك فرصة بنسبة 10٪ أن يكون التوقع إيجابيًا كاذبًا.

وهكذا ، قمنا بإعداد مصفوفة الارتباك الخاصة بنا. يحتوي على أربعة إدخالات: الإيجابيات الحقيقية (TP) ، السلبيات الحقيقية (TN) ، الإيجابيات الزائفة (FP) ، السلبيات الكاذبة (FN). كما تمت مناقشته ، يحتوي مثالنا الأول على احتمالين فقط ، نوزعهما وفقًا لاحتمالاتهما.

عادة ، تحتوي مصفوفة الارتباك على عدد كل نوع من أنواع التنبؤ ، لكن خوارزمية CBPE تعاملهم ككميات مستمرة. ومن ثم ، نخصص للمصفوفة 0.9 كسرًا من موجب حقيقي و 0.1 كسر من موجب خاطئ للمصفوفة.

يدخل في مثال الاختبار الثاني الذي خرج فيه النموذج 0.63. دعنا نضعها في الصورة كفقاعة جديدة أسفل الأولى. مرة أخرى ، إنها TP أو FP ، لذلك نقوم بتعيين الكسور وفقًا لذلك.

أخيرًا ، لدينا حالة الاختبار الثالثة التي يتحول فيها التنبؤ البالغ 0.21 إلى فئة سالبة. دعنا نضعها تحت الأولين. يمكن أن يكون هذا المثال الثالث إما سلبيًا حقيقيًا مع 100–21 = 79٪ احتمال ، أو سلبيًا خاطئًا باحتمال 21٪. نقوم بتعيين الكسور المقابلة لمصفوفة الارتباك الخاصة بنا ونجمع الأرقام لكل نوع من أنواع التنبؤ الأربعة.

بمجرد الانتهاء من ذلك ، يمكننا حساب أي مقياس أداء نرغب فيه. على سبيل المثال ، يمكننا حساب الدقة المتوقعة بقسمة مجموع TPs و TNs على عدد حالات الاختبار: (1.53 + 0.79) / 3 = 0.77.

بطريقة مماثلة ، يمكن للمرء أن يحسب الدقة أو الاسترجاع أو حتى المنطقة الواقعة أسفل منحنى ROC.

منطقة الخطر: الافتراضات

لا توجد وجبات غداء مجانية في الإحصائيات. على غرار معظم الخوارزميات الإحصائية ، يأتي CBPE مع بعض الافتراضات التي تحتاج إلى الاحتفاظ بتقدير الأداء ليكون موثوقًا به.

أولاً ، كما ناقشنا بالفعل ، يفترض CBPE أن النموذج قد تمت معايرته. وكما قلنا ، فإن معظم النماذج ليست بشكل افتراضي. يمكننا معايرة نموذجنا ، على سبيل المثال عن طريق إضافة مصنف انحدار لوجستي فوقه ، ولكن من المحتمل أن يكون لهذا تأثير ضار على مقاييس الدقة. في الواقع ، لا تضمن المعايرة الأفضل أداءً أفضل – فقط معيار أكثر قابلية للتنبؤ به. في الحالات التي تكون فيها كل نقطة مئوية للدقة حرجة للمهمة ، قد لا يكون المرء على استعداد للتضحية بها.

لا تضمن المعايرة الأفضل أداءً أفضل – فقط معيار يمكن التنبؤ به بشكل أكبر.

ثانيًا ، تعمل خوارزمية CBPE طالما لا يوجد. مفهوم الانجراف هو التوأم الأكثر شرًا لانجراف البيانات. إنه تغيير في العلاقة بين ميزات الإدخال والهدف.

يعمل CBPE فقط في حالة عدم وجود مفهوم الانجراف.

عندما يحدث ذلك ، فإن حدود القرار التي تعلمها النموذج لم تعد قابلة للتطبيق على العالم الجديد الشجاع.

إذا حدث ذلك ، فإن مخطط الميزات المستهدفة الذي تعلمه النموذج يصبح قديمًا ولن تكون المعايرة مهمة بعد الآن – النموذج ببساطة خاطئ. احترس من مفهوم الانجراف!

CBPE مع NannyML

NannyML ، الشركة التي تقف وراء خوارزمية CBPE ، توفر أيضًا تنفيذها مفتوح المصدر كجزء من حزمة Python القابلة للتثبيت من خلال الأنابيب. يمكنك التحقق من الوصف الحسابي الدقيق للخوارزمية في وثائقهم.

إن تقدير ROC AUC للمصنف دون معرفة الأهداف يأخذ حرفياً خمسة أسطر من التعليمات البرمجية باستخدام nannyML ، وينتج تصوراً جيد المظهر على طول الطريق ، مثل الموجود أدناه.

تحقق من دليل البدء السريع الخاص بهم لمعرفة كيفية تنفيذه بسهولة بنفسك!

شكرا للقراءة!

إذا أعجبك هذا المنشور ، فلماذا لا أنت اشترك للحصول على تحديثات البريد الإلكتروني في مقالاتي الجديدة؟ وبواسطة أن تصبح عضوًا متوسطًا، يمكنك دعم كتاباتي والحصول على وصول غير محدود إلى جميع القصص من قبل المؤلفين الآخرين وأنا.

بحاجة الى استشارة؟ يمكنك أن تسألني أي شيء أو تحجز لي مقابل 1: 1 هنا.

يمكنك أيضًا تجربة إحدى مقالاتي الأخرى. لا تستطيع الاختيار؟ اختر واحدًا مما يلي:


تم نشر تقدير أداء النموذج بدون حقيقة أساسية في “نحو الذكاء الاصطناعي على المستوى المتوسط” ، حيث يواصل الأشخاص المحادثة من خلال تسليط الضوء على هذه القصة والرد عليها.

تم النشر عبر نحو الذكاء الاصطناعي