ستساعدك المقالة التالية: شرح الانحدار اللوجستي – نحو الذكاء الاصطناعي
نُشر في الأصل على نحو AI ، الشركة الرائدة في العالم في مجال الذكاء الاصطناعي والأخبار التقنية والإعلام. إذا كنت تقوم ببناء منتج أو خدمة متعلقة بالذكاء الاصطناعي ، فنحن ندعوك للتفكير في أن تصبح راعيًا للذكاء الاصطناعي. في نحو الذكاء الاصطناعي ، نساعد في توسيع نطاق الشركات الناشئة في مجال الذكاء الاصطناعي والتكنولوجيا. دعنا نساعدك على إطلاق التكنولوجيا الخاصة بك للجماهير.
دليل الممارس
الانحدار اللوجستي لمشاكل التصنيف
الانحدار اللوجستي معروف بنمذجة مشاكل التصنيف. سأوضح مزايا استخدام الانحدار اللوجستي على الانحدار الخطي لمشكلة التصنيف مع مثال.
في سياق التأمين ، يشير الفاصل الزمني إلى الحدث الذي يمارس فيه حامل الوثيقة خيار إنهاء عقد التأمين مع شركة التأمين. من مصلحة شركة التأمين فهم ما إذا كان حامل الوثيقة من المحتمل أن ينقضي في التجديد التالي للوثيقة ، لأن هذا يساعد شركة التأمين عادةً على تحديد أولويات جهود الاحتفاظ بها. يصبح هذا بعد ذلك مشكلة تصنيف حيث يأخذ متغير الاستجابة الشكل الثنائي 0 (غير متقطع) أو 1 (انقضاء) ، بالنظر إلى سمات حامل وثيقة معينة.
في مجموعة البيانات التركيبية التي يقوم عليها الرسم البياني أدناه ، نسجل سلوك الزوال لـ 30 من حاملي الوثائق ، حيث يشير 1 إلى الانقطاع و 0 على خلاف ذلك. يمكن ملاحظة وجود علاقة غير خطية قوية بين احتمالية السقوط وعمر حامل الوثيقة. على وجه الخصوص ، يبدو أن الهفوات ترتبط في الغالب بأعمار أكبر من 50 عامًا.
سيكون من غير البديهي أن نمذجة الثغرات في هذه الحالة باستخدام الانحدار الخطي كما هو موضح بالخط الرمادي في الرسم البياني أدناه. بدلاً من ذلك ، يوفر الانحدار اللوجستي كما هو موضح بالخط الأخضر ملاءمة أفضل.
ينتمي الانحدار اللوجستي إلى عائلة النماذج الخطية المعممة (“GLM”) ، والتي تُستخدم عادةً لتحديد معدلات أقساط منتجات التأمين العام مثل التأمين على السيارات. بافتراض أننا نريد نمذجة احتمالية انقضاء حامل الوثيقة المشار إليه بالرمز p ، فإن الانحدار اللوجستي له وظيفة تباين في الشكل أدناه ، والتي يتم تصغيرها عندما تأخذ القيمة 0 أو 1.
هذه سمة لطيفة لنمذجة احتمالية الانقطاع لحامل البوليصة حيث أن الانقضاء الملحوظ يأخذ قيمة 0 أو 1. والنتيجة المرنة لذلك هي أن الانحدار اللوجستي يعطي مصداقية أكبر لملاحظات 0 و 1 كما هو موضح باللون الأخضر السطر في الرسم البياني 2. هذا يجعل الانحدار اللوجستي مناسبًا لنمذجة الأحداث الثنائية مثل التنبؤ بما إذا كان حامل الوثيقة سينقضي ، أو ما إذا كانت المعاملة احتيالية ، والتي يمكن توسيعها بسهولة لتشمل مشاكل التصنيف الأخرى.
نسبة اللوغاريتمات
تهدف النماذج التنبؤية إلى التعبير عن العلاقة بين المتغير (المتغيرات) المستقلة (““) والمتغير التابع (““). في الانحدار الخطي ، يمكن التعبير عن العلاقة على النحو التالي:
في هذه الحالة، قد يمثل سعر العقار ، و و قد تمثل حجم الملكية وعدد غرف النوم في العقار على التوالي ، وفي هذه الحالة نتوقع وجود علاقة إيجابية بين المتغيرات المستقلة والتابعة في شكل معاملات إيجابية لـ و
لنمذجة احتمال الانقضاء لحامل الوثيقة (“”) ، نقوم بتعديل المعادلة (2) قليلاً عن طريق استبدال مع ال نسبة اللوغاريتمات أقل:
بعبارات بسيطة ، إذا كان احتمال السقوط لحامل وثيقة معين 80٪ ، مما يعني أن احتمال عدم الانقضاء هو 20٪ ، فإن المصطلح داخل القوس في المعادلة (3) هو 4. أي ، حامل الوثيقة هذا هو 4 مرات أكثر من عدم الانقضاء ، أو أن نسبة الأرجحية هي 4. نسبة اللوغاريتمات يقيس هذا مع عملية السجل.
رياضياً ، يمكن كتابة المعادلة (3) بأشكال أخرى مثل المعادلتين (4) و (5) أدناه:
بعد تقدير المعاملات تحت الانحدار اللوجستي ، تجعل المعادلتان (4) و (5) تفسير مخرجات نموذج الانحدار اللوجستي شاملاً للأسباب التالية:
- تعبر المعادلة (4) عن نسبة الأرجحية باستخدام بنية تحافظ على الخطية.
- تعيّن المعادلة (5) الميزات إلى احتمال يتراوح من 0 إلى 1. وهذا يتيح لمستخدمي النموذج تخصيص احتمال الانقضاء لكل حامل وثيقة ، والتي يمكن من خلالها تحديد أولويات جهود الاحتفاظ من الناحية الكمية.
بالإضافة إلى ذلك ، من خلال وجود مصطلح اعتراض ، يمكن بسهولة وضع سيناريو أساسي للقياس. لشرح ذلك باستخدام مثال بسيط ، افترض ذلك يشير إلى جنس حامل الوثيقة (أي متغير فئوي من مستويين – ذكر أو أنثى) و يشير إلى مستوى دخل حامل الوثيقة (أي متغير فئوي آخر من مستويين – مرتفع أو منخفض) ، مع استمرار احتمال سقوط متغير الاستجابة. يمكن إعداد السيناريو الأساسي لتمثيل حامل وثيقة من الذكور بمستوى دخل منخفض مع الترميز المناسب للمتغيرات الفئوية المذكورة. باستخدام المعادلة (4) ، ثم تمثل خطوة التغيير في نسبة الأرجحية إلى السيناريو الأساسي عن طريق الكم المعامِلات المعنية.
لإثبات وفهم تأثير مستوى الدخل على احتمال الانقضاء:
تشير المعادلة (6) إلى أن التأثير على احتمال الانقضاء حسب مستوى الدخل ثابت بناءً على المعامل
المعاملات
يمكن الاستدلال من المعادلة (6) على أن علامة المعامِلات تُظهر الاتجاه الذي تؤثر فيه السمات المقابلة (في هذه الحالة ، مستوى الدخل) على نسبة الأرجحية وأن كم أو حجم المعاملات يُظهر مدى الميزات تؤثر على نسبة الأرجحية.
ومع ذلك ، من الناحية العملية ، ليست كل الميزات موثوقة ، لأن معاملاتها المقابلة ليست ذات دلالة إحصائية. كقاعدة عامة ، تُعتبر السمات عادةً ذات أهمية مع -قيمة أقل من 0.05 ، مما يشير إلى أن هذه المعاملات لها تباين صغير نسبيًا ، أو أن القيمة كما هو محدد أدناه مرتفعة.
تشير معاملات التباين الكبير إلى أنه يجب وضع اعتماد أقل على الميزة المقابلة ، حيث قد تختلف المعاملات المقدرة على نطاق واسع.
تحليل متعدد المتغيرات
باستخدام القيمة -value ، فإن الانحدار اللوجستي (على الرغم من أنه لا يقتصر على الانحدار اللوجستي) قادر على تصفية الميزات غير المهمة التي قد تكون مرتبطة بشكل كبير بالميزات الموجودة الأخرى. يساعد هذا في تحديد الدوافع الأساسية الحقيقية لحدث نحاول التنبؤ به.
على سبيل المثال ، قد يكون المبلغ المؤمن عليه للسياسة ودخل حامل الوثيقة مرتبطًا بشكل كبير بسبب الاكتتاب المالي. قد تكون قد لوحظت علاقة بين الهفوات العالية وحملة وثائق التأمين بمبالغ منخفضة ، فكيف يمكننا التأكد من أن الهفوات الأساسية لا تحركها مستويات الدخل بدلاً من ذلك؟
يعالج الانحدار اللوجستي هذا من خلال تخصيص قيمة عالية للميزات “القابلة للاستهلاك” والتي يمكن استبدالها بتضمين ميزات أخرى موجودة. باستخدام نفس المثال ، إذا كان مستوى الدخل المنخفض هو المحرك الحقيقي للثغرات ، فإن النموذج ثابت بين المبالغ العالية والمنخفضة المؤمن عليها ، حيث أنه على الرغم من المبالغ المنخفضة المؤمن عليها بالزلاقات المتوقعة في بعض الحالات ، فإن النموذج لا يزال متنبئًا عندما تكون هذه الميزة مغلق ويتم استخدام مستوى الدخل المنخفض (أي أن ميزة المبلغ المؤمن له تباين أعلى).
محددات
هناك بعض القيود المعروفة لتطبيق الانحدار اللوجستي (أو بشكل عام ، GLM) في الممارسة ، بما في ذلك:
- يتطلب جهدًا هندسيًا كبيرًا للميزات حيث قد يلزم تركيب الميزات يدويًا. يتضمن ذلك ملاءمة شروط التفاعل حيث قد يعتمد تأثير ميزة واحدة على مستوى ميزة أخرى. أحد الأمثلة على هذا التفاعل في سياق التأمين هو أن الزيادات في الأقساط قد تختلف حسب العمر. يزداد عدد مصطلحات التفاعل الممكنة أضعافًا مضاعفة مع عدد الميزات. بالإضافة إلى ذلك ، على الرغم من أن الانحدار اللوجستي يسمح بالتحقيق في شروط التفاعل ، فقد يكون من الصعب تفسيرها.
- المتغيرات المستقلة () من المفترض أنها مستقلة ، وقد لا يكون ذلك صحيحًا. بالنسبة لحالة استخدام التنبؤ بالهفوات ، قد تحتاج أحداث الانقضاء إلى قياسها وتقسيمها حسب الفترات الزمنية (حيث أن جميع السياسات قد انقضت بمرور الوقت) ، مما قد يؤدي إلى سياسات متداخلة في فترات مختلفة وينتج عنها ارتباطات.
ملخص
في الختام ، يوفر الانحدار اللوجستي نموذجًا أساسيًا معقولًا لمشاكل التصنيف ، حيث يتم تعديل الارتباط بين الميزات ويسمح بتفسير نموذج شامل. من الناحية العملية ، من مصلحة الممارس أن يقارن أداء نموذج الانحدار اللوجستي مع النماذج الأخرى المعروفة لحل مشاكل التصنيف (مثل النماذج القائمة على الأشجار) للحصول على أفضل الاستدلالات.
مثل ما كنت تقرأ؟ لا تتردد في زيارة ملف التعريف الخاص بي على ميديوم للمزيد!
تم نشر شرح الانحدار اللوجستي في الأصل في Towards AI on Medium ، حيث يواصل الأشخاص المحادثة من خلال تسليط الضوء على هذه القصة والرد عليها.
تم النشر عبر نحو الذكاء الاصطناعي