▷توقع بقاء تيتانيك - II - نحو الذكاء الاصطناعي ✅

ستساعدك المقالة التالية: توقع بقاء تيتانيك – II – نحو الذكاء الاصطناعي

علم البيانات

توقع بقاء تيتانيك – II

توقع من نجا من الغرق!

في المقالة السابقة ، ناقشنا التقنيات الأساسية لتحليل البيانات الاستكشافية وتصورات البيانات والمعالجة المسبقة للبيانات الخام. لقد أنشأنا أيضًا فهمًا لأساليب هندسة ميزات جديدة معقدة من مجموعة البيانات الأصلية. علاوة على ذلك ، تمت أيضًا تغطية ممارسات تحضير البيانات الشائعة مثل ترميز الميزات والقياس القياسي.

في هذه المقالة ، دعنا نناقش بإيجاز عددًا من الخوارزميات التي يتم استخدامها على نطاق واسع للتصنيف الثنائي إلى جانب أدائها في مجموعة بيانات Titanic. علاوة على ذلك ، سنقوم بتدريب واختبار وتقييم توقعات البقاء على قيد الحياة بناءً على مقاييس مختلفة.

ما مدى صحة “”؟

في حين أن بناء نموذج التعلم الآلي لا يركز على الخوارزمية التي يجب اختيارها ، بل يركز بشكل أساسي على EDA واستخراج البيانات لأنهما يلعبان دورًا مهمًا للغاية. ستكون هناك أوقات يقدم فيها نموذجك نفس الأداء باستمرار على الرغم من توصيل خوارزميات مختلفة ؛ بدلاً من القفز من خوارزمية إلى أخرى ، يُنصح دائمًا باستخدام الممارسة التالية:

قم ببعض EDA الأساسي باستخدام SQL أو Excel أو Python / R ، مع ذلك ، يفضل.
نسب القيم المفقودة.
ارسم الميزات التي تعتبر مهمة وحاول العثور على الأنماط الأساسية.
تشفير الميزات الفئوية وتطبيع / توحيد السمات المستمرة.
اختر خوارزمية بسيطة وقم بتدريب النموذج على الفور.
إذا كنت محظوظًا ، فقد تحصل على الناتج الذي تريده من أول مرة. في هذه الحالة ، أعد تشغيل النموذج للتحقق من صحة نتائجك.
في حال انتهى بك الأمر بخيبة أمل من التشغيل الأول ، لاحظ كيف يتصرف النموذج وما إذا كنت ستحتاج إلى جمع المزيد من البيانات أو إضافة ميزات جديدة وما إلى ذلك.

Note: إذا قدمت البيانات الصحيحة إلى أي خوارزمية ، فمن الأرجح أنك ستحصل على النتيجة المفضلة لديك دون الحاجة إلى الانتقال ذهابًا وإيابًا.

المصنفات الثنائية

كان هدفنا هو تحديد الركاب بناءً على الميزات المعينة مثل وما إلى ذلك ، والذين من المرجح أن يكونوا قد نجوا من حطام السفينة. بالنسبة لمشكلة التصنيف الثنائي هذه ، دعنا ندرب خمسة مصنفين ونقارن أدائهم في مجموعة بيانات التدريب.

سنستخدم خوارزميات التعلم الخاضعة للإشراف التالية والتي يمكن أن تساعدنا في إجراء تنبؤات البقاء على مجموعة بيانات Titanic:

مصنف الغابة العشوائي
الانحدار اللوجستي
تصنيف تعزيز التدرج
دعم شاحنات النقل
نايف بايز مصنف

Random Forest هي خوارزمية تعلم مجموعة مرنة للغاية يمكن استخدامها لحل مشاكل التصنيف والانحدار باستخدام نموذج التعبئة. تقوم الخوارزمية بأخذ عينات عشوائية مع الاستبدال وتقوم بإنشاء نسخ متعددة من مجموعة البيانات. نتيجة لذلك ، يمكن الحصول على تنبؤ جديد من خلال أخذ متوسط تنبؤات العينات لأشجار الانحدار أو التصويت بالأغلبية في حالة وجود مشكلة تصنيف.

في حالتنا ، بدا الأداء العام لهذا النموذج جيدًا جدًا في مجموعة بيانات التدريب. مع وجود عدد لا بأس به من التنبؤات الصحيحة ، تمكنا من تحقيق أرقام مرضية لكل من الاستدعاء ودرجة f1. يتضح أدناه مصفوفة الارتباك التي تم الحصول عليها من هذا المصنف:

ينتمي الانحدار اللوجستي إلى فئة خوارزميات التعلم الخاضع للإشراف. على عكس ما يوحي به الاسم ، تُستخدم هذه الخوارزمية خصيصًا لعمل تنبؤات التصنيف. يهدف إلى إخراج قيمتين محتملتين بناءً على تحديد الفئة. إحدى هذه الوظائف الرياضية التي تعين القيم بين الفاصل الزمني المطلوب [0, 1] يسمى السيني. إذا عرضت هذه الوظيفة تنبؤًا أقرب إلى 0 ، فإننا نعلن أنه فئة سلبية ، بينما إذا كان التنبؤ أقرب إلى 1 ، فإنه يعتبر إيجابيًا وبالتالي فئتنا المستهدفة.

مع هذا النموذج توصلنا إلى نتيجة مماثلة إلى حد ما. ومع ذلك ، فقد أظهرت الدقة انخفاضًا طفيفًا. بوجود عدد أكبر من الإيجابيات الحقيقية ، زادت دقة نموذجنا بشكل كبير يوضح الشكل أدناه مصفوفة الارتباك التي تم الحصول عليها من هذا النموذج:

بالانتقال إلى المصنف التالي الذي يعد خوارزمية تعلم مجموعة فعالة ولكن على عكس الغابة العشوائية ، تستخدم هذه الخوارزمية تقنية التعزيز.

كما يتضح من الشكل أدناه ، فقد توقعنا بشكل صحيح عددًا جيدًا من السلبيات الحقيقية والإيجابيات الحقيقية وتفوق هذا النموذج أيضًا من حيث القيمة. علاوة على ذلك ، فقد أعطى أيضًا عددًا منخفضًا بشكل مدهش من الإيجابيات الخاطئة:

نظرًا لكونها أساسية من حيث المبدأ الرياضي ، فإن آلة المتجه الداعمة تُعرف أيضًا باسم مصنف الهامش الكبير. هناك مسافة كبيرة بين الأمثلة الإيجابية والسلبية مفصولة بحد القرار. نتيجة لذلك ، تساهم حدود القرار هذه في تعميم أفضل للأمثلة المستقبلية.

كما يوضح الشكل أدناه أن هناك عددًا كبيرًا من الملصقات التي تم توقعها بشكل خاطئ ، وبالتالي فشل هذا النموذج في تقديم تنبؤات مقبولة في حالتنا:

أخيرًا ، قمنا بتدريب البيانات باستخدام مصنف Naïve Bayes وهو خوارزمية تعلم خاضعة للإشراف فائقة البساطة. المفهوم الأساسي وراء أسلوب التصنيف هذا هو أنه يفترض أن كل ميزة تعكس إحصائيًا نظرية بايز ، أي أن كل ميزة في فئة مستقلة عن بعضها البعض.

بناءً على النتائج المستمدة من هذا النموذج ، لاحظنا أنه لم يكن قادرًا على الحفاظ على الدقة فحسب ، بل كان أيضًا الأقل كفاءة بشكل خاص من حيث المقاييس الأخرى أيضًا. وهو ما يتضح من مصفوفة الارتباك و

مقارنة الأداء

عادةً ما يتم تقييم المصنفات بناءً على مجموعة واسعة من المقاييس مثل الدقة والاسترجاع و F1-Score والدقة وما إلى ذلك. تساعدنا هذه في تحديد مدى جودة تصرف النموذج. بشكل ملموس ، إذا اعتبرنا مقياسًا واحدًا فقط كعامل حاسم ، فربما انتهى بنا الأمر إلى نتيجة مختلفة وستكون هناك دائمًا مقايضة.

علاوة على ذلك ، من المهم تحليل التصنيفات من خلال عوامل حاسمة متعددة حتى نكون أكثر ثقة بشأن اختيارنا. في وقت سابق ، قمنا بفحص مصفوفة الارتباك لكل نموذج بشكل فردي للحصول على رؤية بديهية حول الملصقات المخصصة بشكل صحيح. الآن دعونا ننظر أيضًا في بعض العوامل الأخرى لاستخلاص استنتاجات أكثر دقة. كما يتضح من الشكل أدناه ، فقد أخذنا في الاعتبار دقة مجموعة بيانات القطار والاختبار والدقة والاستدعاء ودرجة f1 لكل نموذج. ومع ذلك ، تُظهر هذه النتائج أن أرقام الدقة مقبولة نسبيًا في كل سيناريو ولكن عندما يتم وضع عوامل أخرى في الاعتبار ، فمن الواضح أن “الأداء يتفوق بشكل عام”.

يوضح الشكل أدناه مقارنة كاملة بين جميع النماذج الخمسة التي دربناها حتى الآن:

خاتمة

الآن بعد أن انتهينا من اختيار النموذج ، دعنا نمضي قدمًا في مرحلة الاختبار. توفر لنا Random Forest أيضًا خيارًا لنقتصر على الميزات التي تضيف قيمة كبيرة نحو تحديد اتجاه البيانات. فيما يلي قائمة بالميزات المهمة:

features = pd.Series (rfc.feature_importances_، index = X_train.columns) .sort_values () features.plot (kind = ‘barh’، cmap = ‘Pastel1’)

دعنا نستخدم فقط تلك التي لها قيمة 0.06 حتى نعيد تدريب نموذجنا بناءً على الميزات التي لها تأثير أكبر في البحث عن الأنماط المخفية ضمن مجموعة البيانات الخاصة بنا. إليك رابط لمشروع GitHub كمرجع.

شكرا للقراءة! ^ _ ^

تم نشر Titanic Survival Prediction – II في الأصل في Towards AI on Medium ، حيث يواصل الأشخاص المحادثة من خلال تسليط الضوء على هذه القصة والرد عليها.

تم النشر عبر نحو الذكاء الاصطناعي

توقع بقاء تيتانيك – II – نحو الذكاء الاصطناعي

علم البيانات