الأخبار التكنولوجية والاستعراضات والنصائح!

الفائزون في MachineHack: كيف تمكن المتحمسون لعلوم البيانات هؤلاء من حل مشكلة “توقع تكاليف هاكاثون السيارات المستعملة”

ستساعدك المقالة التالية: الفائزون في MachineHack: كيف تمكن المتحمسون لعلوم البيانات هؤلاء من حل مشكلة “توقع تكاليف هاكاثون السيارات المستعملة”

اختتمت MachineHack منافستها الخامسة عشرة الناجحة بالإعلان عن الفائزين في الهاكاثون الأخير لتوقع تكاليف السيارات المستعملة. تم إطلاق هذا الهاكاثون ، برعاية Imarticus Learning ، في يونيو وحظي بمشاركة نشطة من أكثر من 1700 مشارك ، منهم 3 فائزين.

فاز المشاركون ديفيانشو سوري وسانديب راثود وفاسيم شيخ بالمراكز الأولى والثانية والثالثة على التوالي في قائمة المتصدرين في الهاكاثون.

رقم 1: ديفيانشو سوري

الآن هو مدير أول للتعلم الآلي في AXA XL ، Divyanshu Suri ليس جديدًا على MachineHack. في العام الماضي ، فاز بجائزة How To Choose The Perfect Beer Hackathon ولا يزال على رأس قائمة المتصدرين. بعد حصوله على درجة البكالوريوس في الإحصاء من جامعة دلهي ودرجة الماجستير في الإحصاء التطبيقي من IIT Bombay ، كان Divyanshu مندهشًا من القوة الحقيقية لعلوم البيانات في وظيفته الثانية في EXL Service حيث عمل في تحليلات التأمين. ثم شارك في العديد من الهاكاثونات عبر الإنترنت لاكتساب المعرفة وتحسين مهاراته.

الآن ، بصفته مديرًا أول ، يطبق التحليلات التنبؤية لحل مجموعة متنوعة من مشاكل علوم البيانات في الخطوط التجارية والتخصصية.

نهج Divyanshu لحل المشكلة

بدأ بمحاولة إزالة الغموض عن البيانات عن طريق إجراء تحليل استكشافي. اكتشف القيم المفقودة وتنظيف البيانات غير المهيكلة. وشرح عمليته على النحو التالي:

تم تحويل المتغيرات التالية إلى رقمية من خلال تطبيق الوحدات بشكل مناسب –

  • عدد الأميال
  • محرك
  • قوة
  • سعر جديد

إنشاء المتغيرات الوهمية للمتغيرات التالية –

  • موقع
  • نوع الوقود
  • الانتقال
  • المالك_نوع

تفتقد المتغيرات التالية المحسوسة إلى قيم بناءً على متغيرات أخرى –

  • عدد الأميال
  • محرك
  • قوة
  • مقاعد

لم أستخدم “الاسم” كما هو الحال في النماذج ، بل استخرجت ميزتين متتاليتين منه –

  • اسم الشركة (مثل هوندا ، ماروتي ، هيونداي ، إلخ)
  • اسم السيارة (Amaze ، Alto ، Innova ، Jazz ، إلخ)

تم إنشاؤها في السنوات السابقة (1،2،3 & الكل) متوسط ​​السعر ، الحد الأدنى للسعر والحد الأقصى للسعر من خلال المتغيرات التالية –

  • اسم
  • الطاقة (بعد تجميعها في صناديق)
  • المحرك (بعد تجميعه في صناديق)
  • اسم الشركة

تم تقدير القيم المفقودة لـ “New_Price” من خلال إنشاء نموذج XgBoost منفصل باستخدام إستراتيجية تحقق من صحة 5 أضعاف.

متغير استجابة: نظرًا لأن مقياس التقييم كان RMSLE ، فقد استخدمت تحويل السجل (X + 1) في جميع نماذجي ، باستثناء 2 ، حيث استخدمت Power of 0.1 كتحول (كان الهدف هو إنشاء نماذج متنوعة للمجموعة).

استراتيجية التحقق من الصحة: نظرًا لأن حجم مجموعة بيانات التدريب لم يكن كبيرًا بما يكفي ، فقد استخدمت إستراتيجية تحقق 5 أضعاف واخترت بذرة كانت تمنحني النتيجة الأقرب إلى لوحة المتصدرين. لقد استخدمت أيضًا نفس البذرة لتقسيم مجموعة البيانات عبر جميع النماذج.

النمذجة: لقد بدأت بتجربة تقنيات نموذجية مختلفة لأنني أردت معرفة التقنية التي أعطتني أفضل نتيجة. لذلك ، جربت Linear Regression ، Lasso ، Ridge ، Random Forest ، XgBoost ، Light GBM ، Neural Nets ، إلخ … أعطاني XgBoost و Light GBM أفضل النتائج ثم ذهبت معظم طاقتي إلى تحسين المعلمات لكليهما.

سجل أفضل نموذج XgBoost فردي لدي 0.9464 على لوحة المتصدرين ونموذج Light GBM الفردي سجل 0.9463 على لوحة المتصدرين. أيضًا ، حصلت على 0.9473 في لوحة الصدارة من خلال أخذ 6 نماذج في المتوسط.

النموذج النهائي: استلهم نموذج مجموعتي الأخير من الحل الذي استخدمه الفريق الفائز بمسابقة Netflix (“الفوضى البراغماتية من BellKor’s”) في عام 2009 ، حيث استخدموا الدروس المستفادة من نتيجة لوحة المتصدرين للعثور على معاملات تنبؤات النماذج المختلفة في نموذج المجموعة.

انقر هنا لعرض الكود.

رقم 2: سانديب راثود

تعرّف سانديب على علوم البيانات من قبل زملائه في إنفوسيس ، وأصبح شغفه هو الاستمتاع بالمزيج الصحيح من الرياضيات والتحليل. رغبته في معرفة المزيد والارتقاء بشغفه الجديد ، انضم إلى أكاديمية UpX التي منحته الأدوات المناسبة والثقة للفوز في الهاكاثون. Sandeep هو الآن مدير المشروع في Infosys.

اقترب Sandeep من تحقيق النصر في هاكاثونات أخرى في MachineHack وهو على دراية بالمنصة. قال “حالات استخدام MachineHack هي تشجيع جيد للأشخاص الساذجين مثلي. أود أن أشكرهم على إثبات مثل هذه المنصة للمنافسة وتعلم التعلم الآلي “.

نهج لحل المشكلة:

كان نهج سانديب في التعامل مع المشكلة صريحًا. قدم المزيد من التركيز على إسناد القيم المفقودة وتوليد الميزات. لقد كان يركز على ميزة معينة واحدة “New_Price” والتي تحتوي على نسبة كبيرة من القيم المفقودة في مجموعة البيانات. أرجع القيم المفقودة من خلال مقارنة العلامة التجارية والطراز والسعر لنفس السيارات. قضى معظم وقته في تنظيف البيانات لأنه يعتقد أن البيانات النظيفة ستوفر نتائج أكثر دقة ، والتي آتت أكلها بالكامل.

انقر هنا لعرض الكود.

# 3: فاسم شيخ

بعد حصوله على درجة الماجستير في العلوم المالية وخلفية صفرية في برمجة الكمبيوتر ، بدأ شغف فاسيم بعلوم البيانات بدافع الفضول. لقد عمل مع الأرقام وكان ذلك هو العامل الوحيد الذي يربطه بالبيانات ، فقد استمتع باللعب بها ، وتوليد الأفكار ، وشرح الأنماط المعقدة من خلال التصورات والتنبؤ بالأرقام. حثه فضوله على تعلم المزيد من جميع الموارد المتاحة مثل MOOCs والكتب.

أصبح فاسيم الآن خبيرًا في تحليل واستكشاف ومناقشة البيانات الجدولية ، وقد نقلته مهاراته في التعامل مع البيانات والأرقام إلى منصب مدير إستراتيجية وتحليلات البيانات في Willis Tower Watson.

مثل الفائزين الآخرين ، Vasim هو أيضًا مستخدم منتظم في MachineHack بعد أن شارك في العديد من Hackathons. وعند سؤاله عن تجربته في MachineHack ، أجاب قائلاً “إنها منصة رائعة ، حيث يمكن لعالم البيانات الناشئ عرض مهاراته وتطويره وتعلمه. تقنيات “

نهج لحل المشكلة:

بدأ Vasim بتوليد الميزات واستخراج أكبر قدر ممكن من المعلومات من مجموعة معينة من البيانات. فيما يلي خطوات منهجه كما أوضحه.

خطوات المعالجة المسبقة:

  • الشركة المصنعة والعلامات التجارية المستخرجة من الاسم.
  • استخرج المتغيرات ، مهما استطعت
  • تحويل السنة إلى عمر السيارة
  • تنظيف المحرك والأميال ومتغيرات القوة
  • تحول السجل إلى المحرك والطاقة ، وهذا يزيد من الارتباط
  • تنسب القيم المتوسطة للمحرك القيم المفقودة
  • تم استخدام تنبؤ الانحدار الخطي في احتساب الطاقة (تم استخدام المحرك كمتغير X)
  • تستخدم القسمة على المتغيرات المختلفة. على سبيل المثال المحرك / الطاقة ، KM_driven / Age ، إلخ

نموذج:

  • تم تقسيم البيانات إلى طبقات على متغيرات نوع الوقود وناقل الحركة والمقاعد
  • تم استخدام 25 كيسًا من XGBoost ، معلمات فائقة مشتقة من التحقق من صحة 5 أضعاف

انقر هنا لعرض الكود.