الأخبار التكنولوجية والاستعراضات والنصائح!

هاكاثون جديد لعلماء البيانات – تحدي توقع أسعار العمل

ستساعدك المقالة التالية: هاكاثون جديد لعلماء البيانات – تحدي توقع أسعار العمل

توصل MachineHack ، بالاشتراك مع مجلة Analytics India Magazine ، إلى هاكاثون آخر لمجتمع التعلم الآلي – تحدي توقع أسعار العمل.

في ظل الوضع الطبيعي الجديد ، بدأت مواقع الويب المختلفة في تقديم حزم للعمل من مواقع مختلفة. يكتسب مفهوم العمل – مفتاح العمل والإجازة – رواجًا. ومع ذلك ، من الصعب العثور على مكان جيد به جميع وسائل الراحة ، بما في ذلك الإنترنت عالي السرعة وإقامة مريحة في حدود الميزانية.

وبالتالي ، لحل مشكلة العالم الحقيقي المتمثلة في العثور على أفضل الصفقات للأعمال ، يتحدى MachineHack مجتمع التعلم الآلي لبناء نموذج للتنبؤ بسعر الفرد لرحلات العمل.

لتسهيل ذلك ، جمعت MachineHack حزم عمل في الهند وحولها – بدءًا من كشمير إلى كانياكوماري ومن جوجارات إلى آسام. تحتوي البيانات على أكثر من 18000 صف من الحزم المختلفة مع تفاصيل مثل موقع البدء ونوع الفندق والتكلفة لكل شخص والوجهة ومسار الرحلة وغير ذلك الكثير. باستخدام مجموعة البيانات هذه ، جنبًا إلى جنب مع معرفة التعلم الآلي والتعلم العميق وبناء النماذج ، يحتاج المشاركون إلى إنشاء نموذج يمكنه التنبؤ بكفاءة ودقة بنفقات رحلة العمل.

سيبدأ التحدي في 26 مارس ، الجمعة ، الساعة 6 مساءً بتوقيت الهند القياسي.

نظرة عامة على الهاكاثون

يتحدى الهاكاثون المتقدم الذي استمر سبعة عشر يومًا ممارسي التعلم الآلي لتطوير نموذج تنبؤ يمكنه التنبؤ بالميزانية المطلوبة لرحلة عمل.

تحتوي مجموعة البيانات التي تم جمعها للتدريب على 21000 صف مع 15 عمودًا ، بما في ذلك عمود السعر لكل شخص كمتغير مستهدف. من ناحية أخرى ، تشتمل مجموعة البيانات الخاصة باختبار النموذج على 9000 صف من 14 عمودًا ولا تتضمن المتغير المستهدف. يتضمن وصف السمة – معرف فريد لكل عينة صف ؛ اسم الحزمة نوع الحزمة؛ نوع الحزمة السياحية ؛ وجهة؛ خط سير كامل أماكن مغطاة تاريخ السفر؛ تفاصيل الفندق تفاصيل الرحلة؛ أماكن مشاهدة المعالم مغطاة ؛ قواعد الإلغاء سعر الباقة السياحية للشخص الواحد. يأتي الهاكاثون المتقدم أيضًا مع بعض المهارات الأساسية مثل نمذجة الانحدار المتقدمة ؛ هندسة الميزات ونمذجة المجموعات.

نظرًا لأنه يتم تقييم الهاكاثون باستخدام مقياس Root Mean Squared Log Error (RMSLE) ، يجب أن يكون المشاركون على دراية بكيفية تحسينه للتعميم جيدًا على البيانات غير المرئية. يمكن للمرء استخدام np.sqrt (mean_squared_log_error (فعلي ، متوقع)) لحساب نفسه. كما يدعم الهاكاثون لوحات المتصدرين الخاصة والعامة. سيتم تقييم لوحة المتصدرين العامة على 70٪ من بيانات الاختبار ، وسيتم تقييم لوحة المتصدرين الخاصة على 100٪ من بيانات الاختبار ، والتي ستكون متاحة في نهاية الهاكاثون. سيتم تحديد النتيجة النهائية بناءً على النتيجة التي تم تحقيقها على لوحة المتصدرين العامة.

لإنشاء ملف إرسال صالح ، يجب على المشاركين استخدام نماذج scikit-Learn التي تدعم طريقة “التنبؤ ()” لإنشاء القيم المتوقعة. يجب على المشاركين إرسال ملف .csv / .xlsx يحتوي على 9000 صف بالضبط مع عرض عمود واحد “السعر لكل شخص”. سيعيد الإرسال “درجة غير صالحة” إذا أرسل المشاركون أي أعمدة أو صفوف إضافية. حد التقديم لهذا الهاكاثون هو حساب واحد لكل مشارك مع ثلاثة مشاركات في اليوم ، وبعد ذلك لن يتم تقييم التقديم.

سيسمح تغيير المستوى المتقدم لعلماء البيانات ومجتمع التعلم الآلي بالحصول على خبرة عملية في إنشاء نموذج للتعلم الآلي يحل إحدى مشكلات العالم الحقيقي الرئيسية لعام 2021. سيحصل الفائزون الثلاثة الأوائل على تصريح مجاني إلى The RISING 2021 – أكبر اجتماع للقيادات النسائية في مجال علوم البيانات.

سينتهي الهاكاثون في 12 أبريل ، الإثنين الساعة 7 صباحًا بتوقيت شرق الولايات المتحدة.

وصف مجموعة البيانات:

  • Train.csv – 21000 صف × 15 عمودًا (بما في ذلك عمود السعر لكل شخص كمتغير مستهدف)
  • Test.csv – 9000 صف × 14 عمودًا (لا يشمل المتغير الهدف)
  • نموذج Submission.csv – الرجاء مراجعة قسم “التقييم” للحصول على مزيد من التفاصيل حول كيفية إنشاء إرسال صالح

صفات:

  • معرف فريد – معرف فريد لكل عينة صف
  • اسم الحزمة – اسم حزمة الجولة
  • نوع الحزمة – نوع حزمة الجولة
  • الوجهة – مكان الوجهة
  • خط سير الرحلة – خط سير كامل
  • الأماكن المغطاة – الأماكن المغطاة في خط سير الرحلة
  • تاريخ السفر – تاريخ السفر
  • تفاصيل الفندق – تفاصيل الإقامة في الفندق
  • مدينة البداية – مكان البداية للسفر
  • شركة الطيران – تفاصيل الرحلة
  • توقف الرحلة – توقفات وسيطة إن وجدت
  • الوجبات – الوجبات أو الخدمات على متن الطائرة
  • الأماكن المغطاة لمشاهدة معالم المدينة – تفاصيل خط سير الرحلة فيما يتعلق بمشاهدة المعالم السياحية
  • قواعد الإلغاء – سياسة الإلغاء حسب شركة السفر
  • السعر للفرد – سعر حزمة الجولة للفرد (العمود المستهدف)

مهارات:

  • نمذجة الانحدار المتقدم
  • هندسة الميزات ، نمذجة المجموعات
  • تحسين RMSLE (خطأ سجل مربع متوسط ​​الجذر) كمقياس للتعميم جيدًا على البيانات غير المرئية

انقر هنا للمشاركة في الهاكاثون.