ستساعدك المقالة التالية: الفائزون في MachineHack: كيف حصل عالم بيانات ومحلل على ترتيب ليدربورد في MH توقع هاكاثون تكلفة الطعام في المطعم
اختتمت MachineHack مؤخرًا هاكاثون التنبؤ بتكلفة الطعام في المطاعم. تحدثت مجلة Analytics India مع أصحاب مرتبة المتصدرين في الهاكاثون للتعرف على رحلة علوم البيانات الخاصة بهم وكيفية حلهم للمشكلة.
ديكشانت أغاروال
رحلة في علم البيانات:
يعمل حاليًا كعالم بيانات في شركة Fintech ناشئة ، بدأ Dikshant حياته المهنية كمصمم منتج في شركة روبوتات. بعد عام ، التحق ببرنامج الفنون الحرة يسمى Young India Fellowship في جامعة أشوكا. قبل بضعة أشهر من تخرجه هناك ، كان عليه أن يختار نوع الصناعة التي يريد العمل فيها. وقال: “لقد أحببت التكنولوجيا والطبيعة الديناميكية لها”. بعد بضع مناقشات مع زملائه الكبار في الهندسة وأصدقائه ، قرر إعطاء علم البيانات فرصة.
لقد علم نفسه بنفسه من خلال MOOCs مثل دورة Andrew Ng ML وكتب مثل مقدمة إلى التعلم الآلي مع Python بواسطة Andreas C. Muller. كما قضى وقتًا طويلاً في تعلم أساسيات برمجة بايثون. بعد تعلُّم الأساسيات ، بدأ في اختيار أنواع متنوعة من المشاريع من مصادر مختلفة عبر الإنترنت مثل Kaggle وشعر بالراحة ببطء مع العقلية التحليلية ونهج علم البيانات. في الآونة الأخيرة ، بدأ Dikshant في إجراء الهاكاثونات كطريقة لاستكشاف كيفية استخدام البيانات من قبل الصناعات المختلفة ، وتجربة طرق وأساليب جديدة لنمذجة عبارات المشكلة المختلفة هذه بشكل أفضل. يعمل حاليًا كعالم بيانات في شركة ناشئة ذات تقنية عالية.
كيف حل مشكلة MachineHack هذه:
قال Dikshant إن مجموعة البيانات المعينة للهاكاثون كانت مثيرة للاهتمام بشكل خاص لأنها تحتوي على أدق البيانات المتاحة لأي مطعم. بدأ باستكشاف كيفية ارتباط القيم الفئوية للميزات المختلفة المتاحة بالتكلفة. ساعده هذا الاستكشاف الأولي في اكتساب فهم لكيفية تنقية البيانات وتحويلها قبل النمذجة. أمضى وقتًا طويلاً في التنظيف ، وبالتالي اختبار الأداء على طرز مختلفة. لقد حاول أيضًا مناقشة بيانات الوقت ولكنه لم يستطع استخراج معلومات كافية كافية لنموذجه النهائي. انتهى لاحقًا من خلال ضبط خوارزمياته وتجميعها معًا. لهذه المشكلة ، استخدم نسخة مكدسة من Random Forest و XGBoost و Gradient Boosting و LightGBM. هذا هو الكود الموجود على GitHub الذي استخدمه سوراب في الهاكاثون.
تجربة على MachineHack:
كانت المرة الأولى التي يشارك فيها في هاكاثون MachineHack وقال إنه من الرائع حقًا رؤية العفوية والحماس من زملائه علماء البيانات الآخرين. قال Dikshant ، “كانت البيانات أيضًا ، كما ذكرنا سابقًا ،” خام “ومثيرة للاهتمام لاستكشافها وفهمها. بدا الأمر وكأنه عينة جيدة حقًا لنمذجة البيانات الأصلية ، ومن المؤكد أنها عرضت مهاراتي في استكشاف البيانات ومهاراتي. متحمس حقًا لما سيقدمه MachineHack بعد ذلك! “
سوراب كومار
رحلة في علم البيانات:
سوراب كومار هو رئيس مجموعة يعمل على تحليلات المراقبة المالية في شركة Ameriprise Financial Services Inc. وهو عالم بيانات شغوف وكان مهتمًا بالموضوع لأول مرة في عام 2014 ، عندما تعرف على خوارزمية التعلم الآلي للغابات العشوائية وما يتعلق بها. الأداء في مهام التصنيف مقارنة بالمصنفات التقليدية. منذ ذلك الحين ، يحاول الحفاظ على فضوله واتساقه في التعرف على المجال من خلال المشاركة في منصات الهاكاثون المختلفة. لقد استوحى من قدرة خوارزميات تعلم الآلة على حل مجموعة متنوعة من مشاكل العالم الحقيقي وذهلته.
كيف حل مشكلة MachineHack هذه:
في هذا التحدي ، كان هناك الكثير من ميزات البيانات غير المنظمة والمأكولات والوقت على سبيل المثال. استخدم TF-IDF لإنشاء ميزات منها. وفقًا لسوراب ، كانت هناك ميزات خام منخفضة ، لذا فقد أنشأ الكثير من الميزات التفاعلية ، والتي ساعدت نموذجه على تحديد الإشارات المخفية داخل البيانات. أثناء النمذجة ، أخذ التحويل اللوغاريتمي لـ y ونموذج مناسب على المتغير المحول. هذا ساعده على تقليل تباين المخلفات. أخيرًا ، استخدم انحدار LGBM كنموذج له. هذا هو الكود الموجود على GitHub الذي استخدمه سوراب في الهاكاثون.
تجربة على MachineHack:
شارك سوراب وحصل على أعلى المراتب في قائمة المتصدرين في العديد من هاكاثون MachineHack في الماضي. “توقع رواتب علماء البيانات في هاكاثون الهند” و “من أطلق الكلاب: هاكاثون تصنيف سلالات الحيوانات الأليفة” هما اثنان من هؤلاء. يتحدث عن تجربته على MahcineHack ، يقول سوراب ، “أحب منصة Machine Hack ، أنتم يا رفاق تنشرون مشاكل مثيرة للاهتمام والآن ازدادت المنافسة هنا ، لذا من الممتع التنافس مع بعض أفضل العقول في علم البيانات.”