الأخبار التكنولوجية والاستعراضات والنصائح!

تعرَّف على أفضل المنتهين في تحدي التنبؤ بشعبية البضائع

ستساعدك المقالة التالية: تعرَّف على أفضل المنتهين في تحدي التنبؤ بشعبية البضائع

مع الاختتام الناجح لهاكاثون MachineHack الآخر – تحدي التنبؤ بشعبية البضائع – في الثامن من شباط (فبراير) 2020 ، في هذه المقالة ، سوف نشارك مناهج وحلول المشاركين التي وصلت إلى قمة قائمة المتصدرين.

تمحور تحدي التنبؤ بشعبية البضائع حول التحول الهائل في سلوك المستهلكين وأنماط الشراء الخاصة بهم ، وطلب من المشاركين تطوير نموذج للتعلم الآلي يمكنه التنبؤ بمستوى شعبية البضائع. شهد هذا الهاكاثون الذي استمر أسبوعين مشاركة حوالي 700 من علماء البيانات وممارسي التعلم الآلي الذين عملوا بلا كلل من أجل بناء حلول مبتكرة لبيان المشكلة هذا.

بعد إجراء تقييم دقيق باستخدام مقياس فقدان السجل متعدد الفئات (خسارة متعددة الفئات عبر الانتروبيا) ، جنبًا إلى جنب مع درجات لوحات الصدارة الخاصة والعامة ، حدد MachineHack الفائزين الثلاثة الأوائل التالية:
اقرأ أيضا: نهج الحل لمهرجان التوظيف الهندي العظيم: رأي الفائزين

الفائز 01: سوراب ساوهني

سوراب ، من خلفية طبية ، هو جراح عيون بالتدريب. كان لديه عيادة خاصة لما يقرب من 20 عامًا في نيودلهي. ومع ذلك ، فقد كان دائمًا مهتمًا بأجهزة الكمبيوتر والرياضيات ، وما هي أفضل طريقة لجمعهما معًا من علوم البيانات.

خلال السنوات التي قضاها كجراح عيون ، تعلم MS Excel وبدأ في تطبيق قوتها لتحسين نتائج عملياته الجراحية. كما ابتكر العديد من الآلات الحاسبة التي لا تزال شائعة لدى مجتمع طب العيون حتى الآن.

في عام 2017 ، التحق ببرنامج MCA الخاص بـ IGNOU ، حيث تعلم بعض الأساسيات الأساسية ، ولكن الأهم من ذلك ، وساعده على الاعتقاد بأنه يستطيع فعل ذلك حقًا. في العام الماضي ، تخلى عن ممارسته الطبية للتركيز بإخلاص على علوم البيانات. بعد الانتهاء من MCA الخاص به ، أخذ سوراب أيضًا بعض دورات علوم البيانات عبر الإنترنت.

كونه طبيب عيون ، فإن رؤية الكمبيوتر تثيره أكثر من غيره لأنه يعتقد أن قوة الرؤية هي الوسيلة الأساسية لفهم العالم من حولنا.

وهو يعتقد أيضًا أننا بدأنا للتو في إدراك إمكانات رؤية الكمبيوتر وأننا على بعد أميال من ما هو ممكن حقًا. يأمل في المساهمة في تقدم رؤية الكمبيوتر في الأيام القادمة.

لحل تحدي التنبؤ بشعبية البضائع ، كان لدى سوراب مكونان رئيسيان في حله.

العنصر الأول هو مجموعة من الغابات العشوائية التي يحب أن يطلق عليها اسم Random Jungle. قام بإنشاء العديد من نماذج Random Forest ودمجها للحصول على تنبؤ أقوى.

كان السؤال ، كيف يمكنني الحصول على مجموعة تفرعات مختلفة من نفس البيانات؟ هل هناك نهج يمكن أن يضخ المزيد من العشوائية في غابة عشوائية؟

قرر معالجة البيانات بطرق مختلفة ، وزيادة أو تقليل عدد الأعمدة ، وتحديد المعلمات الفائقة للغابات العشوائية بشكل مختلف. وشمل ذلك إنشاء ميزات متعددة الحدود بالإضافة إلى إنشاء بعض الميزات البسيطة التي تفتقدها وظيفة كثيرة الحدود. انتهى أخيرًا بعشرة أشكال مختلفة للمعالجة المسبقة التي طبق عليها خوارزمية Random Forest ، ثم جمع فيما بعد التنبؤات الناعمة من كل غابة باستخدام القيم المتوسطة.

The Random Jungle هو نهج عام آمل أن يكون مفيدًا لمشاكل علوم البيانات في المستقبل. – أضاف صورابه

أثناء حديثه عن تجربة MachineHack ، قال سوراب: “منذ مايو 2020 ، أحاول حل مشكلات البيانات التي تقدمها Machine Hack. هناك العديد من الأشياء التي أحبها في المنصة. إنه أمر لا معنى له ، ويتم إدارته باحتراف ، كما أنه سهل الاستخدام للغاية. المشاكل صعبة ، مما يجبرني على إعادة التفكير في كل ما أعرفه في محاولة للحصول على أداء إضافي قليلاً. في رحلتي الخاصة بصفتي متحمسًا للبيانات ، استفدت بشكل كبير من صقل مهاراتي في هذه الهاكاثونات. الحقد الوحيد ، إذا كان بإمكاني تسميته ، هو العدد المحدود من الطلبات المقدمة يوميًا. إنه يمنعني من تجربة كل الأشياء التي أرغب في القيام بها ، ولكن بعد ذلك أعتقد أنه من المهم أن يكون لديك هذا الحد ، أو سنكون جميعًا نتسلق التل في مجموعة الاختبار. بشكل عام ، لقد كانت تجربة رائعة على Machine Hack. شكر ومجد للفريق الذي يقف وراءها.

اقرأ أيضا: كيف تصدع هؤلاء الفائزون هاكاثون جيثب باغز للتنبؤ

الفائز 02: ساشين ياداف

بدأ ساشين حياته المهنية كمطور تطبيقات مع خبرة في المجال المصرفي والتأمين. لقد اعتدنا الحصول على الكثير من الاستفسارات من الشركات وكانت لدينا بيانات أساسية ضخمة كان من المقرر تحليلها لحل هذه الاستفسارات. هذا هو المكان الذي بدأ فيه الاهتمام باللعب بالبيانات وأراد توليد قيمة منها. بدأ رحلته مع SAS ثم تحول تدريجياً إلى الثعبان. ثم انتقل إلى المستوى التالي عندما التحق ببرنامج الدراسات العليا في AI / ML من Great Lakes ومنذ ذلك الحين لم يكن هناك أي نظرة إلى الوراء.

لحل هذا التحدي ، قام Sachin أولاً بتصفح البيانات وتحليل الأعمدة قبل استيرادها إلى بيئة Python. يفعل هذا ليجعل نفسه مرتاحًا للبيانات التي يتم تحليلها ويرى أي أنماط واضحة جدًا فيها. على سبيل المثال ، في هذا السيناريو بالذات ، إذا كانت قيمة المتجر تساوي صفرًا ، فإن الشعبية كانت دائمًا صفرًا.

ثم بدأ بتحليل البيانات الاستكشافية والذي أصبح واضحًا أن فئة معينة من السجلات تغلبت على الباقي. قام بإسقاط التكرارات في مجموعة بيانات القطار ورسم مدى شعبية السجلات في مجموعة بيانات الاختبار إلى تلك الموجودة في Train لمطابقة السجلات.

من المفيد دائمًا محاولة القيام بذلك ؛ يمكن أن يؤدي إلى نتيجة جيدة. – أضاف ساشين

متبوعًا بإنشاء ميزة شاملة وضبط المعلمات الفائقة للنماذج المحددة (بشكل أساسي CatBoost & GradientBoosting Classifier). لكن النتيجة كانت عالقة في نقطة معينة ولم تتحسن. ثم قرر أن يقوم بتصنيف التكديس والتصويت لأفضل نموذج أداء أساسي ، وأخيراً توصل إلى مصنف تصويت مع مقدرات أساسية مثل LogisticRegression ، ExtraTreesRegressor ، CatBoostClassifier & GradientBoostingClassifier.

أثناء حديثه عن تجربته في Machinehack “أنا معجب كبير بهاكاثون Machine Hack في عطلة نهاية الأسبوع ، حيث كان نوعًا من الساحة الرياضية حيث يعمل الناس من خلفيات مختلفة بجد ويحاولون التفوق على بعضهم البعض. لقد زادوا نوعًا من مستوى الصعوبة مع هذا الهاكاثون الحالي (تحدي التنبؤ بشعبية البضائع) حيث يُسمح لك فقط ثلاث مرات في اليوم باختبار درجة نموذجك. شكرًا على كل ما اكتسبته من تعلمي من خلال هذه الهاكاثونات التنافسية.“- اختتم ساشين

اقرأ أيضا: كيف تصدع هؤلاء الفائزون هاكاثون جيثب باغز للتنبؤ

الفائز 03: أمية باتيل

الفائز الثالث ، Ameya Patil ، أكمل Btech في مجال الإلكترونيات ويعمل في MNC في تصميم المنتجات وتطويرها. إنه متحمس لاستكشاف مجالات جديدة وتقنيات جديدة. أدى شغفه بالتعلم (CV & NLP) بشكل عام ومهارات حل المشكلات إلى التعلم الآلي والتعلم العميق. مع عدم وجود خلفية كبيرة في الترميز ، فقد التحق في العديد من الدورات الضخمة على شبكة الإنترنت للتعرف على المجال المتطلب. يستخدم وقت فراغه لصقل مهاراته في التعلم الآلي والتعلم العميق بخلاف العمل بدوام كامل. يحاول قضاء معظم وقتي في القراءة حول الموضوعات أو الوقت في تنفيذ المشاريع أو المشاركة في الهاكاثون أو أي شيء يضيف إلى المعرفة ويبني على حالات الاستخدام الشاملة في مجال علم البيانات وتطوير المنتجات.

ناقشًا منهجه ، قال إن هناك الكثير من التجارب التي ينطوي عليها الوصول إلى الحل النهائي. كان هدفه أن يصنع نموذجًا بسيطًا ومعممًا ، وكان معظم حدسه حول المشاكل يضلله ؛ على سبيل المثال ، أدى التحويل اللوغاريتمي للهدف المنحرف إلى أداء أسوأ بشكل ملحوظ. حتى صنع الميزات كان صعبًا بناءً على معلومات محدودة.

كما هو الحال في هاكاثونات التعلم الآلي ، كان اختيار الميزات وهندسة الميزات أمرًا بالغ الأهمية. حاولت هندسة الميزات استخدام العديد من المكتبات الآلية ، مما جعل ميزات poly غير كافية لرفع النتيجة في موضع محترم. خاصةً الميزات مثل الوقت ، Category_1 ، Category_2 لم تكن منطقية على الإطلاق حتى نهاية الهاكاثون لتحسين النتيجة. أثناء تشغيل العديد من طرازات ExtraTreeClassifier عملت بشكل أفضل بالنسبة له في البداية. ومع ذلك ، لم يكن هذا كافيًا لزيادة المرتبة في المنافسة. لذلك كان النموذج النهائي عبارة عن مصنف تصويت مع Catboost و ExtraTreeclassifier و RandomForrestClassifieer حيث يقوم بتعيين أوزان مختلفة ودرجة محسنة في الأعلى. كان العامل الحاسم في هذا الهاكاثون هو أداة ضبط التنبؤ للتحقق من بيانات القطار والاختبار المتداخلة للتنبؤ. ساعده هذا على تحسين درجاته بشكل أكبر.

أثناء حديثه عن تجربته في Machinehack ، “يعد MachineHack منصة رائعة ، خاصة للمبتدئين. المشاكل هنا أبسط ، مما يعطي فرصة للمتعلمين الجدد لتسخير أيديهم في مشاكل التعلم الآلي. أعتزم الاستمرار في استخدام MachineHack لممارسة معرفتي وتحديثها بعلوم البيانات. حلول الفوز من الهاكاثونات السابقة هي مصدر تعليمي لا يقدر بثمن وأنا أشجع بشدة المشاركين الطموحين على الاستفادة منه. كانت منصة MachineHack لا تقدر بثمن في رحلة التعلم الخاصة بي. كل هاكاثون ينتهي بتدريس شيء جديد. يحتوي MachineHack على الكثير من المشاركين الموهوبين والمنافسة الصحية ، مما يجبر المرء حقًا على تجاوز الحدود في حل المشكلة المحددة “.