ستساعدك المقالة التالية: الفائزون في MachineHack: كيف تنبأ المنشقون في الصناعة براتب علماء البيانات وربحهم كثيرًا
اختتم MachineHack مؤخرًا ملف “توقع راتب علماء البيانات في هاكاثون الهند “ وجوائز في شكل تصاريح حصرية لقمة مطوري التعلم الآلي (MLDS) ، وهي أكبر قمة في الهند لمطوري التعلم الآلي. مجلة تحليلات الهند تحدثوا إلى الفائزين في الهاكاثون للحصول على رؤى حول رحلتهم في علم البيانات وخبراتهم في المنافسة في هذا التصنيف من هاكاثون MachineHack.
ذهبت المرتبة الأولى إلى سوراب كومار ، الذي فاز بالفعل بعدة هاكاثونات على MachineHack. اهتم سوراب لأول مرة بعلوم البيانات في عام 2014 عندما سمع أن بعض خوارزمية التعلم الآلي المسماة Random Forrest تؤدي أداءً جيدًا في مهام التصنيف مقارنةً بالمصنفات التقليدية. بدأ في الاستكشاف وكان غارقًا في كمية المعلومات المتاحة عبر الإنترنت ومجموعة متنوعة من مشكلات العالم الحقيقي التي يمكننا حلها باستخدام خوارزميات التعلم الآلي هذه. منذ ذلك الحين ، حافظ على فضولي واتساقي في التعلم عن هذا المجال. لهذه المشكلة في توقع رواتب علوم البيانات ، استخدم سوراب الكثير من هندسة الميزات على ميزات النص ، مثل عدد الكلمات ، لا. من علامات الترقيم / كلمات الإيقاف ، و SVD ، و NB ، ومتجهات Word وما إلى ذلك. ثم أنشأ إستراتيجية تحقق 5 أضعاف مع نموذج Xgboost للتنبؤ. لقد حصل على درجة جيدة في LB لذلك لم يجرب أساليب التعلم العميق.
نتحدث عن تجربته في MachineHack، قال سوراب “هذا هو فوزي الثالث في MachineHack. وكانت الثلاثة مشاكل مختلفة. سمعت لأول مرة عن Machine Hack عندما نظموا Beer Hackathon ومنذ ذلك الحين وأنا أشارك في جميع هاكاثونهم. تجربتي على هذه المنصة رائعة لأنها تتطور باستمرار في إثراء تجربة المستخدم. أيضًا ، الوسطاء مفيدون حقًا وسريعون في الإجابة على استفسارات المشاركين “.
ذهبت المرتبة الثانية إلى برافين ماسك وهو مهندس ميكانيكي بالتأهيل ، Scrum master / مدير المشروع حسب المهنة وخبير الإحصاء بالشغف. لقد كان يعمل مع Infosys منذ 15 عامًا حتى الآن. بدأ مع ضجة البيانات الكبيرة في عام 2016 ولكن في النهاية دخل في علوم البيانات وقام بمجموعة متنوعة من الأشياء هنا منذ عام 2017. في البداية ، تدرب في الإحصاء والاحتمالات والجبر الخطي من مصادر مثل Udacity و edX و Khan Academy وما إلى ذلك. دورات في التعلم الآلي وعلوم البيانات من Udemy و Coursera. بعد الحصول على الإلهام من MachineHack ، أكمل الشهادات في Python وتحليلات البيانات من IIT Madras وهو الآن يتابع حاليًا MS في Analytics. النهج الذي اتبعه برافين كان كالتالي:
- بيانات: ذات أهمية قصوى أثناء حل أي مشكلة في علوم البيانات / التعلم الآلي ، لذا قضيت معظم الوقت في فهم البيانات وتنظيفها ومعالجتها وهندسة الميزات.
- الخوارزميات: بدأ بـ SVC والانحدار اللوجستي ثم XGBoost المفضل لدي ، لكن جهازي لا يمكنه تحمل هذا الحمل. أخيرًا ، جاء LightGBM (المنفذ على Google Colab’s GPU) للإنقاذ. اشتعلت فيه النيران بسرعة!
- تجميع: كان الحل النهائي عبارة عن مجموعة مكونة من 3 نماذج LightGBM جنبًا إلى جنب مع 1 نموذج الانحدار اللوجستي.
في حديثه عن MachineHack ، قال برافين ، “MachineHack عبارة عن مزيل ضغط رائع! أنا معكم منذ أول هاكاثون لكم وقد أصبح ملعبًا لي. أفكر في تغيير صفحتي الرئيسية من Google إلى MachineHack.com الآن. يقوم فريقك بعمل رائع في توفير هذه المنصة لممارسي DS / ML (ومنح جوائز مغرية). كانت تذاكر MLDS بالفعل طعمًا رائعًا !! “
المركز الثالث حصل عليه شيتان أمبي ويعمل حاليًا كرئيس تقني في شركة Infosys Ltd (ميسور) منذ حوالي 5 سنوات ولديه إجمالي تسع سنوات من الخبرة في صناعة تكنولوجيا المعلومات.
انجذب شيتان إلى التعلم الآلي منذ حوالي عام عندما شاهد عن طريق الخطأ فيديو محاضرة أندرو نج في ستانفورد للتعلم الآلي على YouTube. يقوم أندرو بعمل رائع في شرح الأشياء المعقدة بطريقة واضحة. لقد اكتسب حقًا الكثير من المعرفة من دورات التعلم الآلي والتعلم العميق على كورسيرا. أيضًا ، ساعدتني دورات Udemy من Kirill Eremenko و Jose Portilla في اكتساب فهم جيد للتعلم الآلي. إنه قارئ نهم لـ مجلة تحليلات الهند، إتقان Machinelearningmastery ، Pyimagesearch إلخ.
بدأ منهجه في حل المشكلات مع ناقل TFIDF منفصل لكل ميزة نصية ثم دمجها مع ميزة عددية (أي تجربة). في وقت لاحق ، بدأ في تجربة الجمع بين ميزتين نصيتين أو أكثر (أعمدة) في واحدة بدأت تعطي دقة جيدة. لقد جرب جميع خوارزميات التصنيف بدءًا من الانحدار اللوجستي واستقر أخيرًا مع LightGBM. لقد أمضى أيضًا وقتًا كافيًا في ضبط ناقل TFIDF و lightGBM للحصول على أفضل نتيجة لي على المتصدرين.
بالحديث عن MachineHack ، يقول شيتان ، “MachineHack عبارة عن منصة رائعة حقًا للجميع من المبتدئين إلى الخبراء لعرض مهاراتهم في علوم البيانات. أنا أستمتع حقًا بحل المشكلات المنسقة في الصناعة على MachineHack. كان هاكاثون تحديد المؤلف هو أول هاكاثون ML الذي حضرته وكوني مبتدئًا ، تمكنت من تأمين المركز الثالث. أتوقع المزيد من المشاكل الصعبة في المستقبل من MachineHack. “