الأخبار التكنولوجية والاستعراضات والنصائح!

تعرف على الفائزين في هاكاثون نهاية الأسبوع – تحليل المشاعر في MachineHack

ستساعدك المقالة التالية: تعرف على الفائزين في هاكاثون نهاية الأسبوع – تحليل المشاعر في MachineHack

هاكاثون عطلة نهاية الأسبوع الطبعة # 2 – انتهى تحدي تحليل المشاعر الدائمة للقرصنة الأخيرة بنجاح في 5 أغسطس 2021. تضمن التحدي إنشاء نموذج لتحليل المشاعر قابل للتطوير يُعمم جيدًا على البيانات غير المرئية. كان لديها ما يقرب من 250 مشاركًا وأكثر من 90 حلاً تم نشرها على لوحة المتصدرين.

بناءً على نتيجة لوحة المتصدرين ، لدينا أفضل 3 فائزين في تحدي تحليل المشاعر ، والذين سيحصلون على تصاريح مجانية لـ Deep Learning DevCon 2021 الافتراضي ، الذي سيعقد في 23-24 سبتمبر 2021. هنا ، نلقي نظرة على رحلات الفائزين ، نهج الحلول والخبرات في MachineHack.

أولاً جائزةشاندراشيخار كاندورو

Chandrashekhar هو متسلل متسلسل و Grand Master مع المرتبة الثانية عالميًا على منصة Machine Hack. يقول إنه بدأ المشاركة في الهاكاثون لتطوير مفاهيمه الأساسية. لقد حصل بالفعل على المركز الثالث في 8 مسابقات للتعلم الآلي ويحب حل المشكلات المعقدة.

يقترب

لقد اقترب من تحدي تحليل المشاعر من خلال المعالجة المسبقة للنص أولاً باستخدام رمز BERT. ثم قام بتدريب نموذجه باستخدام نموذج Keras Bert. إنه نموذج تعلم عميق مدرب مسبقًا يأخذ البيانات المعالجة مسبقًا إلى النموذج. قام أولاً بتجربة طول تسلسل حشو يبلغ 500 على طبقتين مخفيتين ، 64 و 32 خلية عصبية ، باستخدام “tanh” كوظيفة التنشيط. أعطت درجة خسارة لوغاريتمية قدرها 0.608. تضمنت تجربته الثانية أطوال تسلسل مختلفة (350،450،250) على مجموعات مختلفة من الطبقات المخفية ((64،64) ، (128،128) ، (128،480،384)) ، إلخ. ثم قام بعد ذلك بحساب متوسط ​​جميع الاحتمالات المتوقعة من هذه المجموعات. أعطاه هذا درجة الفوز في خسارة السجل 0.5934.

خبرة

يقول ، “MachineHack هي منصة رائعة لتعلم المزيد من المهارات من خلال الهاكاثون.”

تحقق من حله هنا.

الجائزة الثانية – ساشين ياداف

غزا Sachin Yadav علم البيانات من خلال المشاركة في الكثير من الهاكاثونات التنافسية. يرسم المناهج والأفكار ، ويكسب الحلول بفعالية من زملائه المشاركين ، ومن أحدث الموضوعات البحثية في مجال الذكاء الاصطناعي / تعلم الآلة. بالإشارة إلى الهاكاثون ، يعتقد أن التحدي كان التعامل مع مجموعة بيانات تتراوح في الطول من 1 إلى 1000 كلمة. لذلك ، يجب أن يكون نوع تقنيات المعالجة المسبقة المطبقة فعالة في الاحتفاظ بالمعلومات المهمة.

يقترب

تضمن نهج ساشين في المعالجة المسبقة للنص ما يلي:

استبدال جميع المستخدمين المميزين في مجموعات البيانات بكلمة عامة ، على سبيل المثال ، “xyz” إلى “user”

تم الاحتفاظ بجميع الإشارات إلى المواقع أثناء إزالة الارتباطات التشعبية ، وكان هذا لإبقاء مجموعة البيانات غنية عند مشاركة رابط داخل أعمدة المراجعة

تم استبدال أي شيء ليس كلمة بفراغات

لقد قام بميزة الهندسة عن طريق استخراج تضمين الكلمات ، والتي تم إدخالها في شبكة عصبية اصطناعية بسيطة للتنبؤ. تم استخدام نموذجين لاستخراج أربع زخارف (مجموعات بيانات مغطاة وغير مصقولة):

“cardiffnlp / twitter-roberta-base-sentiment”: أحدهما به مجموعة بيانات يتم تغليفه والآخر غير محدد

“إعادة صياغة-monet-base-v2”: أحدهما يحتوي على مجموعة بيانات يتم تغليفه والآخر بمجموعة بيانات غير محددة

كان الناتج النهائي عبارة عن مزيج من جميع ملفات التنبؤ الأربعة من الشبكة العصبية الاصطناعية البسيطة.

خبرة

“لطالما كانت تجربة MachineHack مثيرة للغاية لأنها توفر دائمًا مجموعة متنوعة من حالات العمل عبر مجالات مختلفة. موصى به للغاية لتحسين المهارات في مجال علوم البيانات “.

تحقق من حله هنا.

الجائزة الثالثة – جيان كومار

يعمل جيان كومار كمحلل ذكاء الأعمال. تتضمن وظيفته كميات هائلة من تحليل البيانات ورسم الرؤى واستخدام نهج التحليلات الوصفية. لمدة عام تقريبًا ، كان مدمنًا على التعلم حول التعلم الآلي والتعلم العميق. يتابع مقاطع فيديو أندرو نج على YouTube ويقضي الكثير من الوقت في Kaggle و Github. يحب البحث عن رؤية الكمبيوتر ومعالجة الصور باستخدام شبكات GAN. يطمح أن يكون عالم بيانات.

بالإشارة إلى الهاكاثون ، كانت حقيقة أن مجموعة البيانات متنوعة ، أي مزيج من التغريدات والمراجعات ، رائعة. بالإضافة إلى ذلك ، كان بناء النموذج وتحسينه أسبوعًا واحدًا فقط يمثل تحديًا كبيرًا ومبهجًا.

يقترب

قام جيان بمعالجة بياناته مسبقًا باستخدام مكتبة regex واستخدم مكتبة الرموز التعبيرية لتحويل الرموز التعبيرية إلى كلمات. أثناء استكشاف البيانات الأولية ، قام بإنشاء مجموعات كبيرة وسحب كلمات من البيانات الأولية للتحقق من الكلمات الأكثر شيوعًا وتحديد الكلمات التي يجب إزالتها. ثم حدد وظيفة التنظيف لرعاية الكلمات التي تحدث بشكل متكرر.

استخدم حفلات الزفاف BERT Word لإنشاء معرفات وأقنعة ورموز مميزة. وجد أن عدد الكلمات في بعض الجمل يتجاوز عدد الرموز التي يمكن ترميزها باستخدام BERT. لقد جرب “الحد الأقصى لعدد الرموز” للتشفير ووجد أن أداء النموذج كان متسقًا ، في مكان ما في النطاق من 160 إلى 384.

استخدم ثلاثة أنواع مختلفة من BERT:

الوزن الثقيل ”bert_ar_uncased_L-24_H-1024_A-16/1 ″

نموذج TFDistilBert

نموذج TFBert

كانت النتائج متشابهة تقريبًا ولكن مع زمن انتقال أفضل من الوزن الثقيل. ذهب مع TFBertModel للسرعة والدقة المثلى.

خبرة

“يعد MachineHack منصة رائعة لهواة التعلم الآلي. كنت أرغب في المنافسة في هاكاثون التوظيف الهندي العظيم لشهر نوفمبر 2020 ، لكنني لم أكن مستعدًا للدخول في مسابقة منذ أن بدأت التعلم مؤخرًا. هذه هي زيارتي الثانية في MachineHack هذا العام “.

تحقق من حله هنا.

مرة أخرى ، انضم إلينا في تهنئة الفائزين في هذا الهاكاثون المثير – الذين كانوا بالفعل “آخر الهاكرز الصامدين” في تحليل المشاعر – Weekend Hackathon Edition-2. في الأسبوع المقبل ، سنعود بالحلول الفائزة للتحدي المستمر – تصنيف نوع الموسيقى.