الأخبار التكنولوجية والاستعراضات والنصائح!

حققت بيانات مقياس الويب تقدمًا مذهلاً في مجال الذكاء الاصطناعي ، ولكن هل نحتاج حقًا إلى كل هذه البيانات؟ تعرف على SemDeDup: طريقة جديدة لإزالة الدلالات …

ستساعدك المقالة التالية: حققت بيانات مقياس الويب تقدمًا مذهلاً في مجال الذكاء الاصطناعي ، ولكن هل نحتاج حقًا إلى كل هذه البيانات؟ تعرف على SemDeDup: طريقة جديدة لإزالة الدلالات …

كان نمو التعلم تحت الإشراف الذاتي (SSL) المطبق على النماذج الأكبر والأكبر ومجموعات البيانات غير المصنفة عاملاً رئيسياً في النجاح الأخير في التعلم الآلي. على وجه الخصوص ، يتم الحصول على العديد من مجموعات البيانات الضخمة المعاصرة بحجم ويب عالمي وعادة ما تكون غير مفلترة ، باستثناء تصفية NSFW. LAION هي مجموعة بيانات عامة متعددة الوسائط تتضمن 5 مليارات زوج من الصور / النص.

غالبًا ما يتم قياس خطأ الاختبار كقانون قوة يتعلق بكمية البيانات. وقد لوحظ هذا بسبب الاهتمام المتزايد بقوانين القياس التي تتنبأ بكيفية تغير أداء النموذج في ضوء المزيد من البيانات و / أو المعلمات. ومع ذلك ، لا يمكن الحفاظ على مقياس قانون السلطة لأنه يصل بسرعة إلى نقطة انخفاض العوائد الهامشية ، حيث هناك حاجة إلى مزيد من البيانات لإجراء تحسينات أصغر في الأداء. وبالتالي ، سيكون لها تأثير كبير إذا تم تحسين كفاءة البيانات. ستسمح نفس الميزانية الحسابية للنماذج بتحقيق نفس الأداء بشكل أسرع أو أفضل.

الدراسات الحديثة كانت مدفوعة بهذه النتائج. يقترح أنه باستخدام مقياس ترتيب البيانات المثالي ، قد يكون القياس الأسي ممكنًا عن طريق تقليل بيانات التدريب باتباع معيار ذكي ، وبالتالي كسر مقياس قانون القوة فيما يتعلق بالبيانات. ومع ذلك ، هناك القليل من المعرفة حول أفضل الطرق لاختيار البيانات. قد تعطي هذه الأساليب الأولوية لواحدة من ثلاث مجموعات من القيم المتطرفة ، مرتبة تقريبًا حسب صعوبة تحديدها:

  1. التكرارات الإدراكية هي أزواج بيانات لا يمكن تمييزها فعليًا عن العين المجردة.
  2. تحتوي التكرارات الدلالية على محتوى معلومات متطابق تقريبًا ولكن يمكن تمييزها بسهولة بالعين البشرية.
  3. يختلف التكرار الدلالي عن التكرارات الدلالية لأنه لا ينتج عن نفس الأشياء. ومع ذلك ، قد لا يزال هناك الكثير من التكرار في البيانات المعروضة في مثل هذه المواقف.

بدلاً من عدم تقديم أي معلومات ، كما هو الحال مع الأنواع السابقة من البيانات ، تولد البيانات المضللة إشارة سلبية أو ضارة ، لذا فإن حذفها يحسن الأداء بدلاً من أن يكون له أي تأثير على الإطلاق.

SemDeDup ، التي اقترحها باحثون من Meta AI وجامعة ستانفورد ، هي طريقة سهلة التتبع ومباشرة من الناحية الحسابية للكشف عن التكرارات الدلالية.

البيانات المتطابقة لغويًا التي يصعب العثور عليها باستخدام خوارزميات بسيطة لإلغاء البيانات المكررة هي التركيز الأساسي لهذا الجهد. نظرًا لأنه من غير المحتمل أن تكشف قياسات مسافة الإدخال والمسافة عن تكرارات دلالية ، فإن العثور على نقاط البيانات هذه أمر صعب. تغلب الباحث على هذا التقييد من خلال استخدام مجموعة الوسائل k على نموذج مدرب مسبقًا متاح للجمهور. كانت الخطوة التالية هي تحديد السكان القريبين الذين سقطوا تحت حد معين.

من خلال حذف المعلومات الزائدة عن الحاجة ، قد يذهب القطار بسرعة أكبر. بالتناوب ، يمكن للمرء تحقيق أداء أكبر من خط الأساس ، خاصة في مهام OOD ، مع الاستمرار في الحصول على تسريع ، وإن كان أصغر من الأداء المطابق ، عن طريق إزالة عدد أقل من التكرارات. تم تقليص مجموعة التدريب من LAION إلى النصف مع عدم فقدان الأداء تقريبًا ، مما أدى إلى تعلم أسرع ونفس النتائج أو أفضل خارج التوزيع. تطبق الدراسة SemDeDup على C4 ، وهي مجموعة نصية كبيرة ، وتحقق مكاسب في الكفاءة بنسبة 15٪ بينما تتفوق في كثير من الأحيان على الأساليب السابقة لإلغاء تكرار SoTA.

يعد التخلص من الازدواجية الدلالية نقطة انطلاق جيدة لتقليل حجم البيانات ، ولكنه ليس الخيار الوحيد. هدف الفريق هو الحصول في النهاية على مجموعات بيانات أصغر بكثير ، مما يقلل وقت التدريب ويجعل الوصول إلى النماذج الضخمة أكثر سهولة.