الأخبار التكنولوجية والاستعراضات والنصائح!

نظرة عامة على التصنيف المتعدد المتطرف (XML / XMLC) – نحو الذكاء الاصطناعي

ستساعدك المقالة التالية: نظرة عامة على التصنيف المتعدد المتطرف (XML / XMLC) – نحو الذكاء الاصطناعي

نُشر في الأصل في Towards AI.

من لم يكن موجودًا في Stack Overflow للعثور على إجابة لسؤال؟ يعد التنبؤ الصحيح بعلامات الأسئلة مشكلة صعبة للغاية لأنها تتضمن التنبؤ بعدد كبير من الملصقات من بين مئات الآلاف من العلامات المحتملة.

لم يتم تصميم طرق التصنيف التقليدية مثل آلات المتجهات الداعمة أو شجرة القرار للتعامل مع مثل هذا العدد الكبير من الملصقات بسبب ثلاثة تحديات رئيسية:

  • عنق الزجاجة بسبب قيود الذاكرة
  • وجود بعض الملصقات مع أمثلة قليلة جدًا (ملصقات الذيل)
  • عادة ما تكون الملصقات مترابطة ، مما يجعل من الصعب التمييز بين التسميات المختلفة

في هذه المقالة ، سأقدم نظرة عامة موجزة عن التصنيف متعدد العلامات المتطرف مع بعض التعريفات المهمة. في الجزء الثاني ، سأقدم وأشرح الفئات الأربع الرئيسية لخوارزميات XML جنبًا إلى جنب مع بعض قيودها.

نظرة عامة على XMLC

الهدف من نموذج XMLC هو التنبؤ بمجموعة من الملصقات لإدخال اختبار معين. ومع ذلك ، لا تنتج الخوارزميات النموذجية نتيجة ثنائية ، ولكن بدلاً من ذلك ، توفر درجة الملاءمة التي تكون التسميات الأكثر ملاءمة لها. هذه النقطة مهمة لأنها تحول المشكلة من مشكلة تصنيف إلى مشكلة تصنيف. لذلك ، يجب أن تعكس مقاييس التقييم لهذه الخوارزميات جانب التصنيف بدلاً من التصنيف فقط. يمكن اختيار الملصقات من خلال تطبيق حد بسيط على القائمة المصنفة التي يوفرها النموذج.

كما ذكرنا سابقًا ، لا يتم توزيع العينات والتسميات بشكل موحد في مشاكل التصنيف المتعددة الملصقات الشديدة. على سبيل المثال ، في مجموعة بيانات Wiki10–30K [1]، 1٪ فقط من الملصقات تحتوي على أكثر من 100 عينة تدريب. سيكون النموذج الذي تم تدريبه بدون خصوصية توزيع الذيل هذا متحيزًا نحو أكثر الملصقات الحالية.

لمراعاة توزيع الذيل في المقياس ، يجب استخدام المقاييس القائمة على الميل. تشبه هذه المقاييس مقاييس الترتيب النموذجية ، ولكنها تأخذ أيضًا في الاعتبار مدى جودة أداء النموذج على ملصقات الذيل. هذا يمنع النموذج من تحقيق درجة عالية من خلال التنبؤ فقط بالتسميات المتكررة. على سبيل المثال ، الإصدار المستند إلى الميل من [email protected] المقياس هو:

أين p_l يمثل ميل التسمية. وبالتالي فإن ملصقات الذيل لها درجة متضخمة في المقياس.

خوارزميات الاستشعار المضغوطة XMLC

الفكرة وراء هذا النوع من الخوارزمية هي ضغط مساحة التسمية في مساحة تضمين أصغر. نظرًا لتباين مساحة الملصق الأصلية ، فمن الممكن استرداد الملصقات الأصلية من التنبؤات في مساحة التسمية المضمنة. يمكن تحليل خوارزميات الاستشعار المضغوطة النموذجية في ثلاث خطوات:

  • : مساحة التسمية مضمنة في مساحة أصغر.
  • : تعلم التنبؤ بالعلامات المضغوطة. نظرًا لأن المساحة المضمنة صغيرة بدرجة كافية ، يمكن استخدام طرق تصنيف الملصقات النموذجية ، مثل الصلة الثنائية ، والتي تتنبأ بكل عنصر باستخدام مصنف ثنائي.
  • : إعادة المساحة المضمنة إلى المساحة الأصلية

على الرغم من أن هذه الطريقة تسمح باستخدام خوارزميات تصنيف الملصقات النموذجية نظرًا لصغر المساحة المضغوطة ، فإن حل خطوة إعادة البناء يمكن أن يكون مكلفًا من الناحية الحسابية. لذلك ، فإن تقنيات الحد من المساحة الفعالة ضرورية. حل واحد [2] هو استخدام نهج SVD (تحويل مساحة الملصق الخطي) لتضمين مساحة الملصق حيث ستأخذ في الاعتبار ارتباطات الملصقات ولكنها توفر إطارًا رسميًا لضغط مساحة التسمية الأصلية وإعادة بنائها.

تم تطوير خوارزميات استشعار مضغوطة أكثر تقدمًا من خلال مراعاة المزيد والمزيد من الارتباطات أثناء الضغط. على سبيل المثال ، من الممكن أن تأخذ في الاعتبار ليس فقط ارتباطات تسمية التسمية ولكن أيضًا ارتباطات الملصقات والميزات. يجب أن تؤدي إضافة مثل هذه المعلومات الإضافية إلى تحسين التصنيف مقارنة بالطريقة السابقة (مبدأ تحويل مساحة التسمية).

خوارزميات XMLC على أساس الجبر الخطي

تشبه الطرق القائمة على الجبر الخطي أساليب الاستشعار المضغوط ولكنها تهدف إلى تحسين التحسينات الصغيرة عليها. في هذا القسم ، سأقدم لمحة عامة عن الخوارزميات الأكثر شهرة بناءً على الجبر الخطي لأداء تصنيف متعدد العلامات.

اختيار المجموعة الفرعية: اختيار المجموعة الفرعية هو الطريقة الأكثر شيوعًا المستخدمة لإبقاء مشكلة XMLC قابلة للتتبع. تكمن الفكرة في العثور على مجموعة فرعية جيدة من الملصقات ثم تطبيق مصنف على هذه المجموعة الفرعية لتقليص التوقعات في النهاية إلى مجموعة البيانات الكاملة. لتحديد مجموعة فرعية من الملصقات ، يمكن للمرء استخدام إجراء أخذ العينات حيث يكون احتمال الملصق متناسبًا مع درجة الملصق في أفضل مجموعة فرعية ممكنة.

التحلل منخفض الرتبة: تفترض هذه الطريقة تحللاً منخفض الرتبة لمصفوفة الملصق ، ثم تستخدم إطار عمل أسلوب تقليل المخاطر لحلها. أحد التحذيرات لافتراض الرتبة المنخفضة هو أنه نظرًا لوجود القيم المتطرفة ، لا يتم التحقق من هذا الافتراض دائمًا ، حيث قد لا تمتد القيم المتطرفة في مساحة التضمين.

المسافة المحافظة على حفلات الزفاف: اسم هذه الطريقة مباشر. يتم إنشاء مساحة التضمين من خلال الحفاظ على المسافات بين الملصقات. يتم التنبؤ بعد ذلك باستخدام طريقة k-الأقرب داخل مساحة التضمين.

ملحق تكتل الميزات: هذه الطريقة أصلية لأنها تهدف إلى تقليل أبعاد مساحة الميزة مباشرة. في حالة وجود ميزة متفرقة ، توفر هذه الطريقة سرعة عالية مع أقل قدر من فقدان الدقة. يتم إجراء تقليل مساحة الميزة عن طريق تجميع مجموعات من الميزات ذات الحجم المتوازن. عادة ما يتم تنفيذ هذا التجميع باستخدام المجموعات الهرمية.

الخوارزميات المستندة إلى الشجرة

تهدف الأساليب القائمة على الشجرة إلى تقسيم مساحة التسمية بشكل متكرر لتقليل مساحة البحث أثناء التنبؤ. الفكرة هي فرز الملصقات إلى مجموعات لإنشاء مساحة. يتم بعد ذلك ربط كل علامة تعريفية بمصنف متعدد التصنيفات لتحديد العلامة الوصفية التي تنتمي إليها التسمية. داخل علامة التعريف ، نظرًا لوجود عدد أقل من الملصقات ، من الممكن استخدام المصنف الكلاسيكي للتنبؤ بالعلامة.

عادة ما تكون هذه الطرق أسرع بكثير من طريقة التضمين ، حيث يقلل الهيكل الشجري من التدريب ووقت البحث. عادة لا يكون أداؤهم أفضل من الطرق الأساسية ولكنهم يفعلون ذلك بشكل أسرع. بالإضافة إلى ذلك ، هذه الخوارزميات قابلة للتطوير بدرجة كبيرة حيث تسمح العلامات الوصفية بتكلفة تصنيف ثابتة (تسميات وصفية متوازنة).

طرق التعلم العميق

كما هو الحال في معظم مشاكل التعلم الآلي ، بدأ استخدام أساليب التعلم العميق في تصنيف الملصقات المتطرفة. ومع ذلك ، فإن استخدام مثل هذه الأساليب كان حديثًا فقط بسبب حقيقة أن الذيل الثقيل للملصقات يشير إلى وجود قدر ضئيل من بيانات التدريب المتاحة لمثل هذه الملصقات. هذا على عكس ما تتطلبه أساليب التعلم العميق. المساحة كبيرة ، ويجب أن يكون النموذج كبيرًا أيضًا.

ومع ذلك ، فإن التعلم العميق فعال للغاية في استخراج المحتوى ويعطي حفلات زفاف تمثيلية للغاية. في البداية ، تم استخدام الشبكات العصبية التلافيفية لاستخراج الزخارف ، ولكن تم القضاء على هذا النهج لأنه ثبت أنه ليس الأكثر فاعلية لحفلات الزفاف النصية. يسمى الإطار العام لأساليب التعلم العميق المطبقة على XML DeepXML وتم تعريفه بواسطة [3].

يحتوي هذا الإطار على أربع وحدات:

  • تهدف الوحدة الأولى إلى الحصول على تضمين وسيط للميزات التي سيتم استخدامها لاحقًا. قد يعني هذا تجميع الملصق أو إسقاط الملصق من أجل الحفاظ على إمكانية تتبع المشكلة.
  • تستخدم الوحدة الثانية ما يسمى أخذ العينات السلبية. يختار أخذ العينات السلبي التسميات الأكثر إرباكًا من العينة التي من المفترض أن يتم توقعها بشكل إيجابي. هذا من أجل تقليل وقت التدريب لكل ملصق ، حيث سنقوم بالتدريب على عينات صلبة فقط.
  • تقدم الوحدة الثالثة تمثيل الميزات النهائية باستخدام نقل التعلم.
  • أخيرًا ، الوحدة النهائية تتوافق مع المصنف. نظرًا لأخذ العينات السلبية ، فإن مقدار التدريب محدود ، ويمكن تتبعه بطريقة التعلم العميق.

تفوقت أساليب التعلم العميق على جميع أساليب XML الأخرى ، مثل الأساليب القائمة على الأشجار. ومع ذلك ، فإن هذا يأتي على حساب وقت التدريب ومساحة الذاكرة.

من وضع علامات على المستندات إلى توصيات المنتج والإعلان ، استخدمت XML مجموعة متنوعة جدًا من المشكلات. في الآونة الأخيرة ، تم العمل [4] في تصنيف متعدد الوسائط متطرف متعدد الوسائط. هذا الاستخدام الواسع لأساليب XML في منتجات كل يوم هو ما يتطلب المزيد من الاستكشاف لأساليب XML مثل أساليب التعلم العميق.

مراجع

[1] Bhatia، K. and Dahiya، K. and Jain، H. and Kar، P. and Mittal، A. and Prabhu، Y. and Varma، M.، 2016.

[2] بعيدة كل البعد تاي و Hsuan-Tien Lin. 2012

[3] كونال داهية ، ديباك سايني ، أنشول ميتال ، أنكوش شو ، كوشال ديف ، أكشاي سوني ، هيمانشو جاين ، سوميت أغاروال ، ومانيك فارما. 2021

[4] Dasgupta، A.، Katyan، S.، Das، S. and Kumar، P. 2023

تم النشر عبر نحو الذكاء الاصطناعي