الأخبار التكنولوجية والاستعراضات والنصائح!

يشرح هذا البحث تأثير تقليل الأبعاد على الكشف الخارجى

ستساعدك المقالة التالية: يشرح هذا البحث تأثير تقليل الأبعاد على الكشف الخارجى

يعد تقليل الأبعاد المقترن بالكشف الناشز تقنية مستخدمة لتقليل تعقيد البيانات عالية الأبعاد أثناء تحديد القيم الشاذة أو القصوى في البيانات. الهدف هو تحديد الأنماط والعلاقات داخل البيانات مع تقليل تأثير الضوضاء والقيم المتطرفة.

يمكن لتقنيات تقليل الأبعاد مثل تحليل المكونات الرئيسية (PCA) و t-SNE تحويل البيانات عالية الأبعاد إلى مساحة ذات أبعاد أقل مع الحفاظ على المعلومات الأكثر أهمية. يمكن بعد ذلك تطبيق خوارزميات الكشف الخارجية على البيانات ذات الأبعاد المنخفضة لتحديد القيم القصوى التي قد تشير إلى أخطاء أو حالات شاذة أو أنماط مثيرة للاهتمام.

تقليل الأبعاد جنبًا إلى جنب مع الكشف الخارجى له تطبيقات في التمويل والطب ومعالجة الصور ومعالجة اللغة الطبيعية. يمكن استخدامه لتحديد المعاملات الاحتيالية في مجال التمويل ، واكتشاف الحالات الشاذة في بيانات المريض في الطب ، وتحديد الأنماط غير العادية في الصور في معالجة الصور ، وتحديد الأنماط غير العادية في البيانات النصية مثل رسائل البريد الإلكتروني العشوائية وتحليل المشاعر في معالجة اللغة الطبيعية.

في الآونة الأخيرة ، نشر فريق بحثي من الولايات المتحدة الأمريكية ورقة بحث في فعالية تقنيات الكشف عن الحالات الشاذة في الأبعاد الأقل ودقة تقنيات تقليل الأبعاد في تحديد القيم المتطرفة. الهدف هو فهم مقدار البيانات التي يمكن تصورها مع الحفاظ على الخصائص الخارجية.

الفكرة الرئيسية للورقة البحثية هي التحقيق في تأثير تقليل الأبعاد على دقة تقنيات الكشف الخارجة. يهدف المؤلفون إلى استكشاف مدى إمكانية تحديد القيم المتطرفة بدقة مع تقليل أبعاد البيانات. يستخدمون العديد من تقنيات تقليل الأبعاد الشائعة الاستخدام وطرق الكشف الخارجية لاختبار فرضيتهم على مجموعات بيانات حقيقية مختلفة. تكمن مساهمة الورقة في تقديم دليل تجريبي على فعالية تقنيات الكشف الخارجة في الأبعاد السفلية ودور تقليل الأبعاد في الحفاظ على الخصائص الجوهرية للقيم المتطرفة.

في هذه الدراسة التجريبية ، استكشف المؤلفون تقنيات تقليل الأبعاد المختلفة وقدرتها على اكتشاف القيم المتطرفة في مجموعات البيانات عالية الأبعاد. أجرى المؤلفون تجارب على 18 مجموعة بيانات مختلفة وقارنوا نتائج الكشف الخارجى باستخدام طرق مختلفة ، بما في ذلك Isolation Forest و PCA و UMAP و Angle Based Detective Detection (ABOD). وجدت الدراسة أن Isolation Forest و PCA كانا أفضل الطرق للكشف عن الحالات الخارجية ، مع ارتكاب Isolation Forest لأخطاء أقل عند استخدام PCA لتقليل الأبعاد. حققت الدراسة أيضًا في تأثير إضافة بُعد إضافي للمسافات الإقليدية إلى مجموعة البيانات ، مما أدى إلى زيادة عدد القيم المتطرفة الحقيقية المكتشفة. كان LOF أفضل طريقة للكشف عن القيم المتطرفة الحقيقية مقارنة بـ ABOD و Isolation Forest. ومع ذلك ، خلصت الدراسة إلى أن الطريقة لم تحفز الجودة ولكنها زادت من عدد القيم المتطرفة الحقيقية المكتشفة بشكل صحيح في كثير من الأحيان. توفر الدراسة مخططات مبعثرة ومخطط شريطي لتوضيح نتائج التجارب.

فحصت هذه الدراسة العلاقة بين تقليل الأبعاد والاكتشاف الخارجي من خلال تقييم العديد من تقنيات الكشف الخارجة المعيارية على مجموعات البيانات المختلفة باستخدام تقنيات تقليل الأبعاد الشائعة. أظهرت النتائج أنه في حين أن استقرار تقنيات الكشف الخارجة قد ينخفض ​​في المساحات ذات الأبعاد المنخفضة ، فإن قدرتها على العثور على القيم المتطرفة الحقيقية غالبًا ما تتحسن. ومع ذلك ، اقتصرت الدراسة على البيانات الرقمية وكانت تجريبية فقط. في المستقبل ، يخطط الباحثون لاستكشاف هذه المشكلة نظريًا وتوسيع دراستهم لتشمل بيانات فئوية ومختلطة. كما يخططون أيضًا للتحقيق في استخدام أحدث تقنيات الكشف عن الحالات الشاذة لتحديد القيم المتطرفة واستخدام تقليل الأبعاد لتصورها وشرحها.