الأخبار التكنولوجية والاستعراضات والنصائح!

حالة التجميع – نحو الذكاء الاصطناعي

ستساعدك المقالة التالية: حالة التجميع – نحو الذكاء الاصطناعي

نُشر في الأصل في Towards AI.

اختيار الميزة للمشكلات غير الخاضعة للرقابة: حالة التجميع

مع النمو الهائل للبيانات على مدى العقد الماضي ، أصبح اختيار الميزة الصحيحة تحديًا كبيرًا. تتكون تقنية معروفة في معالجة البيانات من تخفيض الأبعاد. تحاول هذه العملية إزالة الميزات الزائدة وغير ذات الصلة التي قد تؤدي إلى تدهور الأداء. يمكن تصنيف هذه الطرق بين ميزة استخراج / البناء و اختيار ميزة. في حالة استخراج الميزات ، يتم تقليل أبعاد البيانات عن طريق اشتقاق ميزات جديدة بناءً على الميزات الأصلية. أمثلة على هذه العملية هي تحليل المكونات الرئيسية [1] والتحليل الفردي للقيمة [2]. من ناحية أخرى ، يحاول تحديد الميزة تحديد مجموعة فرعية ، صغيرة بشكل مثالي ، من الميزات ذات الصلة. هذا النهج مطلوب عندما يكون هناك عدد كبير من الميزات في مجموعة البيانات والهدف هو تقليل التعقيد الحسابي والحصول على نماذج قابلة للتعميم.

تتطلب طرق اختيار الميزة عادةً تسميات الفصل لتحديد ما إذا كانت الميزة ذات صلة أم لا. ومع ذلك ، عندما تكون تسميات الفئة غير معروفة ، مثل المجموعات ، كيف يمكن تصنيف الميزة على أنها ذات صلة؟ يمكن تصنيف اختيار الميزة إلى أربع فئات:

  • المرشحات تحاول الطرق تحديد مجموعة ميزة فرعية مثالية وفقًا للخصائص العامة للبيانات ولكن ليس من خوارزمية التعلم. بشكل عام ، تحسب المرشحات درجة مجموعة فرعية من الميزات باستخدام معايير تقييم محددة.
  • أغلفة تحتاج الأساليب إلى متعلم لتقييم جودة مجموعات الميزات الفرعية. وبالتالي ، فهي أكثر تكلفة من الناحية الحسابية ولكنها ستزيد من أداء خوارزمية تعليمية محددة.
  • هجين تحاول الطرق الحصول على مزايا كلتا الطريقتين أعلاه من خلال دمجهما في عملية من مرحلتين.
  • مغروس طرق تضمين الميزات مباشرة في خوارزمية التعلم. ومع ذلك ، فهم في كثير من الأحيان لا يصلون إلى أداء أفضل من الأغلفة.

بعد ذلك ، سأصف طرقًا محددة لاختيار الميزات لجميع هذه الفئات المختلفة ، مع إبراز وقت وكيفية استخدامها.

نهج التصفية

تحدد المرشحات ميزات في البيانات وفقًا لخصائص الميزات. يقومون بشكل مباشر بتقييم الأداء الإحصائي للميزات في البيانات. نهج مرشح مقترح [3] هو قياس التبعيات بين الميزات بناءً على مقياس قائم على التباين (مؤشر ضغط المعلومات الأقصى ، MICI). يقسم هذا النهج الميزات إلى مجموعات بطريقة مشابهة لخوارزمية k- الجار الأقرب. في كل تكرار ، تم العثور على أقرب ميزات k لكل ميزة بناءً على MICI. بعد ذلك ، يتم تحديد الميزة التي تنشئ المجموعة الفرعية الأكثر ضغطًا ، ويتكرر الإجراء حتى يتم تحديد جميع الميزات أو تجاهلها.

تتمثل طريقة التصفية الأخرى في اختيار الميزات باستخدام معامل ارتباط بيرسون. أولاً ، يتم حساب جميع الارتباطات الزوجية الممكنة بين الميزات والبيانات. ثم يزيل الميزة ذات الأعلى متوسط الاعتماد على ميزات أخرى. بعد ذلك ، تتكرر العملية حتى يتم الوصول إلى عدد الميزات المطلوبة.

كما هو موضح في هذين المثالين ، عادة ما تكون طرق التصفية عامة لأنها لا تعتمد على خوارزمية تعليمية محددة. ومع ذلك ، فإن أداء التجميع الخاص بهم عادة ما يكون أقل من أداء طرق التجميع ، والذي سيكون محور التركيز في القسم التالي.

نهج الأغلفة للوسائل K

في هذا القسم ، سأركز على خوارزمية K-mean للتجميع ، حيث أن طرق الغلاف خاصة بالخوارزمية المختارة. لمزيد من التفاصيل حول النماذج الأخرى ، مثل الخوارزميات التطورية ، أوصي بالورقة التالية [4].

K-mean هي واحدة من أكثر خوارزميات التجميع شيوعًا في علوم البيانات ، ولكن أحد أوجه قصورها الرئيسية هو أنها تقيم جميع الميزات بنفس الأهمية. وبالتالي ، في حالة وجود عدد كبير من الميزات غير ذات الصلة ، ستنخفض جودة عملية التجميع. في هذا السياق ، من المفيد إعطاء ميزات معينة أهمية أكبر من خلال ترجيحها.

خوارزمية K- المحدبة [5] يحسن خوارزمية K-mean القياسية من خلال دمج مخطط الترجيح التكيفي في K-mean. يحاول تحديد الأوزان المثلى بشكل متكرر لميزة معينة عن طريق تقليل متوسط ​​المسافة داخل المجموعة. أحد التحذيرات في هذا النهج هو أن البحث عن الحدود الدنيا يمكن أن يكون عالقًا في المستوى المحلي الأمثل بسبب البحث عن النسب المتدرج.

تتمثل إحدى طرق ترجيح الميزة المعروفة الأخرى للوسائل K في تجميع ترجيح السمة. يمكن أن يكون لكل ميزة أوزان مختلفة في مجموعات مختلفة. الهدف بعد ذلك هو تقليل مجموع المسافات الموزونة داخل المجموعات. لقد نجحت هذه الطريقة والمتغيرات حقًا في التجميع ، لكنها تعتمد بشكل كبير على المعامل الفائق الذي يحافظ على الأوزان عند مستوى معقول.

المناهج المضمنة

بالنسبة للمناهج المضمنة ، يتم تنفيذ عملية اختيار الميزة كجزء من عملية التعلم. نظرًا لأدائها وقابليتها للتفسير ، عادةً ما تستخدم الأساليب المضمنة خوارزمية تعليمية متفرقة. أولاً ، يجد تسميات المجموعة باستخدام خوارزمية التجميع ، ثم يحول اختيار الميزة غير الخاضعة للإشراف إلى سياق خاضع للإشراف.

يعد اختيار ميزة المجموعات المتعددة أحد أقدم طرق اختيار ميزات التعلم المتفرقة. في الخطوة الأولى ، يتم استكشاف البنية الجوهرية للبيانات باستخدام التحليل الطيفي من أجل قياس الارتباط بين الميزات. في الخطوة الثانية ، يتم تحديد أهمية الميزات باستخدام نموذج الانحدار المنتظم L1. تتمثل الخطوة الأخيرة في اختيار عدد محدد من المعالم ذات أعلى معاملات من المرحلة السابقة. لقد ثبت أن هذا النهج فعال في اختيار الميزات للتجميع ولكنه مكلف من الناحية الحسابية.

تتكون الطريقة السابقة من نهج اختيار ميزة التعلم المتناثر التقليدي الذي يتطلب إنشاء تسميات المجموعة بواسطة خوارزمية التجميع قبل تحويل المشكلة إلى مشكلة اختيار ميزة خاضعة للإشراف. ومع ذلك ، فإن هذا النهج يميل إلى التسبب في مجموعات فرعية من الميزات غير المثلى. لمعالجة هذا الأمر ، يقوم تحديد الميزة المضمنة غير الخاضعة للإشراف بتضمين تحديد الميزة مباشرةً في خوارزمية التجميع بدون التحويل. يطبق K- الوسائل عن طريق تقليل خطأ إعادة الإعمار للحصول على تسميات الكتلة وتحديد الميزات. ومع ذلك ، من الضروري توخي الحذر بشأن عدم التجانس بين المجموعات باستخدام هذا النهج لأنه يميل إلى اختيار ميزات غير تمييزية بخلاف ذلك.

مناهج هجينة

في السنوات الأخيرة ، أصبحت الأساليب المختلطة لتحديد الميزات شائعة جدًا. يحاول أحد الأمثلة على عملية اختيار الميزة ثنائية الاتجاه إزالة الميزات الزائدة عن الحاجة باستخدام مقياس قائم على الانتروبيا ومؤشر التقييم الضبابي [6]. بعد ذلك ، يحاول تحديد مجموعة ميزة فرعية مثالية باستخدام معيار تتبع التبعثر.

طريقة أخرى شائعة لاختيار الميزات الهجينة تجمع بين شبكة Bayesian و K-mean ، خوارزمية BFK. يقوم أولاً بتنفيذ خطوة الغلاف عن طريق تطبيق K-mean مع مجموعة من المجموعات. ثم يتم انتقاء المجموعة ذات القيمة الأعلى لمؤشر Silhouette. في مرحلة التصفية ، يتم تحديد مجموعة الميزات الفرعية باستخدام شبكة Bayesian ، والتي تعتبر كل مجموعة وميزة فئة وعقدة. أحد التحذيرات هو أنه إذا لم يتم تحديد بنية الكتلة بشكل جيد باستخدام مؤشر Silhouette ، فسوف تتأثر المرحلة الثانية من الطريقة.

خاتمة

يعد اختيار الميزة أسلوبًا مهمًا في معالجة البيانات يساعد في تقليل تعقيد البيانات وتحسين أداء خوارزميات التعلم. يمكن تصنيفها إلى أربع طرق رئيسية: المرشحات ، والأغلفة ، والهجينة ، والمدمجة. تحدد المرشحات ميزات وفقًا لخصائص البيانات ، بينما تستخدم الأغلفة خوارزمية تعليمية لتقييم جودة مجموعات الميزات الفرعية. تجمع الطرق الهجينة بين المرشحات والأغلفة ، بينما تتضمن الطرق المضمنة تحديد الميزات مباشرة في خوارزمية التعلم.

يعتبر التجميع كمشكلة غير خاضعة للإشراف أصعب من التصنيف حيث ستظهر مقاييس التقييم المختلفة مستوى مختلفًا من الجودة لنفس المجموعة من المجموعات. وبالتالي ، من الصعب وضع تدابير تقييم شاملة ، لكن ذلك قد يؤدي إلى تطوير خوارزمية بحث فعالة لاختيار الميزات.

مراجع

  • [1] https://towardsdatascience.com/a-one-stop-shop-for-principal-component-analysis-5582fb7e0a9c
  • [2] https://towardsdatascience.com/understanding-singular-value-decomposition-and-its-application-in-data-science-388a54be95d
  • [3] Mitra و Pabitra و CA Murthy و Sankar K. Pal. “اختيار ميزة غير خاضعة للإشراف باستخدام تشابه الميزة.” 24.3 (2002): 301-312.
  • [4] بوب ومايكل وتوماس بريندان ميرفي ولوكا سكروكا. “التجميع المستند إلى النموذج مع مصفوفات تغاير متفرقة.” 29.4 (2019): 791-819.
  • [5] مودا ، دارمندرا س ، و دبليو سكوت سبانجلر. “ترجيح الميزة في k يعني التجميع.” 52.3 (2003): 217-237.
  • [6] بال ، سانكار ك. ، راجات ك. دي ، وجايانتا باساك. “تقييم الميزات غير الخاضع للإشراف: نهج عصبي غامض.” 11.2 (2000): 366-376.

اختيار الميزات للمشكلات غير الخاضعة للإشراف: تم نشر حالة التجميع في الأصل في Towards AI on Medium ، حيث يواصل الأشخاص المحادثة من خلال تسليط الضوء على هذه القصة والرد عليها.

تم النشر عبر نحو الذكاء الاصطناعي