▷يقدم باحثو CMU Zeno: إطار عمل للتقييم السلوكي لنماذج التعلم الآلي (ML) ✅

ستساعدك المقالة التالية: يقدم باحثو CMU Zeno: إطار عمل للتقييم السلوكي لنماذج التعلم الآلي (ML)

لطالما كانت النماذج الأولية للأنظمة التي يحركها الذكاء الاصطناعي أكثر تعقيدًا. ولكن بعد استخدام النموذج الأولي لفترة من الوقت ، قد تكتشف أنه قد يكون أكثر فاعلية. يمكن صنع روبوت محادثة لتدوين الملاحظات ومحرر لإنشاء صور من النص وأداة لتلخيص تعليقات العملاء بفهم أساسي للبرمجة وبضع ساعات.

في العالم الحقيقي ، يمكن لأنظمة التعلم الآلي (ML) تضمين قضايا مثل التحيزات المجتمعية ومخاوف السلامة. من التحيز العنصري في نماذج اكتشاف المشاة إلى التصنيف الخاطئ المنهجي لصور طبية معينة ، يكشف الممارسون والباحثون باستمرار عن قيود وإخفاقات جوهرية في أحدث النماذج. يشيع استخدام تقييم السلوك أو الاختبار لاكتشاف قيود النموذج والتحقق منها. يتجاوز فهم أنماط مخرجات النموذج للمجموعات الفرعية أو شرائح بيانات الإدخال فحص المقاييس الإجمالية مثل الدقة أو درجة F1. يجب أن يعمل أصحاب المصلحة مثل مهندسي ML والمصممين وخبراء المجال معًا لتحديد الأخطاء المتوقعة والمحتملة للنموذج.

تم التأكيد على أهمية إجراء التقييمات السلوكية على نطاق واسع ، على الرغم من أن القيام بذلك لا يزال صعبًا. بالإضافة إلى ذلك ، لا تدعم العديد من أدوات التقييم السلوكي الشائعة ، مثل مجموعات أدوات الإنصاف ، النماذج أو البيانات أو السلوكيات التي يتعامل معها ممارسو العالم الحقيقي عادةً. يختبر الممارسون يدويًا الحالات المنتقاة يدويًا من المستخدمين وأصحاب المصلحة لتقييم النماذج وتحديد إصدار النشر الأمثل بشكل صحيح. يتم إنشاء النماذج بشكل متكرر قبل أن يصبح الممارسون على دراية بالمنتجات أو الخدمات التي سيتم استخدام النموذج من أجلها.

إن فهم مدى نجاح نموذج التعلم الآلي في إكمال مهمة معينة هو صعوبة تقييم النموذج. لا يمكن تقدير أداء النماذج إلا بشكل تقريبي باستخدام مؤشرات مجمعة ، تمامًا مثل اختبار معدل الذكاء ليس سوى مقياس تقريبي وغير كامل للذكاء البشري. على سبيل المثال ، يمكن أن يفشلوا في تضمين القدرات الأساسية مثل القواعد الدقيقة في أنظمة البرمجة اللغوية العصبية أو التستر على العيوب النظامية مثل التحيزات المجتمعية. تتضمن طريقة الاختبار القياسية حساب مقياس الأداء العام على مجموعة فرعية من البيانات.

تعد صعوبة تحديد الميزات التي يجب أن يمتلكها النموذج أمرًا ضروريًا في مجال التقييم السلوكي. في المجالات المعقدة ، سيكون من المستحيل اختبار قائمة المتطلبات لأنه قد يكون هناك عدد لا نهائي منها. بدلاً من ذلك ، يتعاون مهندسو ML مع خبراء المجال والمصممين لوصف القدرات المتوقعة للنموذج قبل تكراره ونشره. يساهم المستخدمون بملاحظات حول قيود النموذج والسلوكيات المتوقعة من خلال تفاعلهم مع المنتجات والخدمات ، والتي يتم تضمينها لاحقًا في تكرارات النموذج المستقبلية.

توجد العديد من الأدوات لتحديد سلوكيات النماذج والتحقق منها ومراقبتها في أنظمة تقييم غسل الأموال. تستخدم الأدوات تحويلات البيانات والتصورات لاكتشاف أنماط مثل مخاوف الإنصاف وحالات الحافة. يعمل Zeno مع أنظمة أخرى ويجمع بين أساليب الآخرين. يعد التحليل المستند إلى المجموعة الفرعية أو الشرائح ، والذي يحسب المقاييس على مجموعات فرعية من مجموعة البيانات ، أقرب طريقة لتقييم السلوك إلى Zeno. يسمح Zeno الآن بالاختبار المنزلق والمتحول لأي مجال أو نشاط.

يتكون Zeno من واجهة برمجة تطبيقات Python (API) وواجهة مستخدم رسومية (GUI) (UI). مخرجات النموذج ، والقياسات ، والبيانات الوصفية ، والحالات المعدلة ليست سوى بعض المكونات الأساسية للتقييم السلوكي التي يمكن تنفيذها كوظائف Python API. تعد مخرجات API إطار عمل لبناء الواجهة الرئيسية لإجراء التقييم والاختبار السلوكيين. هناك طريقتان رئيسيتان للواجهة الأمامية لـ zeno: واجهة مستخدم الاستكشاف ، والتي تُستخدم لاكتشاف البيانات وإنشاء الشرائح ، وواجهة مستخدم التحليل ، والتي تُستخدم لإنشاء الاختبار وإنشاء التقارير ومراقبة الأداء.

يتم توفير Zeno للجمهور عبر نص Python. الواجهة الأمامية المبنية ، المكتوبة بلغة Svelte ، تستخدم Vega-Lite للعناصر المرئية و Arquero لمعالجة البيانات ؛ هذه المكتبة مضمنة في حزمة بايثون. يبدأ المستخدمون معالجة Zeno والواجهة من سطر الأوامر بعد تحديد الإعدادات الضرورية ، بما في ذلك ملفات الاختبار ومسارات البيانات وأسماء الأعمدة في ملف تكوين TOML. إن قدرة Zeno على استضافة واجهة المستخدم كنقطة نهاية لعنوان URL تعني أنه يمكن نشرها محليًا أو على خادم مع حوسبة أخرى ، ولا يزال بإمكان المستخدمين الوصول إليها من أجهزتهم الخاصة. تمت تجربة إطار العمل هذا وإثباته من خلال مجموعات بيانات تحتوي على ملايين الحالات. وبالتالي يجب أن تتناسب بشكل جيد مع السيناريوهات التي يتم نشرها بشكل كبير.

تحتوي بيئة ML على العديد من الأطر والمكتبات ، كل منها يخدم بيانات أو نموذجًا معينًا. يعتمد Zeno بشكل كبير على نموذج يستند إلى Python وواجهة برمجة تطبيقات معالجة البيانات التي يمكن تخصيصها. طور الباحثون واجهة برمجة التطبيقات الخلفية لـ zeno كمجموعة من أساليب تزيين Python التي يمكن أن تدعم معظم نماذج ML الحديثة ، على الرغم من أن معظم مكتبات ML تعتمد على Python وبالتالي تعاني من نفس التجزئة.

أظهرت دراسات الحالة التي أجراها فريق البحث كيف عملت واجهة برمجة التطبيقات وواجهة المستخدم الخاصة بـ Zeno معًا لمساعدة الممارسين على اكتشاف عيوب النماذج الرئيسية عبر مجموعات البيانات والوظائف. بمعنى أوسع ، تشير نتائج الدراسة إلى أن إطار التقييم السلوكي يمكن أن يكون مفيدًا لمختلف أنواع البيانات والنماذج.

اعتمادًا على احتياجات المستخدم وصعوبات المهمة المطروحة ، جعلت إمكانيات Zeno المختلفة التقييم السلوكي أبسط وأسرع وأكثر دقة. استخدم المشارك في الحالة 2 قابلية توسيع API لإنشاء بيانات وصفية لتحليل النموذج. أفاد المشاركون في دراسة الحالة بصعوبة قليلة أو معدومة في دمج Zeno في تدفقات العمل الحالية وكتابة التعليمات البرمجية للتواصل مع Zeno API.

القيود والإجراءات الوقائية

إن معرفة السلوكيات الضرورية للمستخدمين النهائيين والمشفرة بواسطة نموذج يمثل صعوبة كبيرة في التقييم السلوكي. يعمل الباحثون بنشاط على تطوير ZenoHub ، وهو مستودع تعاوني حيث يمكن للمستخدمين مشاركة وظائف Zeno الخاصة بهم وتحديد موقع مكونات التحليل ذات الصلة بسهولة أكبر لتشجيع إعادة استخدام وظائف النموذج لدعم الاكتشافات.
تتمثل الوظيفة الأساسية لـ Zeno في تحديد واختبار المقاييس على شرائح البيانات ، ولكن الأداة تقدم فقط طرق عرض محدودة للشبكة والجدول لعرض البيانات والشرائح. يمكن تعزيز فائدة Zeno من خلال دعم العديد من طرق التصور القوية. قد يكون المستخدمون أكثر قدرة على اكتشاف الأنماط والسلوكيات الجديدة في بياناتهم باستخدام طرق عرض المثيلات التي تشفر أوجه التشابه الدلالية ، مثل DendroMap أو Facets أو AnchorViz. ML Cube و Neo و ConfusionFlow هي مجرد بعض التصورات لأداء ML التي يمكن لـ Zeno تعديلها لعرض سلوكيات النموذج بشكل أفضل.
في حين أن حساب Zeno المتوازي والتخزين المؤقت يسمحان له بالتوسع في مجموعات البيانات الضخمة ، فإن حجم مجموعات بيانات التعلم الآلي يتزايد بسرعة. وبالتالي فإن المزيد من التحسينات من شأنها تسريع المعالجة بشكل كبير. يمكن أن تكون المعالجة في مجموعات الحوسبة الموزعة باستخدام مكتبة مثل Ray تحديثًا مستقبليًا.
يعد التصفية المتقاطعة للعديد من الرسوم البيانية على جداول كبيرة جدًا حاجزًا آخر. قد تستخدم Zeno طريقة تحسين مثل Falcon لتسهيل التصفية المتقاطعة في الوقت الفعلي على مجموعات البيانات الضخمة.

ختاماً –

حتى إذا حقق نموذج التعلم الآلي دقة كبيرة في بيانات التدريب ، فقد يظل يعاني من إخفاقات منهجية في العالم الفعلي ، مثل التحيزات السلبية ومخاطر السلامة. يُجري الممارسون تقييمًا سلوكيًا لنماذجهم ، ويفحصون مخرجات النموذج لمدخلات معينة لتحديد ومعالجة أوجه القصور هذه. يتطلب التقييم السلوكي المهم ولكنه صعب الكشف عن أنماط العالم الحقيقي والتحقق من صحة الإخفاقات النظامية. يعد التقييم السلوكي للتعلم الآلي أمرًا ضروريًا لتحديد سلوكيات النموذج الإشكالي وتصحيحها ، بما في ذلك التحيزات ومشاكل السلامة. في هذه الدراسة ، بحث المؤلفون في صعوبات تقييم ML وطوروا طريقة عالمية لتسجيل النماذج في سياقات مختلفة. من خلال أربع دراسات حالة قام فيها الممارسون بتقييم نماذج العالم الحقيقي ، أظهر الباحثون كيف يمكن تطبيق Zeno عبر مجالات متعددة.

كثير من الناس لديهم آمال كبيرة في تطوير الذكاء الاصطناعي. ومع ذلك ، فإن تعقيد أفعالهم يتطور بنفس معدل تطور قدراتهم. من الضروري أن يكون لديك موارد قوية لتمكين التنمية المدفوعة بالسلوك وضمان بناء أنظمة ذكية تنسجم مع القيم الإنسانية. Zeno عبارة عن منصة مرنة تتيح للمستخدمين إجراء هذا النوع من الفحص المتعمق عبر مجموعة واسعة من الوظائف المتعلقة بالذكاء الاصطناعي.

يقدم باحثو CMU Zeno: إطار عمل للتقييم السلوكي لنماذج التعلم الآلي (ML)

نحن نوصيك: