ستساعدك المقالة التالية: توظف مبادرة “ العثور على الخلايا العصبية في كومة قش ” في معهد ماساتشوستس للتكنولوجيا وجامعة هارفارد وجامعة نورث إيسترن تحقيقات متفرقة
من الشائع التفكير في الشبكات العصبية على أنها “مستخلصات ميزات” قابلة للتكيف تتعلم من خلال تحسين التمثيلات المناسبة تدريجياً من المدخلات الأولية الأولية. إذن ، السؤال الذي يطرح نفسه: ما هي الخصائص التي يتم تمثيلها ، وبأي طريقة؟ لفهم كيفية وصف الميزات عالية المستوى والقابلة للتفسير البشري في التنشيطات العصبية لـ LLMs ، اقترح فريق بحثي من معهد ماساتشوستس للتكنولوجيا (MIT) وجامعة هارفارد (HU) وجامعة نورث إيسترن (NEU) تقنية تسمى سبر متفرق.
بشكل قياسي ، سيقوم الباحثون بتدريب المصنف الأساسي (مسبار) على التنشيطات الداخلية لنموذج للتنبؤ بخاصية المدخلات ثم فحص الشبكة لمعرفة ما إذا كانت تمثل الميزة المعنية وأين تمثلها. تقوم طريقة الفحص المتناثر المقترحة بالتحقيق في أكثر من 100 متغير لتحديد الخلايا العصبية ذات الصلة. تتغلب هذه الطريقة على قيود طرق الفحص السابقة وتلقي الضوء على البنية المعقدة لـ LLMs. إنه يحد من المصنف الاستقصائي لاستخدام ما لا يزيد عن k الخلايا العصبية في تنبؤاته ، حيث k متغير بين 1 و 256.
يستخدم الفريق أحدث تقنيات التنبؤ المتفرقة المثلى لإثبات أفضلية k الصغيرة لمشكلة اختيار ميزة k-sparse الفرعية ومعالجة الخلط بين دقة الترتيب والتصنيف. يستخدمون التباين كتحيز استقرائي للتأكد من أن تحقيقاتهم يمكن أن تحافظ على بساطة قوية مسبقًا وتحديد الخلايا العصبية الرئيسية للفحص الحبيبي. علاوة على ذلك ، يمكن أن تولد التقنية إشارة أكثر موثوقية حول ما إذا كانت خاصية معينة يتم تمثيلها واستخدامها بشكل صريح في اتجاه مجرى النهر لأن نقص السعة يمنع تحقيقاتها من حفظ أنماط الارتباط المرتبطة بالسمات محل الاهتمام.
استخدمت مجموعة البحث LLMs محول الانحدار الذاتي في تجربتهم ، حيث أبلغوا عن نتائج التصنيف بعد تحقيقات التدريب بقيم k متفاوتة. يستنتجون على النحو التالي من الدراسة:
- تحتوي الخلايا العصبية في LLM على ثروة من البنية القابلة للتفسير ، والسبر المتناثر هو وسيلة فعالة لتحديد موقعهم (حتى في حالة التراكب). ومع ذلك ، يجب استخدامه بحذر ومتابعته بالتحليل إذا كان لابد من استخلاص استنتاجات صارمة.
- عندما يتم تنشيط العديد من الخلايا العصبية في الطبقة الأولى من أجل n-grams غير المرتبطة والأنماط المحلية ، يتم ترميز الميزات على أنها مجموعات خطية متفرقة من الخلايا العصبية متعددة المعاني. كما تقودنا إحصاءات الوزن والأفكار من نماذج الألعاب إلى استنتاج أن أول 25٪ من الطبقات المتصلة تمامًا تستخدم التراكب على نطاق واسع.
- على الرغم من أن الاستنتاجات النهائية حول monosemanticity لا تزال بعيدة المنال من الناحية المنهجية ، إلا أن الخلايا العصبية أحادية الدلالة ، خاصة في الطبقات الوسطى ، تقوم بترميز الخصائص السياقية واللغوية ذات المستوى الأعلى (مثل is_python_code).
- بينما يميل التباين في التمثيل إلى الارتفاع مع زيادة حجم النماذج ، فإن هذا الاتجاه لا يصمد في جميع المجالات ؛ تظهر بعض الميزات مع الخلايا العصبية المخصصة مع زيادة حجم النموذج ، بينما ينقسم البعض الآخر إلى ميزات أدق مع زيادة حجم النموذج ، والعديد من الميزات الأخرى إما لا تتغير أو تصل بشكل عشوائي.
فوائد قليلة للسبر المتناثر
- تتم معالجة المخاطر المحتملة للخلط بين جودة التصنيف وجودة الترتيب عند التحقيق في الخلايا العصبية الفردية مع التحقيقات بشكل أكبر من خلال توفر التحقيقات مع ضمانات الأمثل.
- بالإضافة إلى ذلك ، تهدف المسابير المتفرقة إلى الحصول على سعة تخزين منخفضة ، لذلك هناك سبب أقل للإنذار حول قدرة المسبار على تعلم المهمة بنفسه.
- للتحقيق ، ستحتاج إلى مجموعة بيانات خاضعة للإشراف. ومع ذلك ، بمجرد بناء واحد ، يمكنك استخدامه لتفسير أي نموذج ، مما يفتح الباب للبحث في أشياء مثل عالمية الدوائر المكتسبة وفرضية التجريد الطبيعي.
- بدلاً من الاعتماد على التقييمات الذاتية ، يمكن استخدامه لفحص كيفية تأثير الخيارات المعمارية المختلفة على حدوث تعدد المعاني والتراكب.
التحقيق المتناثر له حدوده
- لا يمكن إجراء استنتاجات قوية إلا من فحص بيانات التجربة من خلال تحقيق ثانوي إضافي للخلايا العصبية المحددة.
- نظرًا لحساسيتها لتفاصيل التنفيذ ، والشذوذ ، والمواصفات الخاطئة ، والارتباطات المضللة في مجموعة بيانات التحقيق ، يوفر الاستقصاء رؤية محدودة فقط للسببية.
- لا سيما فيما يتعلق بقابلية التفسير ، لا تستطيع المسابير المتفرقة التعرف على الميزات التي تم إنشاؤها عبر طبقات متعددة أو التفريق بين السمات في التراكب والميزات الممثلة على أنها اتحاد للعديد من السمات المميزة والأكثر دقة.
- قد يكون التقليم التكراري مطلوبًا لتحديد جميع الخلايا العصبية المهمة إذا كان الاستقصاء المتناثر يغيب عن بعضها بسبب التكرار في مجموعة بيانات الفحص. يتطلب استخدام الخصائص متعددة الرموز معالجة متخصصة ، يتم تنفيذها بشكل شائع باستخدام التجميعات التي قد تزيد من إضعاف خصوصية النتيجة.
باستخدام تقنية فحص متفرقة ثورية ، يكشف عملنا عن ثروة من الهياكل الغنية والمفهومة من قبل الإنسان في LLMs. يخطط العلماء لبناء مستودع شامل من مجموعات البيانات الاستقصائية ، ربما بمساعدة الذكاء الاصطناعي ، والتي تسجل التفاصيل ذات الصلة بالتحيز والعدالة والسلامة واتخاذ القرارات عالية المخاطر. إنهم يشجعون الباحثين الآخرين على المشاركة في استكشاف هذا “التفسير الطموح” ويجادلون بأن النهج التجريبي الذي يستحضر العلوم الطبيعية يمكن أن يكون أكثر إنتاجية من الحلقات التجريبية للتعلم الآلي. سيسمح وجود مجموعات بيانات واسعة ومتنوعة خاضعة للإشراف بإجراء تقييمات محسنة للجيل القادم من تقنيات التفسير غير الخاضعة للإشراف والتي ستكون مطلوبة لمواكبة تقدم الذكاء الاصطناعي ، بالإضافة إلى أتمتة تقييم النماذج الجديدة.