الأخبار التكنولوجية والاستعراضات والنصائح!

Meet AttentionViz: أداة تصور تفاعلي لفحص مفاهيم الانتباه في كل من محولات اللغة والرؤية

ستساعدك المقالة التالية: Meet AttentionViz: أداة تصور تفاعلي لفحص مفاهيم الانتباه في كل من محولات اللغة والرؤية

إن البرمجة اللغوية العصبية ورؤية الكمبيوتر مجالان يؤثر فيهما تصميم الشبكة العصبية للمحولات بشكل كبير. تُستخدم المحولات حاليًا في أنظمة فعلية كبيرة يمكن الوصول إليها من قبل مئات الملايين من المستخدمين (على سبيل المثال ، Stable Diffusion و ChatGPT و Microsoft Copilot). لا تزال الأسباب الكامنة وراء هذا الإنجاز لغزًا جزئيًا ، لا سيما بالنظر إلى التطور السريع للأدوات الجديدة وحجم وتعقيد النماذج. من خلال استيعاب نماذج المحولات بشكل أفضل ، يمكن للمرء إنشاء أنظمة أكثر موثوقية وحل المشكلات والتوصية بطرق لتحسين الأشياء.

في هذه الورقة ، يناقش باحثون من جامعة هارفارد طريقة تصور جديدة لفهم عمل المحولات بشكل أفضل. إن عملية الانتباه الذاتي للمحول المميز الذي يمكّن هذه النماذج من تعلم واستغلال مجموعة واسعة من التفاعلات بين عناصر الإدخال هي موضوع بحثهم. على الرغم من أن أنماط الانتباه قد تم فحصها بدقة ، إلا أن الطرق السابقة عادةً ما تعرض فقط البيانات المرتبطة بتسلسل إدخال واحد (مثل جملة أو صورة واحدة) في كل مرة. تُظهر الطرق النموذجية أوزان الانتباه لتسلسل إدخال معين كرسم بياني ثنائي أو خريطة حرارية.

مع هذا النهج ، قد يلاحظون في وقت واحد أنماط الانتباه الذاتي للعديد من تسلسلات الإدخال من درجة أعلى من المنظور. كان نجاح أدوات مثل أطلس التنشيط ، الذي يمكّن الباحث من “التصغير” للحصول على نظرة عامة على الشبكة العصبية ثم الغوص للحصول على تفاصيل محددة ، بمثابة مصدر إلهام لهذه الإستراتيجية. إنهم يريدون إنشاء “أطلس اهتمام” من شأنه أن يزود الأكاديميين بفهم شامل لكيفية عمل رؤوس الانتباه العديدة للمحول. يتمثل الابتكار الرئيسي في تصور التضمين المشترك للاستعلام والمتجهات الرئيسية التي تستخدمها المحولات ، مما ينتج عنه علامة بصرية مميزة لكل رأس انتباه.

لإثبات منهجيتهم ، يستخدمون AttentionViz ، وهي أداة تصور تفاعلية تمكن المستخدمين من التحقيق في الانتباه في كل من محولات اللغة والرؤية. يركزون على ما يمكن أن يظهره التصور حول محولات BERT و GPT-2 و ViT لتوفير الواقعية. من خلال رؤية شاملة لمراقبة جميع رؤوس الانتباه في وقت واحد وخيار تكبير التفاصيل في رأس اهتمام معين أو تسلسل إدخال ، يتيح AttentionViz الاستكشاف عبر عدة مستويات من التفاصيل (الشكل 1). يستخدمون مجموعة متنوعة من مواقف التطبيق ، بما في ذلك AttentionViz والمقابلات مع خبراء الموضوع ، لإظهار فعالية طريقتهم.

شكل. 1: من خلال إنشاء مساحة تضمين مشتركة للاستعلامات والمفاتيح ، تتيح أداة AttentionViz ، وهي أداة التصور التفاعلي ، للمستخدمين استكشاف الانتباه الذاتي للمحول على نطاق واسع. هذه التصورات في محولات اللغة (أ) تظهر آثارًا بصرية رائعة مرتبطة بأنماط الانتباه. كما هو موضح بلون النقطة ، تشير كل نقطة في مخطط الانتشار إلى الاستعلام أو الإصدار الأساسي للكلمة.

يمكن للمستخدمين التصغير للحصول على عرض “عالمي” للانتباه (على اليمين) أو التحقيق في رؤوس الانتباه الفردية (على اليسار). (ب) تظهر أيضًا معلومات مثيرة للاهتمام حول محولات الرؤية ، مثل رؤوس الانتباه التي تصنف بقع الصورة وفقًا لتدرج اللون والسطوع ، من خلال تصوراتها. تتم الإشارة إلى حفلات الزفاف الرئيسية بحدود وردية اللون ، في حين يتم الإشارة إلى حفلات الزفاف الترقيعية بحدود خضراء. كمرجع ، عبارات من مجموعة بيانات تركيبية بتنسيق (ج) والصور (د) يتم تقديمها.

إنهم يحددون العديد من “الآثار المرئية” التي يمكن التعرف عليها والمتصلة بأنماط الانتباه في BERT ، ويحددون سلوك اللون / التردد الفريد في آلية الانتباه البصري لـ ViT ، ويحددون ربما السلوك الشاذ في GPT-2. تدعم تعليقات المستخدمين أيضًا قابلية التطبيق الأكبر لتقنيتهم ​​في تصور حفلات الزفاف المختلفة على نطاق واسع. في الختام ، تقدم هذه الدراسة المساهمات التالية:

• طريقة التصور على أساس الزخارف المشتركة مفتاح الاستعلام لفحص أنماط الانتباه في نماذج المحولات.

• سيناريوهات التطبيق ومدخلات الخبراء التي توضح كيف يمكن لـ AttentionViz تقديم رؤى فيما يتعلق بأنماط انتباه المحولات

• AttentionViz ، وهي أداة تفاعلية تطبق نهجها في البحث عن الاهتمام الذاتي في محولات الرؤية واللغة على مستويات عديدة.