ستساعدك المقالة التالية: رحلة بصرية في ما يراه محولات الرؤية – نحو الذكاء الاصطناعي
نُشر في الأصل على نحو AI ، الشركة الرائدة في العالم في مجال الذكاء الاصطناعي والأخبار التقنية والإعلام. إذا كنت تقوم ببناء منتج أو خدمة متعلقة بالذكاء الاصطناعي ، فنحن ندعوك للتفكير في أن تصبح راعيًا للذكاء الاصطناعي. في نحو الذكاء الاصطناعي ، نساعد في توسيع نطاق الشركات الناشئة في مجال الذكاء الاصطناعي والتكنولوجيا. دعنا نساعدك على إطلاق التكنولوجيا الخاصة بك للجماهير.
كيف ترى بعض أكبر العارضات العالم
سمح لنا تصور CNN بمعرفة المزيد حول كيفية عمل هذه النماذج. الآن بعد أن أخذت Vision Transformers المسرح ، تشرح مقالة جديدة كيف يمكننا أن نرى ما تنظر إليه هذه النماذج العريضة للعالم.
تصور محولات الرؤية
منذ الشبكات العصبية الالتفاف (CNN) كنموذج ناجح في رؤية الكمبيوتر ، ركزت مجموعات بحثية مختلفة على فهم ما تتعلمه هذه النماذج.
من ناحية أخرى ، ظهرت الشبكات العصبية في عدة مجالات (من تحليل اللغة إلى رؤية الكمبيوتر) ولكنها اعتبرت “الصناديق السوداء”. على عكس العديد من الخوارزميات الأخرى ، يصعب تفسيرها. في الواقع ، كلما أصبحت النماذج أكثر قدرة (نمو في عدد المعلمات) ، زادت صعوبة القدرة على فهم ما يجري في الداخل.
لذلك ، تم تطوير عدة طرق لتصور ما تتعلمه الشبكة العصبية التلافيفية. بعضًا من أكثرها استخدامًا:
- تصور المرشحات (أو تصور الأوزان).
- تصور تنشيط الطبقة
- لاسترداد صورة تنشط الخلية العصبية إلى أقصى حد
- تضمين نواقل الميزة مع t-SNE.
- GradCAM ، خرائط الملوحة.
في عام 2016 ، ظهرت المحولات على الساحة. وقد ثبت أن هذه النماذج الواسعة القائمة على الاهتمام الذاتي تحقق أداءً فائقًا في البرمجة اللغوية العصبية (الترجمة الآلية ، وتصنيف اللغة ، وما إلى ذلك). وسرعان ما أصبحوا معيار البرمجة اللغوية العصبية ، ومع إدخال محولات الرؤية ، تم تطبيقها أيضًا على رؤية الكمبيوتر.
لذلك حاول باحثون مختلفون تخيل ماذا محولات الرؤية (ViTs) تعلم. لقد ثبت أن تحليل ViTs أكثر صعوبة بكثير ، وحتى الآن ، أظهرت الطرق المستخدمة قيودًا. قد يكون فهم الأعمال الداخلية لهذه النماذج مفيدًا في شرح نجاحها وحالات الزاوية المحتملة.
ركز العمل السابق على مراقبة تنشيط المفاتيح والاستعلامات والقيم من طبقة الانتباه الذاتي ، لكن النتيجة كانت غير ناجحة.
تم نشر ورقة مؤخرا من قبل باحثين في جامعة نيويورك وجامعة ماريلاند يوفر فهمًا أفضل لما يحدث داخل النموذج (سواء كانت محولات رؤية أو نماذج مثل CLIP).
في المقال ، لخص الباحثون مساهمتهم:
- بينما تؤدي الطرق القياسية إلى نتائج غير قابلة للتفسير (خاصة عند تطبيقها على المفاتيح والاستعلامات والقيم) ، فمن الممكن الحصول على تصورات مفيدة من خلال تطبيق نفس الأساليب على طبقة التغذية الأمامية التالية من نفس كتلة المحول (وقد أظهروا ذلك باستخدام نماذج مختلفة: محولات ViTs و DeiT و CoaT و ConViT و PiT و Swin و Twin).
- تتصرف أنماط تنشيط الصورة الحكيمة لميزات ViT مثل خرائط الملوحة التي توضح أن النموذج يحافظ على العلاقات الموضعية بين البقع (ويتعلم ذلك أثناء التدريب).
- تقوم CNN و ViTs ببناء تمثيل معقد وتقدمي (في شبكات CNN ، تمثل الطبقات الأولى الحواف والأنسجة ، بينما تتعلم الطبقات اللاحقة أنماطًا أكثر تعقيدًا ، ويظهر المؤلفون أن الشيء نفسه يحدث في ViTs). ViTs ، على عكس CNN ، أكثر قدرة على استخدام المعلومات الأساسية.
- طبق المؤلفون أيضًا طريقتهم على النماذج باستخدام الإشراف اللغوي (مثل CLIP) وأظهروا أنه يمكن استخراج الميزات من هذه النماذج المرتبطة بنص التسمية التوضيحية (مثل حروف الجر والصفات والفئات المفاهيمية).
قارن المؤلفون ViTs بالشبكات التلافيفية ولاحظوا أن التمثيل يزداد في التعقيد على طول النمط (تتعلم الطبقات السابقة هياكل أبسط بينما يتم تعلم الأنماط الأكثر تعقيدًا بواسطة طبقات أكثر تقدمًا). في الممارسة العملية ، تتشارك كل من CNN و ViTs فيما يسمى بالتخصص التدريجي.
هناك أيضا اختلافات. حقق المؤلفون في اعتماد ViTs و CNNs على ميزات الصورة الخلفية والأمامية (باستخدام المربعات المحيطة على ImageNet). يمكن لـ ViTs اكتشاف معلومات الخلفية الموجودة في الصورة (في الصورة ، على سبيل المثال ، العشب والثلج). بالإضافة إلى ذلك ، أظهر الباحثون ذلك من خلال إخفاء الخلفية أو المقدمة في الصورة لا تستخدم ViTs معلومات الخلفية بشكل أفضل فحسب ، بل إنها أيضًا أقل تأثراً بإزالتها.
نجد أنه من المدهش أنه على الرغم من أن كل رقعة يمكن أن تؤثر على تمثيل كل رقعة أخرى ، إلا أن هذه التمثيلات تظل محلية ، حتى بالنسبة للقنوات الفردية في الطبقات العميقة في الشبكة. في حين أن اكتشافًا مشابهًا لشبكات CNN ، التي قد تحتوي عصبوناتها على مجال استقبالي محدود ، لن يكون مفاجئًا ، حتى الخلايا العصبية في الطبقة الأولى من ViT لديها مجال استقبالي كامل. بعبارة أخرى ، تتعلم ViTs الحفاظ على المعلومات المكانية ، على الرغم من افتقارها إلى التحيز الاستقرائي لشبكات CNN. المصدر: المقالة الأصلية
بمعنى آخر ، أثناء التدريب ، يتعلم النموذج كيفية الحفاظ على المعلومات المكانية. بالإضافة إلى ذلك ، تحتوي الطبقة الأخيرة بدلاً من ذلك على نمط تنشيط موحد وتتعلم كيفية تصنيف الصورة (وفقًا للمؤلفين ، فإن الطبقة الأخيرة لها وظيفة عولمة المعلومات).
استنادًا إلى الحفاظ على المعلومات المكانية في التصحيحات ، نفترض أن رمز CLS المميز يلعب دورًا ثانويًا نسبيًا في جميع أنحاء الشبكة ولا يتم استخدامه للعولمة حتى الطبقة الأخيرة.
في السنوات الأخيرة ، تم تدريب نماذج محولات الرؤية باستخدام تقنيات الإشراف اللغوي والتعلم التباين. أحد الأمثلة على ذلك هو CLIP. نظرًا لاستخدام هذه النماذج بشكل متزايد وتزايد المنافسة ، قام المؤلفون أيضًا بتحليل CLIP.
يوضح النموذج أن هناك ميزات متعلقة بالتخمينات ، مثل “قبل وبعد” أو “من أعلى”. بعبارة أخرى ، هناك ميزات تمثل الفئات المفاهيمية ويمكن تمييزها بوضوح:
تتضمن الصور السبع عالية الفعالية المقابلة من مجموعة البيانات كائنات مميزة أخرى مثل الأسلحة الدموية ، والزومبي ، والهياكل العظمية. من وجهة نظر بصرية بحتة ، تتمتع هذه الفئات بسمات متباينة للغاية ، مما يشير إلى أن هذه الميزة قد تكون مسؤولة عن اكتشاف مكونات الصورة المرتبطة على نطاق واسع بالمرض.
الاستنتاجات
لفهم ، الرؤية دائما أفضل. في السنوات الأخيرة كان هناك تركيز متزايد على الحاجة إلى تفسير النماذج. على الرغم من وجود العديد من الأساليب التي تعمل على شبكات CNN ، إلا أن القدرة على تصور ميزات ViTs لم تكن ممكنة.
لم يحدد المؤلفون طريقة تمكنهم من القيام بذلك فقط (أظهروا أنه يتعين على المرء استخدام طبقة التغذية الأمامية وليس طبقة الانتباه الذاتي) ولكن قاموا أيضًا بتحليل خصائص هذه الميزات. لقد أظهروا كيف أن النموذج قادر على تعلم العلاقات المكانية أثناء التدريب وكيف ، من ناحية أخرى ، لا تشارك الطبقة الأخيرة في هذا التمثيل المكاني.
علاوة على ذلك ، على الرغم من أن ViTs تشبه الشبكات التلافيفية ، إلا أن جزءًا من نجاحها بالنسبة للمؤلفين مستمد من كيفية الاستفادة بشكل أفضل من المعلومات المتعلقة بالخلفية. كما يوضحون أيضًا أنه عندما يتم تدريب ViTs باستخدام d مع الإشراف على نموذج اللغة ، فإنهم يتعلمون المزيد من الميزات الدلالية والمفاهيمية بدلاً من الميزات المرئية الخاصة بالكائنات.
شفرة: هنا، شرط: هنا
إذا وجدت أنه مثير للاهتمام:
يمكنك البحث عن مقالاتي الأخرى ، يمكنك أيضًا يشترك ليتم إخطاري عندما أنشر مقالات ، ويمكنك أيضًا الاتصال بي أو التواصل معي على ينكدين. شكرا لدعمك!
إليك الرابط إلى مستودع GitHub الخاص بي ، حيث أخطط لجمع التعليمات البرمجية والعديد من الموارد المتعلقة بالتعلم الآلي والذكاء الاصطناعي والمزيد.
GitHub – SalvatoreRa / درس تعليمي: دروس حول التعلم الآلي والذكاء الاصطناعي وعلوم البيانات مع شرح الرياضيات والتعليمات البرمجية القابلة لإعادة الاستخدام (بلغتي Python و R)
أو لا تتردد في مراجعة بعض مقالاتي الأخرى على موقع Medium:
نُشرت رحلة بصرية في What Vision-Transformers See في الأصل في Towards AI on Medium ، حيث يواصل الأشخاص المحادثة من خلال تسليط الضوء على هذه القصة والرد عليها.
تم النشر عبر نحو الذكاء الاصطناعي