الأخبار التكنولوجية والاستعراضات والنصائح!

هل يمكن أن تكون الرقع؟ يحلل نهج الذكاء الاصطناعي هذا المساهم الرئيسي في نجاح محولات الرؤية

ستساعدك المقالة التالية: هل يمكن أن تكون الرقع؟ يحلل نهج الذكاء الاصطناعي هذا المساهم الرئيسي في نجاح محولات الرؤية

كانت الشبكات العصبية التلافيفية (CNN) هي العمود الفقري لأنظمة مهام الرؤية الحاسوبية. لقد كانت بمثابة بنية الانتقال لجميع أنواع المشكلات ، من اكتشاف الكائنات إلى الدقة الفائقة للصور. في الواقع ، تم تحقيق القفزات الشهيرة (مثل AlexNet) في مجال التعلم العميق بفضل الشبكات العصبية التلافيفية.

ومع ذلك ، تغيرت الأمور عندما أظهرت بنية جديدة تستند إلى نماذج Transformer ، تسمى Vision Transformer (ViT) ، نتائج واعدة وتفوقت على البنى التلافيفية الكلاسيكية ، خاصة بالنسبة لمجموعات البيانات الكبيرة. منذ ذلك الحين ، كان المجال يتطلع إلى تمكين الحلول المستندة إلى ViT للمشكلات التي تم التعامل معها مع شبكات CNN لسنوات.

تستخدم تقنية ViT طبقات الانتباه الذاتي لمعالجة الصور ، لكن التكلفة الحسابية لهذه الطبقات ستتسع بشكل تربيعي مع عدد وحدات البكسل لكل صورة إذا تم تطبيقها بسذاجة على مستوى كل بكسل. لذلك ، تقوم تقنية ViT أولاً بتقسيم الصورة إلى بقع متعددة ، وتضمينها خطيًا ، ثم تقوم بتطبيق المحول مباشرةً على هذه المجموعة من التصحيحات.

بعد نجاح ViT الأصلي ، قامت العديد من الأعمال بتعديل بنية ViT لتحسين أدائها. استبدال الاهتمام الذاتي بعمليات جديدة ، وإجراء تغييرات صغيرة أخرى ، وما إلى ذلك. على الرغم من كل هذه التغييرات ، تتبع جميع هياكل ViT تقريبًا نموذجًا شائعًا وبسيطًا. أنها تحافظ على حجم ودقة متساوية في جميع أنحاء الشبكة وتبدي سلوكًا متباينًا ، يتم تحقيقه من خلال تنفيذ الاختلاط المكاني والقناة في خطوات متناوبة. بالإضافة إلى ذلك ، تستخدم جميع الشبكات عمليات دمج التصحيح التي تسمح بالاختزال في بداية الشبكة وتسهيل تصميم الخلط المباشر والموحد.

هذا النهج القائم على التصحيح هو خيار التصميم الشائع لجميع بنيات ViT ، مما يبسط عملية التصميم الشاملة. لذا ، يأتي السؤال. هل نجاح محولات الرؤية يرجع أساسًا إلى التمثيل القائم على التصحيح؟ أم أنه بسبب استخدام التقنيات المتقدمة والتعبيرية مثل الانتباه الذاتي و MLPs؟ ما هو العامل الرئيسي الذي يساهم في الأداء المتفوق لمحولات الرؤية؟

هناك طريقة واحدة لمعرفة ذلك ، ويتم تسميتها كونفميكسر.

كونفميكسر هي بنية تلافيفية تم تطويرها لتحليل أداء ViTs. إنه مشابه حقًا لـ ViT من نواحٍ عديدة: فهو يعمل مباشرةً على تصحيحات الصور ، ويحافظ على دقة متسقة في جميع أنحاء الشبكة ، ويفصل خلط القنوات عن المزج المكاني للمعلومات في أجزاء مختلفة من الصورة.

ومع ذلك ، فإن الاختلاف الرئيسي هو أن ملف كونفميكسر يحقق هذه العمليات باستخدام طبقات تلافيفية قياسية ، على عكس آليات الانتباه الذاتي المستخدمة في نماذج Vision Transformer و MLP-Mixer. في النهاية ، يكون النموذج الناتج أرخص من حيث قوة الحوسبة لأن عمليات الالتفاف العميقة والنقطة أرخص من طبقات الانتباه الذاتي وطبقات MLP.

على الرغم من بساطته الشديدة ، كونفميكسر يتفوق على كل من نماذج رؤية الكمبيوتر “القياسية” ، مثل ResNets ذات المعلمات المتشابهة وبعض متغيرات ViT و MLP-Mixer المقابلة. يشير هذا إلى أن بنية الخلط المتناحية القائمة على التصحيح هي بدائية قوية تعمل بشكل جيد مع أي خيار تقريبًا لعمليات الخلط حسنة التصرف.

كونفميكسر هي فئة بسيطة للغاية من النماذج التي تمزج بشكل مستقل بين المواقع المكانية والقناة لحفلات الزفاف باستخدام التلافيف القياسية فقط. يمكن أن يوفر تعزيزًا كبيرًا للأداء يمكن تحقيقه باستخدام أحجام نواة كبيرة مستوحاة من الحقول الكبيرة المستقبلة لـ ViTs و MLP-Mixers. أخيراً، كونفميكسر يمكن أن يعمل كخط أساس للبنيات المستقبلية القائمة على التصحيح مع عمليات جديدة