الأخبار التكنولوجية والاستعراضات والنصائح!

تعرف على SparseFormer: هندسة عصبية للتعرف البصري المتقطع برموز محدودة

ستساعدك المقالة التالية: تعرف على SparseFormer: هندسة عصبية للتعرف البصري المتقطع برموز محدودة

لطالما كان تطوير الشبكات العصبية من أجل التعرف البصري موضوعًا رائعًا ولكنه صعب في رؤية الكمبيوتر. تقوم محولات الرؤية المقترحة حديثًا بتكرار عملية الانتباه البشري باستخدام عمليات الانتباه على كل رقعة أو وحدة للتفاعل ديناميكيًا مع الوحدات الأخرى. تنشئ الشبكات العصبية التلافيفية (CNNs) ميزات من خلال تطبيق المرشحات التلافيفية على كل وحدة من الصور أو خرائط المعالم. لإجراء عمليات مكثفة ، يجب أن تعبر البنى القائمة على الالتفاف والقائمة على المحولات كل وحدة ، مثل البكسل أو التصحيح على خريطة الشبكة. الانزلاق windows التي تؤدي إلى هذا المسح المكثف لكل وحدة تعكس فكرة أن العناصر الأمامية قد تظهر باستمرار حول مواضعها المكانية في الصورة.

ومع ذلك ، لا يتعين عليهم النظر في كل جانب من جوانب الموقف لتحديده لأنهم بشر. بدلاً من ذلك ، يمكنهم التعرف بسرعة على القوام والحواف والدلالات عالية المستوى داخل هذه المناطق بعد تحديد مجالات الاهتمام التمييزية على نطاق واسع بنظرات عديدة. قارن هذا مع الشبكات المرئية الحالية ، حيث من المعتاد استكشاف كل وحدة مرئية بدقة. في درجات دقة الإدخال الأعلى ، يتحمل النموذج الكثيف تكاليف حوسبة باهظة ومع ذلك لا يكشف صراحة عما ينظر إليه نموذج الرؤية في الصورة. في هذه الدراسة ، اقترح المؤلفون من Show Lab في NU Singapore ومختبر Tencent AI وجامعة Nanjing بنية رؤية جديدة تمامًا تسمى SparseFormer للتحقيق في التعرف البصري المتناثر عن طريق محاكاة الرؤية البشرية بدقة.

تسحب وحدة الالتواء المبكرة خفيفة الوزن في SparseFormer ميزات الصورة من صورة معينة. على وجه الخصوص ، منذ البداية ، يتعلم SparseFormer تمثيل الصورة عبر المحولات الكامنة وعدد صغير جدًا من الرموز (على سبيل المثال ، وصولاً إلى 49) في المساحة الكامنة. لكل رمز كامن وصف لمنطقة الاهتمام (RoI) التي يمكن شحذها عبر عدة مراحل. لإنشاء عمليات دمج رمزية كامنة بشكل متكرر ، يقوم محول التركيز الكامن بتعديل رمز RoIs للتركيز على المقدمات واسترداد ميزات الصورة بشكل ضئيل وفقًا لـ RoIs المميزة هذه. يقوم SparseFormer بتغذية الرموز المميزة بخصائص المنطقة هذه في شبكة أكبر وأعمق أو مشفر محول نموذجي في المساحة الكامنة لتحقيق التعرف الدقيق.

الرموز المميزة المقيدة في المساحة الكامنة هي الوحيدة التي تؤدي عمليات المحولات. من المناسب الإشارة إلى هندستها المعمارية كحل ضئيل لتحديد الهوية المرئية ، بالنظر إلى أن عدد الرموز المميزة الكامنة صغير للغاية وأن إجراء أخذ العينات الخاص بالميزات ضئيل (أي يعتمد على الاستيفاء الثنائي الخطي المباشر). باستثناء مكون الالتفاف المبكر ، وهو خفيف في التصميم ، فإن التكلفة الإجمالية للحوسبة لـ SparseFormer تكاد تكون غير مرتبطة بدقة الإدخال. علاوة على ذلك ، قد يتم تدريب SparseFormer بشكل كامل على إشارات التصنيف وحدها دون أي تدريب إضافي مسبق على علامات التعريب.

يهدف SparseFormer إلى التحقيق في نموذج بديل لنمذجة الرؤية كخطوة أولى نحو التعرف البصري المتناثر بدلاً من تقديم نتائج متطورة باستخدام الأجراس والصفارات. وفقًا لمعيار تصنيف ImageNet الصعب ، لا يزال SparseFormer يحقق نتائج مشجعة للغاية يمكن مقارنتها بالمكافئات الكثيفة ولكن بتكلفة حوسبة منخفضة. تكون آثار أقدام الذاكرة أصغر ، والإنتاجية أعلى من البنى الكثيفة لأن معظم مشغلي SparseFormer يعملون على الرموز المميزة في المساحة الكامنة بدلاً من مساحة الصورة الكثيفة. بعد كل شيء ، عدد الرموز المميزة مقيد. ينتج عن هذا مقايضة إنتاجية دقة أفضل ، خاصة في منطقة الحوسبة المنخفضة.

تصنيف الفيديو ، وهو أكثر كثافة للبيانات ومكلفًا من الناحية الحسابية لنماذج الرؤية الكثيفة ولكنه مناسب لبنية SparseFormer ، يمكن إضافته إلى بنية SparseFormer بفضل تصميمه المباشر. على سبيل المثال ، مع تدريب ImageNet 1K ، يحقق Swin-T المزود بـ 4.5G FLOPs 81.3 بمعدل إنتاجية أعلى يبلغ 726 صورة / ثانية. في المقابل ، فإن الاختلاف المضغوط لـ SparseFormer مع 2.0G FLOPs يحصل على دقة 81.0 top-1 بسعة إنتاجية تبلغ 1270 صورة / ثانية. توضح تصورات SparseFormer قدرتها على التمييز بين المقدمة والخلفيات باستخدام إشارات التصنيف فقط من البداية إلى النهاية. كما أنهم ينظرون إلى تقنيات SparseFormer المختلفة لتوسيع النطاق للحصول على أداء أفضل. أدى توسعهم في SparseFormer في تصنيف الفيديو إلى إنتاج أداء واعد مع حساب أقل من البنى الكثيفة ، وفقًا للنتائج التجريبية على معيار تصنيف الفيديو الصعب Kinetics-400. يوضح هذا كيف تعمل بنية الرؤية المتفرقة المقترحة بشكل جيد عند إعطاء بيانات إدخال أكثر كثافة.