ستساعدك المقالة التالية: تلبية Spectformer: هندسة محول جديدة تجمع بين طبقات الانتباه الطيفية ومتعددة الرؤوس التي تعمل على تحسين أداء المحولات لمهام التعرف على الصور
SpectFormer هي بنية محولات جديدة اقترحها باحثون من Microsoft لمعالجة الصور باستخدام مزيج من الانتباه الذاتي متعدد الرؤوس والطبقات الطيفية. تسلط الورقة الضوء على كيف يمكن للهندسة المعمارية المقترحة من SpectFormer التقاط تمثيلات الميزات المناسبة وتحسين أداء Vision Transformer (ViT).
أول ما نظر إليه فريق الدراسة هو كيفية مقارنة مجموعات مختلفة من طبقات الانتباه الطيفية ومتعددة الرؤوس بالنماذج التي تستخدم الانتباه أو النماذج الطيفية فقط. توصلت المجموعة إلى استنتاج مفاده أن أكثر النتائج الواعدة تم الحصول عليها من خلال التصميم المقترح لـ SpectFormer ، والذي تضمن طبقات طيفية تم تنفيذها مبدئيًا باستخدام تحويل فورييه ، وبعد ذلك ، طبقات الانتباه متعددة الرؤوس.
تتكون بنية SpectFormer من أربعة أجزاء أساسية: رأس التصنيف ، وكتلة المحولات المكونة من سلسلة من الطبقات الطيفية تليها طبقات الانتباه ، وطبقة تضمين التصحيح. يقوم خط الأنابيب بإجراء تحليل قائم على التردد لمعلومات الصورة ويلتقط ميزات مهمة عن طريق تحويل الرموز المميزة للصورة إلى مجال فورييه باستخدام تحويل فورييه. ثم يتم إرجاع الإشارة من الفضاء الطيفي إلى الفضاء المادي باستخدام تحويل فورييه المعكوس ، ومعلمات الوزن القابلة للتعلم ، وخوارزميات البوابات.
استخدم الفريق التحقق التجريبي للتحقق من بنية SpectFormer وأظهر أنها تعمل بشكل جيد في وضع تعلم النقل على مجموعتي بيانات CIFAR-10 و CIFAR-100. أظهر العلماء أيضًا أن مهام اكتشاف الكائنات وتجزئة المثيلات التي تم تقييمها على مجموعة بيانات MS COCO تؤدي إلى نتائج متسقة باستخدام SpectFormer.
في مجموعة متنوعة من مهام تحديد الكائنات وتصنيف الصور ، قارن الباحثون في دراستهم SpectFormer مع DeIT القائم على الاهتمام الذاتي متعدد الرؤوس ، والعمارة المتوازية LiT ، و GFNet ViTs القائمة على الطيف. في الدراسات ، تجاوز SpectFormer جميع خطوط الأساس وحصل على أعلى دقة في مجموعة بيانات ImageNet-1K ، والتي كانت أعلى بنسبة 85.7٪ من المعايير الحالية.
تظهر النتائج أن التصميم المقترح لـ SpectFormer ، والذي يجمع بين طبقات الانتباه الطيفية ومتعددة الرؤوس ، قد يلتقط تمثيلات الميزات المناسبة بشكل أكثر فعالية ويعزز أداء ViT. تقدم نتائج SpectFormer الأمل في مزيد من الدراسة حول محولات الرؤية التي تجمع بين كلتا التقنيتين.
قدم الفريق مساهمتين في هذا المجال: أولاً ، يقترحون SpectFormer ، وهو تصميم جديد يمزج طبقات الانتباه الطيفية ومتعددة الرؤوس لتعزيز كفاءة معالجة الصور. ثانيًا ، تظهر فعالية SpectFormer من خلال التحقق من صحتها في مهام الكشف عن الكائنات المتعددة وتصنيف الصور والحصول على أعلى دقة على مجموعة بيانات ImageNet-1K ، والتي تعد في طليعة المجال.
كل الأشياء التي تم أخذها في الاعتبار ، توفر SpectFormer مسارًا قابلاً للتطبيق للدراسة المستقبلية حول محولات الرؤية التي تجمع بين طبقات الانتباه الطيفية ومتعددة الرؤوس. قد يلعب التصميم المقترح لـ SpectFormer دورًا مهمًا في خطوط أنابيب معالجة الصور مع مزيد من التحقيق والتحقق من الصحة.