الأخبار التكنولوجية والاستعراضات والنصائح!

Box2Mask: طريقة فريدة لتجزئة المثيلات أحادية اللقطة تجمع بين التعلم العميق ونموذج التطور ذي المستوى المحدد لتوفير تنبؤات قناع دقيقة مع …

ستساعدك المقالة التالية: Box2Mask: طريقة فريدة لتجزئة المثيلات أحادية اللقطة تجمع بين التعلم العميق ونموذج التطور ذي المستوى المحدد لتوفير تنبؤات قناع دقيقة مع …

تجزئة المثيل ، مفيدة في تطبيقات مثل القيادة الذاتية ، والمعالجة الآلية ، وتحرير الصور ، وتجزئة الخلايا ، وما إلى ذلك ، يحاول استخراج تسميات قناع البكسل للكائنات المهتمة. حقق تجزئة المثيلات خطوات كبيرة في السنوات الأخيرة بسبب قدرات التعلم القوية لأنظمة CNN والمحولات المتطورة. ومع ذلك ، يتم تدريب العديد من نماذج تجزئة المثيل المتاحة باستخدام نهج خاضع للإشراف الكامل ، والذي يعتمد بشدة على التعليقات التوضيحية على مستوى البكسل لقناع المثيل وينتج عنه تكاليف تصنيف عالية وتستغرق وقتًا طويلاً. تم تقديم تجزئة المثيل الخاضع للإشراف على الصندوق ، والتي تستخدم التعليقات التوضيحية المربعية البسيطة والفعالة للتسمية بدلاً من تسميات القناع ذات البكسل ، كحل للمشكلة المذكورة أعلاه. اكتسب التعليق التوضيحي المربّع مؤخرًا الكثير من الاهتمام الأكاديمي وجعل تجزئة المثيلات أكثر سهولة بالنسبة للفئات أو أنواع المشاهد الجديدة. تم تطوير بعض التقنيات التي تستخدم بيانات إضافية مساعدة بارزة أو تقنيات ما بعد المعالجة مثل MCG و CRF لإنتاج ملصقات زائفة لتمكين الإشراف على البكسل مع شرح توضيحي للصندوق. ومع ذلك ، تتطلب هذه الأساليب عدة مراحل مستقلة ، مما يعقد خط أنابيب التدريب وإضافة المزيد من المعلمات المفرطة للتعديل. في COCO ، عادةً ما يستغرق إنشاء قناع مستند إلى المضلع للكائن 79.2 ثانية ، ومع ذلك فإن التعليق التوضيحي على المربع المحيط بالكائن يستغرق 7 ثوانٍ فقط.

يتم استخدام نموذج مجموعة المستوى القياسي ، والذي يستخدم ضمنيًا وظيفة طاقة لتمثيل منحنيات حدود الكائن ، في هذه الدراسة للتحقيق في تقنيات نمذجة التقارب الأكثر موثوقية لتقسيم المثيل الخاضع للإشراف على الصندوق. أظهرت وظيفة الطاقة المستندة إلى مجموعة المستوى نتائج واعدة لتجزئة الصورة من خلال استخدام معلومات السياق الغنية مثل كثافة البكسل واللون والمظهر والشكل. ومع ذلك ، يتم تدريب الشبكة على التنبؤ بحدود الكائن مع الإشراف على البكسل في هذه الأساليب ، والتي تنفذ تطور مجموعة المستوى بطريقة تخضع للإشراف الكامل على القناع. على النقيض من الأساليب السابقة ، فإن الهدف من هذه الدراسة هو مراقبة تدريب التطور على مستوى المجموعة باستخدام التعليقات التوضيحية لمربع الإحاطة. يقترحون على وجه التحديد طريقة تجزئة مثيل جديدة تحت إشراف الصندوق تسمى Box2Mask والتي تجمع برفق بين الشبكات العصبية العميقة ونموذج ضبط المستوى لتدريب العديد من وظائف مجموعة المستوى لتطوير المنحنى الضمني بشكل متكرر. نهجهم يستخدم وظيفة الطاقة التقليدية المستمرة Chan-Vese. يستخدمون معلومات منخفضة المستوى وعالية المستوى لتطوير منحنيات مجموعة المستوى تجاه حدود الكائن بشكل موثوق. تعمل وظيفة الإسقاط الآلي للمربع التي تقدم تقديرًا تقريبيًا للحد المرغوب فيه على تهيئة المستوى المحدد في كل مرحلة من مراحل التطور. لضمان تطوير مجموعة المستوى مع تناسق تقارب محلي ، يتم إنشاء وحدة تناسق محلية بناءً على وظيفة نواة التقارب التي تعدين السياق المحلي والوصلات المكانية.

أنها توفر نوعين من الإطار أحادي المرحلة – إطار عمل قائم على CNN وإطار عمل قائم على المحولات – لدعم تطور مجموعة المستوى. يتضمن كل إطار أيضًا عنصرين أكثر أهمية ، أجهزة فك التشفير المدركة للمثيل (IADs) ومهام المطابقة على مستوى الصندوق ، والتي تم تجهيزها بمنهجيات مختلفة بالإضافة إلى قسم تطور مجموعة المستوى. يتعلم IAD تضمين خصائص المثيل لإنشاء خريطة قناع مدرك للمثيل كامل الصورة كتنبؤ مجموعة المستوى استنادًا إلى مثيل هدف الإدخال. باستخدام المربعات المحيطة بالحقيقة الأرضية ، تتعلم مهمة المطابقة المستندة إلى الصندوق التعرف على عينات خريطة القناع عالية الجودة على أنها إيجابية. وصفت ورقة مؤتمرهم النتائج الأولية لأبحاثهم. يبدأون بتحويل نهجهم في إصدار المجلة الموسعة هذا من إطار عمل يستند إلى CNN إلى إطار عمل قائم على المحولات. إنهم يطبقون طريقة مطابقة ثنائية الأطراف على مستوى الصندوق لتعيين الملصق ودمج ميزات المثيل لتعلم النواة الديناميكي باستخدام وحدة فك ترميز المحولات. من خلال تقليل وظيفة طاقة مجموعة المستوى القابلة للتفاضل ، يمكن تحسين خريطة القناع لكل حالة بشكل متكرر داخل التعليق التوضيحي لمربع الإحاطة المقابل.

بالإضافة إلى ذلك ، يقومون بإنشاء وحدة تناسق محلية استنادًا إلى وظيفة نواة التقارب ، والتي تعمل على إزالة أوجه التشابه في البكسل والروابط المكانية داخل الحي للتخفيف من عدم تجانس الكثافة المستندة إلى المنطقة لتطور مجموعة المستوى. على خمسة قاعات اختبار صعبة ، يتم إجراء اختبارات مكثفة ، على سبيل المثال ، التقسيم في ظل ظروف عديدة ، مثل المشاهد العامة (مثل COCO و Pascal VOC) ، والاستشعار عن بعد ، والصور الطبية ، وصور نصية المشهد. تُظهر أفضل النتائج الكمية والنوعية مدى نجاح نهج Box2Mask المقترح. على وجه الخصوص ، يعزز AP الحديث 33.4٪ إلى 38.3٪ AP على COCO مع العمود الفقري ResNet-101 و 38.3٪ AP إلى 43.2٪ AP على Pascal VOC. إنه يتفوق على بعض التقنيات الشائعة التي يتم الإشراف عليها تمامًا باستخدام نفس الإطار الأساسي ، مثل Mask R-CNN و SOLO و PolarMask. يمكن لـ Box2Mask الحصول على 42.4٪ قناع AP على COCO مع العمود الفقري Swin-Transformer الكبير (Swin-L) الأقوى ، والذي يمكن مقارنته بالخوارزميات الراسخة سابقًا والتي تخضع للإشراف الكامل على القناع. يتم عرض العديد من المقارنات المرئية في الشكل أدناه. يمكن للمرء أن يلاحظ أن تنبؤات قناع طريقتهم غالبًا ما تكون ذات جودة وتفاصيل أكبر من تقنيات BoxInst و DiscoBox الأكثر حداثة. مستودع الكود مفتوح المصدر على GitHub.