ستساعدك المقالة التالية: TransUNet – لا مزيد من شبكات CNN لتجزئة الصور – نحو الذكاء الاصطناعي
نُشر في الأصل على نحو AI ، الشركة الرائدة في العالم في مجال الذكاء الاصطناعي والأخبار التقنية والإعلام. إذا كنت تقوم ببناء منتج أو خدمة متعلقة بالذكاء الاصطناعي ، فنحن ندعوك للتفكير في أن تصبح راعيًا للذكاء الاصطناعي. في نحو الذكاء الاصطناعي ، نساعد في توسيع نطاق الشركات الناشئة في مجال الذكاء الاصطناعي والتكنولوجيا. دعنا نساعدك على إطلاق التكنولوجيا الخاصة بك للجماهير.
TransUNet – إحداث ثورة في تجزئة الصورة التقليدية
جدول المحتويات
·؟ حدس
·؟ TransUNet
∘ أسفل العينات (ترميز)
∘ Up-Sampling (Decoding)
·؟ نتائج
·؟ تطبيقات
· مرجع
؟ حدس
في الوقت الحاضر ، سيطرت U-Net على مهام تجزئة الصور ، خاصة في مجال التصوير الطبي. من بين معظم شبكات U-Nets المقترحة حتى الآن ، تُستخدم الشبكات العصبية الالتفافية (CNN) على نطاق واسع كبنى أساسية لها.
لكن، يمكن لـ CNN استغلال المعلومات قصيرة المدى (أو المحلية) بشكل فعال نظرًا لأحجام نواة التلافيف الصغيرة ، فشل في استكشاف المعلومات بعيدة المدى بشكل كافٍ في المهام التي لها ميزات ذات علاقات طويلة المدى.
يمكن للمحولات ، التي تُستخدم بشكل شائع للتعامل مع مهام معالجة اللغة الطبيعية ، استكشاف المعلومات بعيدة المدى بشكل فعال ، ولكن إنهم ليسوا أقوياء في استغلال المعلومات قصيرة المدى كما تفعل شبكات CNN.
لاستخدام قوة CNNs يمكن أن تعوض عن أوجه القصور في المحولات والعكس صحيح في مهام تجزئة الصور ، Chen et al. مقترح TransUNet، وهو أيضًا ملف أول نموذج تجزئة للصورة مبني من Transformer.
؟ TransUNet
نحن نعلم أنه في U-Net (الشكل 1) يوجد المشفر (مسار أخذ العينات السفلي) و a فك (مسار أخذ العينات). سيرفر مسار أخذ العينات لأسفل ميزات الصورة إلى خريطة عالية المستوى ، وسيتم استخدام تفاصيلها بواسطة مسار أخذ العينات الأعلى لإنتاج القناع النهائي بنفس بُعد الإدخال.
وبالمثل ، تضم TransUNet أيضًا ملف المشفر و أ فك لتشفير وفك تشفير معلومات الصورة لإنتاج تجزئة. بخلاف U-Nets التقليدية ، تستخدم TransUNet بدلاً من ذلك ملف هجين CNN- بنية المحولات كأداة تشفير لتعلم كل من المعلومات المكانية عالية الدقة من شبكات CNN ومعلومات السياق العالمي من Transformers.
لتفصيل الخطوات:
تصغير العينات (ترميز)
- أولاً ، يتم استخدام CNN كمستخرج ميزة لإنشاء خريطة معالم للإدخال ، كما هو موضح في المربع الوردي في الشكل 2.
- لكل مستوى من مستخرج المعالم ، تكون خريطة معالم الإخراج () متسلسلة إلى مسار مفكك الشفرة من نفس المستوى ، كما هو موضح في الأسهم المنقطة في الشكل 2.
- بعد ذلك ، يتم ترميز خريطة المعالم (متجهية) في دمج ثنائي الأبعاد للشكل (n_patch ، D) بواسطة الإسقاط الخطي و D هو الطول الإجمالي للتضمين. تم تدريب حفلات الزفاف مسبقًا وستحتفظ بالمعلومات الموضعية لخريطة الميزة ().
- بعد الحصول على حفلات الزفاف ، يتم إطعامهم 12 طبقات المحولات لتشفير معلومات أقل من المدى القصير والمزيد من المعلومات بعيدة المدى من الصورة. يتم توضيح كل طبقة في الشكل 2 (أ) ، والذي يستخدم الانتباه الذاتي متعدد الرؤوس (MSA) و perceptron متعدد الطبقات (MLP) وحدات. MSA هو لبنة البناء الأساسية للمحولات ويتم شرحه هنا ، ويتألف MLP للتو من عدة طبقات متصلة بالكامل.
- أخيرا، للتحضير لمسار أخذ العينات، يتم إعادة تشكيل الإخراج إلى (D ، H / 16 ، W / 16). تعني H / 16 و W / 16 أن الارتفاعات والعرض بحلول هذا الوقت قد تقلصت بمقدار 16 مرة بسبب العمليات السابقة.
حتى أخذ العينات (فك)
عملية أخذ العينات واضحة ومباشرة ().
- أولاً ، يتم تشغيل الإدخال من مشفر CNN-Transformer بواسطة a طبقة التفاف 3 × 3 مع تنشيط ReLU ، مكثفة، وثم متسلسلة مع إخراج ملف المستوى الثالث مستخرج ميزة CNN.
- يتم بعد ذلك تشغيل خرائط الميزات الناتجة من خلال التفاف 3 × 3 مع طبقة التنشيط ReLU مرة أخرى. ثم يتم ربط الإخراج مع الإخراج من ملف المستوى الثاني مستخرج ميزة CNN.
- الخطوة هي معاد مرة أخرى. الآن ، الإخراج هو قناع في الشكل (ج ، ح ، ث)، مع C = عدد فئات الهدف ، H = ارتفاع الصورة ، و W = عرض الصورة.
كما لاحظ المؤلفون أن يؤدي التضمين المكثف للميزات منخفضة المستوى عمومًا إلى دقة تجزئة أفضل.
؟ نتائج
يتم تشغيل النموذج على مجموعة بيانات Synapse Multi-Organ Segmentation. يتم تقييم الدرجات النهائية من خلال معامل تشابه النرد ومسافة هاوسدورف.
كما ترى ، كان أداء TransUNet أفضل من معظم بنى SOTA الحالية ، مثل V-Net و ResNet U-Net و ResNet Attention U-Net و Vision Transformers ، مما يشير إلى أن البنية القائمة على Transformer أفضل في الاستفادة من الذات -الاهتمام من CNN U-Nets الأخرى القائمة على الاهتمام الذاتي.
؟ تطبيقات
تنفيذ TransUNet الرسمي
شكرًا لك! ❤️
نرجو منكم أن تفكروا في منحنا بعض التصفيق! ❤️
مرجع
TransUNet: المحولات تصنع تشفيرًا قويًا لتجزئة الصور الطبية
TransUNet – تم نشر No More CNNs for Image Segmentation في الأصل في Towards AI on Medium ، حيث يواصل الأشخاص المحادثة من خلال تسليط الضوء على هذه القصة والرد عليها.
تم النشر عبر نحو الذكاء الاصطناعي