الأخبار التكنولوجية والاستعراضات والنصائح!

إزالة الحدود الخاصة بك: يستخدم نهج الذكاء الاصطناعي هذا نماذج الانتشار لتمكين تجزئة كائن المفردات المفتوحة

ستساعدك المقالة التالية: إزالة الحدود الخاصة بك: يستخدم نهج الذكاء الاصطناعي هذا نماذج الانتشار لتمكين تجزئة كائن المفردات المفتوحة

تجزئة الكائن هي مشكلة أساسية في مجال رؤية الكمبيوتر. يتم استخدامه في العديد من التطبيقات ، من القيادة الذاتية إلى المراقبة إلى الروبوتات. الهدف هنا هو تحديد حدود الكائنات بدقة في الصورة وتعيين تسمية لكل بكسل تشير إلى الكائن الذي تنتمي إليه. في النهاية ، تحصل على تمييز لكل كائن في صورتك.

جعل التقدم الأخير في التعلم العميق تجزئة الكائنات مشكلة سهلة نسبيًا لحلها ، على الرغم من أن السيناريوهات الصعبة لا تزال مشكلة مفتوحة. لا يزال مجال البحث نشطًا ، وقد تم تطوير العديد من الخوارزميات المعقدة لمعالجة المشكلات المختلفة.

واحدة من المشاكل الرئيسية في نماذج تجزئة الكائنات هي قواميسهم المحدودة. يمكن لغالبية النماذج الحالية فقط تقسيم الأشياء التي رأوها أثناء التدريب. إذا كان لديك نموذج تجزئة للحيوانات تم تدريبه على صور القطط والكلاب فقط ، فلن يقسم الباندا في الصورة.

كانت هناك محاولات متعددة لمعالجة هذا “مغلق“مفردات نماذج تجزئة الكائن. ومع ذلك ، فقد تمكنت القليل من الأعمال من توفير إطار عمل موحد يمكنه تحليل جميع حالات الكائن ودلالات المشهد في وقت واحد.

تعتمد معظم الأساليب الحالية للتعرف على المفردات المفتوحة على نماذج تمييزية للصور النصية واسعة النطاق. في حين أن هذه النماذج المدربة مسبقًا جيدة في تصنيف مقترحات الكائنات الفردية أو وحدات البكسل ، إلا أنها ليست بالضرورة مثالية لأداء الفهم الهيكلي على مستوى المشهد. علاوة على ذلك ، غالبًا ما يفتقرون إلى الفهم المكاني والعلائقي ، وهو عنق الزجاجة للتجزئة الشاملة للمفردات المفتوحة.

كيف يمكننا تعليمهم الأشياء التي لم يروها أثناء التدريب؟ كيف يمكننا أن نجعل مفردات نماذج تجزئة الكائنات يفتح واحد؟ الوقت المناسب لتلبية أوديس ، .

أوديس تم اقتراحه بناءً على ملاحظة أن نماذج نشر النص إلى صورة تتفوق في فهم مطالبات النص. يمكنهم التعرف على آلاف الأشياء والتوصل إلى فهم سياقي. لذا ، إذا كان بإمكانهم الانتقال من نص إلى صورة ، فلماذا لا يستخدمونها في الاتجاه المعاكس والانتقال من صورة إلى نص؟

تستخدم ODISE كلاً من نماذج الانتشار واسعة النطاق والنماذج التمييزية للصور النصية. على مستوى عالٍ ، يحتوي على نموذج نشر نص إلى صورة تم تدريبه مسبقًا يتم فيه إدخال الصورة والتعليق عليها. ثم يتم استخلاص السمات الداخلية لنموذج الانتشار. باستخدام هذه الميزات كمدخلات ، ينتج منشئ القناع أقنعة شاملة لجميع المفاهيم الممكنة في الصورة. تقوم وحدة تصنيف القناع بعد ذلك بتصنيف كل قناع في واحدة من العديد من فئات المفردات المفتوحة من خلال ربط ميزات انتشار كل قناع متوقع مع تضمين النص للعديد من أسماء فئات الكائنات. بمجرد التدريب ، أوديس ينفذ استدلالًا شاملاً للمفردات المفتوحة مع كل من نشر النص والصورة والنماذج التمييزية لتصنيف القناع المتوقع.

أوديس هو أول عمل لاستكشاف نماذج انتشار النص إلى صورة واسعة النطاق لمهام تجزئة المفردات المفتوحة. يقترح خط أنابيب جديد للاستفادة بشكل فعال من نشر النص والصورة والنماذج التمييزية لأداء تجزئة شاملة للمفردات المفتوحة. أوديس يتفوق على جميع خطوط الأساس الحالية في العديد من مهام التعرف على المفردات المفتوحة ، مما يؤدي إلى تقدم المجال بشكل كبير إلى الأمام.