الأخبار التكنولوجية والاستعراضات والنصائح!

توسيع التفاعلات بين الإنسان والذكاء الاصطناعي: استكشاف الواجهات القائمة على الفوري لتجزئة الصور

ستساعدك المقالة التالية: توسيع التفاعلات بين الإنسان والذكاء الاصطناعي: استكشاف الواجهات القائمة على الفوري لتجزئة الصور

لقد مهد نجاح الواجهات العالمية القائمة على السرعة لـ LLMs مثل ChatGPT الطريق لأهمية نماذج الذكاء الاصطناعي الحديثة في التفاعلات بين الإنسان والذكاء الاصطناعي ، مما فتح إمكانيات عديدة لمزيد من البحث والتطوير. في الفهم المرئي ، لم تحظ المهام بنفس القدر من الاهتمام في سياق التفاعلات بين الإنسان والذكاء الاصطناعي ، وبدأت دراسات جديدة في الظهور الآن. تتمثل إحدى هذه المهام في تجزئة الصورة ، والتي تهدف إلى تقسيم الصورة إلى مقاطع متعددة أو مناطق ذات خصائص مرئية متشابهة ، مثل اللون أو النسيج أو فئة من الكائنات. للتجزئة التفاعلية للصور تاريخ طويل ، لكن نماذج التجزئة التي يمكن أن تتفاعل مع البشر عبر واجهات يمكن أن تأخذ أنواعًا متعددة من المطالبات ، مثل النصوص والنقرات والصور ، أو مزيج منها ، لم يتم استكشافها جيدًا. معظم نماذج التجزئة اليوم قادرة فقط على استخدام تلميحات مكانية مثل النقرات أو الخربشات أو الإشارة إلى التجزئة باستخدام اللغة. في الآونة الأخيرة ، قدم نموذج تجزئة يسمى SAM نموذجًا يمكن أن يدعم مطالبات متعددة ، لكن تفاعله يقتصر على المربعات أو النقاط فقط ، ولا يوفر تسميات دلالية كإخراج.

هذه الورقة ، التي قدمها باحثون من جامعة ويسكونسن ماديسون ، تقدم SEEM ، وهو نهج جديد لتجزئة الصور يستخدم واجهة عالمية وموجهات متعددة الوسائط. يشير الاختصار إلى Segmenting Everything Everywhere دفعة واحدة في صورة (في إشارة إلى الفيلم ، في حال فاتتك!). تم بناء هذا النموذج الجديد الرائد مع مراعاة 4 خصائص رئيسية: التنوع ، والتكوين ، والتفاعل ، والوعي الدلالي. من أجل تعدد الاستخدامات ، يتيح نموذجهم استخدام المدخلات مثل النقاط والأقنعة والنصوص والمربعات وحتى المنطقة المشار إليها لصورة أخرى تبدو غير متجانسة. يمكن للنموذج التعامل مع أي مجموعة من تلك المطالبات ، مما يؤدي إلى تكوين قوي. يأتي جانب التفاعل من قدرة النموذج على استخدام مطالبات الذاكرة للتفاعل مع المطالبات الأخرى والاحتفاظ بمعلومات التجزئة السابقة. أخيرًا ، يشير الوعي الدلالي إلى قدرة النموذج على التعرف على الكائنات المختلفة في صورة ما وتسميتها بناءً على معناها الدلالي (على سبيل المثال ، التمييز بين أنواع السيارات المختلفة). يمكن لـ SEEM إعطاء دلالات مجموعة مفتوحة لأي تجزئة إخراج ، مما يعني أن النموذج يمكنه التعرف على الكائنات التي لم يتم رؤيتها مطلقًا أثناء التدريب وتقسيمها. هذا مهم حقًا لتطبيقات العالم الحقيقي حيث قد يواجه النموذج كائنات جديدة وغير مرئية من قبل.

يتبع النموذج بنية ترميز وفك ترميز بسيطة للمحولات مع نص إضافي مشفر. يتم أخذ جميع الاستعلامات كمطالبات وإدخالها في وحدة فك الترميز. يتم استخدام أداة ترميز الصور لترميز جميع الاستعلامات المكانية ، مثل النقاط والمربعات والخربشات ، إلى مطالبات مرئية ، ويتم استخدام أداة ترميز النص لتحويل الاستعلامات النصية إلى مطالبات نصية. بعد ذلك ، يتم تعيين المطالبات من جميع الأنواع الخمسة المختلفة إلى مساحة بصرية دلالية مشتركة ، مما يتيح مطالبات المستخدم غير المرئية. يمكن أن تساعد الأنواع المختلفة من المطالبات بعضها البعض من خلال الانتباه المتبادل بحيث يمكن استخدام المطالبات المركبة للحصول على نتائج تجزئة أفضل. بالإضافة إلى ذلك ، يدعي المؤلفون أن SEEM فعال في التشغيل لأنه عند إجراء تفاعلات متعددة الجولات مع البشر ، يحتاج النموذج فقط إلى تشغيل مستخرج الميزات (الثقيلة) مرة واحدة في البداية ثم تشغيل وحدة فك التشفير (خفيفة الوزن) مع كل موجه جديد.

أجرى الباحثون تجارب لإظهار أن نموذجهم يتمتع بأداء قوي في العديد من مهام التجزئة ، بما في ذلك المجموعات المغلقة والمجموعات المفتوحة من أنواع مختلفة (تفاعلية ، مرجعية ، شاملة ، وتجزئة مع موجهات مشتركة). تم تدريب النموذج على التجزئة الشاملة والتفاعلية باستخدام COCO2017 ، مع 107 ألف صورة مجزأة في المجموع. للإشارة إلى التجزئة ، استخدموا مجموعة من المصادر للتعليقات التوضيحية للصور (Ref-COCO و Ref-COCOg و Ref-COCO +). لتقييم الأداء ، استخدموا المقاييس القياسية لجميع مهام التجزئة ، مثل الجودة الشاملة والدقة المتوسطة ومتوسط ​​التقاطع على الاتحاد. للتجزئة التفاعلية ، استخدموا عدد النقرات اللازمة لتحقيق تقاطع معين عبر الاتحاد.

النتائج واعدة للغاية. يعمل النموذج جيدًا على جميع أنواع التجزئة الثلاثة: التجزئة التفاعلية والعامة والإحالة. بالنسبة للتجزئة التفاعلية ، يمكن مقارنة أدائها بـ SAM (الذي يتم تدريبه باستخدام بيانات تجزئة أكثر 5-x) مع السماح بالإضافة إلى ذلك بمجموعة واسعة من أنواع مدخلات المستخدم وتوفير إمكانات تركيبية قوية. يمكن للمستخدم النقر أو رسم خربشة على صورة إدخال أو إدخال نص ، ويمكن لـ SEEM إنتاج الأقنعة والتسميات الدلالية للكائنات الموجودة في تلك الصورة. على سبيل المثال ، قد يقوم المستخدم بإدخال “الكلب الأسود” ، ويمكن لـ SEEM رسم المحيط حول الكلب الأسود في الصورة وإضافة التسمية “الكلب الأسود”. يمكن للمستخدم أيضًا إدخال صورة مرجعية بنهر ورسم خربشة على النهر ، ويمكن للنموذج العثور على النهر وتسميته على الصور الأخرى. من الجدير بالذكر أن النموذج يُظهر قدرات تعميم قوية لسيناريوهات غير مرئية مثل الرسوم المتحركة والأفلام والألعاب. يمكن للنموذج تسمية الكائنات بطريقة إطلاق النار الصفري ، أي أنه قادر على تصنيف أمثلة جديدة من فئات غير مرئية من قبل. يمكنه أيضًا تقسيم الكائنات بدقة في إطارات مختلفة عن الفيلم ، حتى عندما يتغير مظهر الكائن عن طريق التعتيم أو التشوهات المكثفة.

في الختام ، SEEM هو نموذج تجزئة قوي وحديث قادر على تقسيم كل شيء (كل الدلالات) ، في كل مكان (على كل بكسل في الصورة) ، كل ذلك مرة واحدة (دعم جميع تركيبات المطالبات). إنها الخطوة الأولى والأولى نحو واجهة عالمية وتفاعلية لتجزئة الصور ، مما يجعل رؤية الكمبيوتر أقرب إلى أنواع التطورات التي شوهدت في LLMs. الأداء مقيد حاليًا بكمية بيانات التدريب ومن المرجح أن يتم تحسينه من خلال مجموعات بيانات التجزئة الأكبر ، مثل تلك التي تم تطويرها حاليًا بواسطة العمل المتزامن SAM. يعد دعم التجزئة على أساس جزئي وسيلة أخرى للاستكشاف لتحسين النموذج.