الأخبار التكنولوجية والاستعراضات والنصائح!

تعرف على SegGPT: نموذج عام يؤدي مهام التجزئة التعسفية في الصور أو مقاطع الفيديو عبر الاستدلال في السياق

ستساعدك المقالة التالية: تعرف على SegGPT: نموذج عام يؤدي مهام التجزئة التعسفية في الصور أو مقاطع الفيديو عبر الاستدلال في السياق

في رؤية الكمبيوتر ، التي تسعى إلى تحديد وإعادة تنظيم المفاهيم المهمة على مستوى البكسل ، مثل المقدمة ، والفئة ، ومثال الكائن ، وما إلى ذلك ، يعد التقسيم أحد أكثر التحديات الأساسية. بالنسبة لمجموعة متنوعة من مهام التجزئة ، بما في ذلك تجزئة المقدمة ، والتجزئة التفاعلية ، والتجزئة الدلالية ، وتجزئة المثال ، والتجزئة الشاملة ، فقد خطوا خطوات كبيرة في السنوات الأخيرة. ومع ذلك ، فإن نماذج التجزئة الخبيرة هذه تقتصر على مهام معينة ، والتصنيفات ، والدقة ، وتنسيقات البيانات ، وما إلى ذلك. يجب تدريب نموذج جديد عند التكيف مع بيئة جديدة ، مثل تقسيم فكرة أو كائنات جديدة في مقاطع الفيديو بدلاً من الصور.

في هذه الدراسة ، هدفهم هو تدريب نموذج واحد يمكنه التعامل مع مجموعة متنوعة لا حصر لها من مهام التجزئة. يستدعي هذا عمل التعليقات التوضيحية الذي يستغرق وقتًا طويلاً ويجب أن يكون أكثر استدامة للعديد من وظائف التجزئة. تكمن الصعوبات الرئيسية في مجالين: (1) دمج أنواع البيانات المختلفة إلى حد كبير في التدريب ، مثل الجزء ، والدلالة ، والمثال ، والبانوبتيك ، والشخص ، والصورة الطبية ، والصورة الجوية ، وما إلى ذلك ؛ و (2) إنشاء مخطط تدريب قابل للتعميم يختلف عن التعلم التقليدي متعدد المهام ، والذي يتميز بالمرونة في تحديد المهام ويمكنه التعامل مع المهام التي تقع خارج نطاق اختصاصه. للتغلب على هذه المشكلات ، قدم باحثون من أكاديمية بكين وجامعة تشجيانغ وجامعة بكين SegGPT ، وهو نموذج عام لتقسيم أي شيء في السياق.

يقومون بدمج العديد من مهام التجزئة في إطار عمل تعليمي عام في السياق ويرون التجزئة كتنسيق عام للإدراك البصري. يمكن لهذا الإطار التعامل مع أنواع بيانات التجزئة المختلفة عن طريق تحويلها إلى تنسيق الصورة نفسه. باستخدام تعيين الألوان العشوائي لكل عينة بيانات ، تتم صياغة مشكلة تدريب SegGPT على أنها مشكلة تلوين في السياق. الهدف هو فقط تلوين المناطق المرتبطة مثل الفئات ، ومثيلات الكائن ، والمكونات ، وما إلى ذلك حسب السياق. من خلال استخدام نظام تلوين عشوائي ، يضطر النموذج إلى الرجوع إلى البيانات السياقية لتنفيذ المهمة المحددة بدلاً من الاعتماد على درجات معينة. هذا يجعل من الممكن التعامل مع التدريب بطريقة أكثر قابلية للتكيف وعمومية.

تبقى مكونات التدريب المتبقية كما هي عند استخدام معيار ViT وخسارة سلسة مباشرة. بعد التدريب ، قد يستخدم SegGPT الاستدلال في السياق لتنفيذ مهام التجزئة المختلفة في الصور أو مقاطع الفيديو في حالات قليلة ، مثل مثيل الكائن ، والأشياء ، والجزء ، والمحيط ، والنص ، إلخ. المجموعة المميزة ، والتي يمكن أن تساعد النموذج في الاستفادة من سيناريو التحفيز متعدد الأمثلة. من خلال تخصيص موجه مخصص لحالة استخدام متخصصة ، مثل التجزئة الدلالية ADE20K داخل المجال ، قد يعمل SegGPT أيضًا بسهولة كنموذج متخصص دون تعديل معلمات النموذج.

هذه هي مساهماتهم الأساسية.

(1) لأول مرة ، يعرضون نموذجًا عامًا واحدًا يمكنه إكمال مجموعة واسعة من مهام التجزئة تلقائيًا.

(2) بالنسبة للمهام المختلفة ، مثل التجزئة الدلالية بعدد قليل من اللقطات ، وتجزئة كائن الفيديو ، والتجزئة الدلالية ، والتجزئة الشاملة ، يقومون بتقييم SegGPT المدربين مسبقًا مباشرةً ، أي بدون ضبط دقيق.

(3) على الصعيدين الذاتي والإحصائي ، تظهر نتائجهم مهارات رائعة في تقسيم الأهداف داخل وخارج المجال. ومع ذلك ، فإن دراستهم لا تعد بتحقيق نتائج جديدة على أحدث طراز أو التفوق على المناهج المتخصصة الحالية في جميع المعايير لأنهم يعتقدون أن نموذج الأغراض العامة قد لا يكون قادرًا على التعامل مع مهام معينة.