الأخبار التكنولوجية والاستعراضات والنصائح!

يقترح مختبر SUSTech VIP Lab نموذج تتبع أي شيء (TAM) يحقق تتبعًا تفاعليًا عالي الأداء وتجزئة في مقاطع الفيديو

ستساعدك المقالة التالية: يقترح مختبر SUSTech VIP Lab نموذج تتبع أي شيء (TAM) يحقق تتبعًا تفاعليًا عالي الأداء وتجزئة في مقاطع الفيديو

يعد تتبع عنصر الفيديو (VOT) حجر الزاوية في أبحاث رؤية الكمبيوتر نظرًا لأهمية تتبع عنصر غير معروف في إعدادات غير مقيدة. تجزئة كائن الفيديو (VOS) هي تقنية ، مثل VOT ، تسعى إلى تحديد منطقة الاهتمام في الفيديو وعزلها عن باقي الإطار. يتم تشغيل أفضل أدوات تتبع / أدوات تقطيع الفيديو في الوقت الحاضر بواسطة قناع تجزئة أو صندوق محيط ويتم تدريبها على مجموعات بيانات مشروحة يدويًا على نطاق واسع. كميات كبيرة من البيانات المصنفة ، من ناحية ، تخفي قوة عاملة بشرية هائلة. أيضًا ، يتطلب VOS شبه الخاضع للإشراف حقيقة أرضية فريدة لقناع الكائن للتهيئة وفقًا لمعلمات التهيئة الحالية.

تم تطوير نهج Segment-Anything (SAM) مؤخرًا كخط أساس شامل لتقسيم الصور. بفضل مطالباته القابلة للتكيف وحساب القناع في الوقت الفعلي ، فإنه يسمح بالاستخدام التفاعلي. يمكن إرجاع أقنعة التجزئة المرضية في مناطق صور محددة بواسطة SAM عند تقديم اقتراحات سهلة الاستخدام في شكل نقاط أو مربعات أو لغة. ومع ذلك ، نظرًا لافتقارها إلى الاتساق الزمني ، لا يرى الباحثون أداءً مذهلاً عند تطبيق SAM على مقاطع الفيديو على الفور.

يقدم باحثون من SUSTech VIP Lab مشروع Track-Anything ، مما يخلق أدوات قوية لتتبع كائن الفيديو وتقسيمه. يحتوي نموذج Track Anything Model (TAM) على واجهة مباشرة ويمكنه تتبع أي كائنات في مقطع فيديو وتقسيمها بجولة واحدة من الاستدلال.

TAM هو امتداد لـ SAM ، نموذج تجزئة واسع النطاق ، مع XMem ، نموذج VOS المتطور. يمكن للمستخدمين تحديد كائن مستهدف من خلال التهيئة التفاعلية لـ SAM (أي النقر فوق الكائن) ؛ بعد ذلك ، يوفر XMem تنبؤًا بالقناع للكائن في الإطار التالي بناءً على المراسلات الزمنية والمكانية. أخيرًا ، يوفر SAM وصفًا أكثر دقة للقناع ؛ يمكن للمستخدمين التوقف مؤقتًا والتصحيح أثناء عملية التتبع بمجرد أن يلاحظوا فشل التتبع.

تم استخدام مجموعة التحقق من صحة DAVIS-2016 ومجموعة تطوير الاختبار DAVIS-2017 في تحليل TAM. والجدير بالذكر أن النتائج تظهر أن TAM تتفوق في البيئات الصعبة والمعقدة. قدرات التتبع والتجزئة المتميزة لـ TAM ضمن تهيئة النقر فقط ، ويتم إثبات الاستدلال من جولة واحدة من خلال قدرتها على التعامل مع فصل الكائنات المتعددة ، وتشوه الهدف ، وتغيير الحجم ، وحركة الكاميرا بشكل جيد.

يقدم نموذج Track Anything Model (TAM) المقترح مجموعة متنوعة من الخيارات لتتبع الفيديو التكيفي وتقسيمه ، بما في ذلك على سبيل المثال لا الحصر ما يلي:

  • نسخ فيديو سريع وسهل: قد تفصل TAM مناطق الاهتمام بالأفلام وتسمح للمستخدمين باختيار واختيار العناصر التي يريدون متابعتها. هذا يعني أنه يمكن استخدامه للتعليقات التوضيحية للفيديو ، مثل تتبع كائنات الفيديو وتقسيمها.
  • المراقبة المطولة للشيء: نظرًا لأن التتبع طويل المدى له العديد من الاستخدامات الواقعية ، فإن الباحثين يولون اهتمامًا متزايدًا له. تعد تطبيقات العالم الحقيقي لـ TAM أكثر تقدمًا نظرًا لأنها يمكن أن تستوعب تغييرات اللقطات المتكررة في مقاطع الفيديو الممتدة.
  • محرر فيديو سهل الاستخدام: يتيح لنا نموذج Track Anything Model تقسيم الأشياء إلى فئات. تسمح لنا أقنعة تجزئة الكائن TAM بقص أو إعادة وضع أي كائن في الفيلم بشكل انتقائي.
  • عدة لتصور وتطوير الأنشطة المتعلقة بالفيديو: يوفر الفريق أيضًا واجهات مستخدم مرئية لعمليات الفيديو المختلفة ، بما في ذلك VOS و VOT و inpainting بالفيديو والمزيد لتسهيل استخدامها. يمكن للمستخدمين اختبار نماذجهم على لقطات من العالم الحقيقي ومشاهدة النتائج في الوقت الفعلي باستخدام مربع الأدوات.