الأخبار التكنولوجية والاستعراضات والنصائح!

تلبية شريحة AnyRGBD: مجموعة أدوات لتقسيم الصور المعروضة ذات العمق بناءً على SAM

ستساعدك المقالة التالية: تلبية شريحة AnyRGBD: مجموعة أدوات لتقسيم الصور المعروضة ذات العمق بناءً على SAM

لتقسيم صور العمق المعروضة باستخدام SAM ، طور الباحثون مجموعة أدوات Segment AnyRGBD. SAD ، اختصار لـ Segment Any RGBD ، تم تقديمه مؤخرًا بواسطة باحثين في NTU. يمكن لـ SAD تقسيم أي كائن ثلاثي الأبعاد بسهولة من مدخلات RGBD (أو إنشاء صور عمق فقط).

ثم يتم إرسال صورة العمق التي تم إنتاجها إلى SAM حيث أظهر الباحثون أن الأشخاص يمكنهم التعرف على الأشياء بسهولة من خلال تصور خريطة العمق. يتم تحقيق ذلك عن طريق تعيين خريطة العمق أولاً ([H, W]) إلى مساحة RGB ([H, W, 3]) من خلال دالة خريطة الألوان. تولي صورة العمق المقدمة اهتمامًا أقل للنسيج واهتمامًا أكبر بالهندسة مقارنة بصورة RGB. في المشاريع القائمة على SAM مثل SSA و Anything-3D و SAM 3D ، تكون صور الإدخال كلها صور RGB. كان الباحثون رائدين في استخدام SAM لاستخراج التفاصيل الهندسية مباشرة.

OVSeg هي أداة تجزئة دلالية تستخدم من قبل الباحثين. أعطى مؤلفو الدراسة للمستهلكين خيارًا بين صور RGB الخام أو إنشاء صور عميقة كمدخلات إلى SAM. يمكن للمستخدم استرداد الأقنعة الدلالية (حيث يمثل كل لون فئة مختلفة) وأقنعة SAM المرتبطة بالفئة في كلتا الحالتين.

النتائج

نظرًا لأن معلومات النسيج هي الأبرز في صور RGB والمعلومات الهندسية موجودة في الصور المتعمقة ، فإن الأولى أكثر إشراقًا من نظيراتها المقدمة. كما يوضح الرسم التخطيطي المصاحب ، يقدم SAM مجموعة متنوعة من الأقنعة لمدخلات RGB أكثر مما يقدمه لمدخلات العمق.

تم تقليل التجزئة المفرطة في SAM بفضل صورة العمق المنتجة. في الرسم التوضيحي المصاحب ، على سبيل المثال ، تم تحديد الكرسي كواحد من أربعة أجزاء من الجدول تم استخلاصها من صور RGB باستخدام التجزئة الدلالية. ومع ذلك ، تم تصنيف الجدول بشكل صحيح ككل على صورة العمق. في الصورة المرفقة ، تشير الدوائر الزرقاء إلى مناطق الجمجمة التي تم تصنيفها بشكل خاطئ على أنها جدران في صورة RGB ولكن تم تحديدها بشكل صحيح في صورة العمق.

قد يكون الكرسي المحاط بدائرة حمراء في الصورة العميقة كرسيين قريبين جدًا من بعضهما البعض بحيث يتم معاملتهما ككيان واحد. تعد بيانات نسيج صور RGB ضرورية في تحديد العنصر.

الريبو والأداة

يزور https://huggingface.co/spaces/jcenaa/Segment-Any-RGBD لرؤية المستودع.

هذا المستودع مفتوح المصدر يعتمد على OVSeg ، والذي يتم توزيعه بموجب شروط ترخيص Creative Commons Attribution-NonCommercial 4.0 International License. ومع ذلك ، فإن بعض أجزاء المشروع مغطاة بتراخيص مختلفة: يغطي ترخيص MIT كلاً من CLIP و ZSSEG.

https://huggingface.co/spaces/jcenaa/Segment-Any-RGBD حيث يمكن للمرء تجربة الأداة.

لهذه المهمة ، سيحتاج المرء إلى وحدة معالجة رسومات (GPU) وقد يحصل على واحدة عن طريق تكرار المساحة وترقية الإعدادات لاستخدام وحدة معالجة الرسومات بدلاً من الانتظار في الطابور. هناك تأخير كبير بين بدء الإطار ومعالجة مقاطع SAM ومعالجة المقاطع الدلالية ذات اللقطة الصفرية وتوليد نتائج ثلاثية الأبعاد. النتائج النهائية متاحة في حوالي 2-5 دقائق.