الأخبار التكنولوجية والاستعراضات والنصائح!

تطلق Meta AI نموذج المقطع أي شيء (SAM): نموذج ذكاء اصطناعي جديد يمكنه قص أي كائن في صورة / فيديو باستخدام واحد …

ستساعدك المقالة التالية: تطلق Meta AI نموذج المقطع أي شيء (SAM): نموذج ذكاء اصطناعي جديد يمكنه قص أي كائن في صورة / فيديو باستخدام واحد …

تعتمد رؤية الكمبيوتر بشكل كبير على التجزئة ، وهي عملية تحديد وحدات البكسل في الصورة التي تمثل كائنًا معينًا لاستخدامات تتراوح من تحليل الصور العلمية إلى إنشاء صور فنية. ومع ذلك ، فإن بناء نموذج تجزئة دقيق لمهمة معينة يتطلب عادةً مساعدة الخبراء التقنيين للوصول إلى البنية التحتية للتدريب على الذكاء الاصطناعي وكميات كبيرة من البيانات الموضحة بعناية في المجال.

يعرض بحث Meta AI الأخير مشروعهم المسمى “Segment Anything” ، وهو محاولة “لإضفاء الطابع الديمقراطي على التجزئة” من خلال توفير مهمة ومجموعة بيانات ونموذج جديد لتجزئة الصور. نموذج المقطع أي شيء (SAM) ومجموعة بيانات القناع Segment Anything 1-Billion (SA-1B) ، وهي أكبر مجموعة بيانات تجزئة على الإطلاق.

كانت هناك فئتان رئيسيتان من الاستراتيجيات للتعامل مع قضايا التجزئة. يمكن للتجزئة التفاعلية الأولى تقسيم أي كائن ، لكنها تحتاج إلى عامل بشري لتنقيح القناع بشكل تكراري. ومع ذلك ، فإن التقسيم التلقائي سمح بتقسيم فئات الكائنات المحددة مسبقًا. ومع ذلك ، فقد تطلب الأمر عددًا كبيرًا من الكائنات المشروحة يدويًا ، بالإضافة إلى موارد الحوسبة والخبرة الفنية ، لتدريب نموذج التجزئة. لم تقدم أي من الطريقتين وسيلة مضمونة ومؤتمتة عالميًا للتجزئة.

تشمل SAM كلاً من هاتين الفئتين الأوسع من الأساليب. إنه نموذج موحد ينفذ مهام التجزئة التفاعلية والآلية دون عناء. نظرًا لواجهته المرنة والسريعة ، يمكن استخدام النموذج في مهام التجزئة المختلفة ببساطة عن طريق هندسة الموجه المناسب. بالإضافة إلى ذلك ، يمكن لـ SAM التعميم على أنواع جديدة من الكائنات والصور لأنها مدربة على مجموعة بيانات متنوعة وعالية الجودة تضم أكثر من مليار قناع. بشكل عام ، لن يضطر الممارسون إلى جمع بيانات التجزئة الخاصة بهم وضبط نموذج لحالة استخدامهم بسبب هذه القدرة على التعميم.

تسمح هذه الميزات لـ SAM بالنقل إلى مجالات مختلفة وأداء مهام مختلفة. بعض قدرات SAM هي كما يلي:

  1. يسهل SAM تجزئة الكائن بنقرة واحدة بالماوس أو من خلال التحديد التفاعلي للنقاط للإدراج والاستبعاد. يمكن أيضًا استخدام مربع الحدود كموجه للنموذج.
  2. بالنسبة لمشاكل التجزئة العملية ، تعد قدرة SAM على إنشاء أقنعة صالحة منافسة في مواجهة غموض الكائن ميزة مهمة.
  3. يمكن لـ SAM اكتشاف وإخفاء أي كائنات في الصورة على الفور.
  4. بعد الحساب المسبق لتضمين الصورة ، يمكن لـ SAM على الفور إنشاء قناع تجزئة لأي مطالبة ، مما يتيح التفاعل في الوقت الفعلي مع النموذج.

احتاج الفريق إلى مجموعة بيانات كبيرة ومتنوعة لتدريب النموذج. تم استخدام SAM لجمع المعلومات. على وجه الخصوص ، تم استخدام SAM من قبل المعلقين لإجراء تعليق توضيحي تفاعلي للصور ، واستخدمت البيانات الناتجة لاحقًا لتحسين SAM وتحسينه. تم تشغيل هذه الحلقة عدة مرات لتحسين النموذج والبيانات.

يمكن جمع أقنعة التجزئة الجديدة بسرعة البرق باستخدام SAM. الأداة التي يستخدمها الفريق تجعل التعليقات التوضيحية للقناع التفاعلي سريعة وسهلة ، وتستغرق حوالي 14 ثانية فقط. يعد هذا النموذج أسرع بمقدار 6.5 مرة من شرح القناع المستند إلى المضلع اليدوي بالكامل من COCO وأسرع مرتين من أكبر جهد توضيحي للبيانات السابقة ، والذي كان أيضًا مدعومًا بالنموذج مقارنةً بجهود جمع البيانات السابقة على نطاق واسع.

لا يمكن إنشاء مجموعة بيانات القناع المقدمة والتي تبلغ قيمتها مليارًا باستخدام أقنعة مشروحة بشكل تفاعلي فقط. نتيجة لذلك ، طور الباحثون محرك بيانات لاستخدامه عند جمع البيانات لـ SA-1B. هناك ثلاثة “تروس” في “محرك” البيانات هذا. أول طريقة تشغيل للنموذج هي مساعدة المعلقين على البشر. في الترس التالي ، يتم دمج التعليقات التوضيحية التلقائية بالكامل مع المساعدة البشرية لتوسيع نطاق الأقنعة المجمعة. يدعم إنشاء القناع الأوتوماتيكي بالكامل قدرة مجموعة البيانات على التحجيم.

تحتوي مجموعة البيانات النهائية على أكثر من 11 مليون صورة مع تراخيص وحماية الخصوصية و 1.1 مليار قناع تجزئة. أكدت دراسات التقييم البشري أن الأقنعة الموجودة في SA-1B عالية الجودة والتنوع ويمكن مقارنتها من حيث الجودة بالأقنعة من مجموعات البيانات السابقة الأصغر حجمًا والتي تم شرحها يدويًا. يحتوي SA-1B على 400 ضعف عدد الأقنعة مثل أي مجموعة بيانات تجزئة موجودة.

قام الباحثون بتدريب SAM على توفير قناع تجزئة دقيق استجابة لمدخلات مختلفة ، بما في ذلك نقاط المقدمة / الخلفية ، وصندوق أو قناع تقريبي ، ونص حر ، وما إلى ذلك ، ولاحظوا أن مهمة التدريب المسبق وجمع البيانات التفاعلية فرضت قيودًا معينة على تصميم النموذج . لكي يستخدم المعلقون SAM بشكل فعال أثناء التعليق التوضيحي ، يجب أن يعمل النموذج في الوقت الفعلي على وحدة المعالجة المركزية في مستعرض الويب.

يمكن لجهاز التشفير خفيف الوزن تحويل أي مطالبة على الفور إلى متجه تضمين ، بينما يقوم برنامج تشفير الصور بإنشاء دمج لمرة واحدة للصورة. ثم يتم استخدام مفكك تشفير خفيف الوزن لدمج البيانات من هذين المصدرين في التنبؤ بقناع التجزئة. بمجرد حساب تضمين الصورة ، يمكن لـ SAM الرد على أي استعلام في مستعرض ويب مع مقطع في أقل من 50 مللي ثانية.

لدى SAM القدرة على دعم التطبيقات المستقبلية في مجموعة متنوعة من المجالات التي تتطلب تحديد موقع أي كائن وتقسيمه في أي صورة معينة. على سبيل المثال ، يعد فهم المحتوى المرئي والنصي لصفحة الويب مجرد مثال واحد على كيفية دمج SAM في أنظمة ذكاء اصطناعي أكبر من أجل فهم عام متعدد الوسائط للعالم.