الأخبار التكنولوجية والاستعراضات والنصائح!

تقدم Google AI تطبيق MaMMUT: بنية بسيطة للتعلم المشترك للمهام متعددة الوسائط

ستساعدك المقالة التالية: تقدم Google AI تطبيق MaMMUT: بنية بسيطة للتعلم المشترك للمهام متعددة الوسائط

الفكرة التي تُبنى عليها النماذج الأساسية للغة الرؤية هي أنه يمكن استخدام تدريب مسبق واحد للتكيف مع مجموعة واسعة من الأنشطة النهائية. هناك نوعان من سيناريوهات التدريب المستخدمة على نطاق واسع ولكنها متميزة:

  • التعلم المقارن بأسلوب CLIP. إنه يدرب النموذج على التنبؤ بما إذا كانت أزواج الصورة والنص تتطابق بشكل صحيح ، وبناء تمثيلات مرئية ونصية بشكل فعال لمدخلات الصورة والنص المقابلة. إنه يتيح مهام استرجاع الصور والنصوص والصورة مثل اختيار الصورة التي تتطابق بشكل أفضل مع وصف معين.
  • تنبؤ الرمز المميز التالي: يتعلم إنشاء نص من خلال توقع الرمز المميز التالي الأكثر احتمالًا في تسلسل. وهو يدعم مهام إنشاء النصوص مثل التعليق على الصورة والإجابة المرئية للأسئلة (VQA) أثناء التعلم التباين.

بينما أظهرت كلتا الطريقتين نتائج واعدة ، تميل النماذج المدربة مسبقًا وغير القابلة للتحويل إلى مهام أخرى إلى أداء ضعيف في مهام إنشاء النص والعكس صحيح. من الشائع أيضًا استخدام الأساليب المعقدة أو غير الفعالة أثناء التكيف مع المهام الجديدة.

للتدريب المشترك على هذه الأهداف المتنافسة ولتوفير الأساس للعديد من مهام الرؤية واللغة إما بشكل مباشر أو عن طريق التكيف السهل ، تقدم دراسة حديثة من Google MaMMUT ، وهي بنية بسيطة للتعلم المشترك للمهام متعددة الوسائط. MaMMUT هو نموذج متعدد الوسائط مكثف مع معلمات 2B فقط ، ويمكن تدريبه لتحقيق أهداف متباينة ، وتوليد النص ، ومراعية للترجمة. إن تصميمه البسيط – مجرد أداة ترميز صورة واحدة ووحدة فك ترميز نص واحدة – يجعل من السهل إعادة تدوير الاثنين بشكل مستقل.

يشتمل النموذج المقترح على مشفر مرئي واحد ووحدة فك ترميز نصية واحدة مرتبطة عبر الانتباه المتبادل وتتدرب بشكل متزامن على أنواع الخسائر المتباينة والمولدة للنص. العمل السابق إما لا يعالج مهام استرجاع نص الصورة أو يطبق فقط بعض الخسائر لتحديد جوانب النموذج. يعد التدريب المشترك للخسائر التباينية والخسائر الشبيهة بالتسميات النصية النصية ضرورية لتمكين المهام متعددة الوسائط والاستخدام الكامل لنموذج وحدة فك التشفير فقط.

هناك مكاسب كبيرة في الأداء مع حجم نموذج أصغر (ما يقرب من نصف المعلمات) لنماذج مفكك الشفرة فقط في تعلم اللغة. واحدة من أكبر العقبات التي تحول دون استخدامها في المواقف متعددة الوسائط هي التوفيق بين التعلم التباين (الذي يعتمد على تمثيل غير مشروط على مستوى التسلسل) والتعليق (الذي يحسن احتمالية وجود رمز بناءً على الرموز المميزة التي جاءت قبله). يقدم الباحثون تقنية ذات مسارين لتعلم تمثيلات النص غير المتوافقة داخل وحدة فك التشفير بشكل مشترك.

يستخدم تشغيلهم الأولي في تعلم تحدي إنشاء التسمية التوضيحية الانتباه المتبادل والإخفاء السببي بحيث يمكن لميزات النص الانتباه إلى ميزات الصورة وإجراء تنبؤات رمزية متسلسلة. يقومون بإيقاف تشغيل الانتباه المتبادل والإخفاء السببي لتعلم المهمة المتناقضة في التمريرة الثانية. بينما تظل ميزات الصورة مخفية عن ميزات النص ، ستتمكن ميزات النص من الحضور في كلا الاتجاهين على جميع الرموز المميزة النصية في وقت واحد. كلتا المهمتين ، اللتين كان من الصعب التوفيق بينهما في السابق ، يمكن الآن التعامل معها بواسطة نفس وحدة فك التشفير بفضل تقنية التمريرين. على الرغم من أن بنية النموذج بسيطة للغاية ، إلا أنها يمكن أن تكون بمثابة أساس للعديد من المهام متعددة الوسائط.

نظرًا لأن البنية يتم تدريبها على عدة مهام منفصلة ، فقد يتم دمجها بسهولة في العديد من التطبيقات ، بما في ذلك استرجاع الصور والنصوص والصور وتقييم الجودة المرئية والتعليق. يستخدم الباحثون أنابيب فيديو متفرقة للوصول مباشرة إلى المعلومات الزمانية المكانية من الفيديو من أجل التكيف مع الوزن الخفيف. مطلوب أيضًا التدريب على اكتشاف المربعات المحيطة عبر رأس اكتشاف الكائن لنقل النموذج إلى Open-Vocabulary Detection.

على الرغم من تصميمه المضغوط ، يوفر MaMMUT نتائج فائقة أو تنافسية في مجالات مختلفة ، بما في ذلك استرجاع الصور والنصوص والصورة ، والإجابة على أسئلة الفيديو (VideoQA) ، والتعليق على الفيديو ، وتحديد المفردات المفتوحة ، و VQA. يسلط الفريق الضوء على أن نموذجهم يحقق نتائج أفضل من النماذج الأكبر مثل Flamingo ، المصمم خصيصًا للتدريب المسبق على الصورة + الفيديو والمدرب مسبقًا بالفعل على بيانات نصوص الصور والفيديو.