الأخبار التكنولوجية والاستعراضات والنصائح!

تعرف على Multimodal C4: مجموعة صور مفتوحة بمليارات الحجم معشق مع النص

ستساعدك المقالة التالية: تعرف على Multimodal C4: مجموعة صور مفتوحة بمليارات الحجم معشق مع النص

قد تتكيف نماذج التسلسل مع المهام الجديدة دون تحديثات المعلمات بسبب التعلم في السياق. يمكن تقديم القليل من التعلم كمهمة توقع رمزية تالية من خلال تداخل عدد قليل من الحالات الخاضعة للإشراف في موجه ، حيث x1 ، y1 ، x2 ، y2 ، … ، xn هي المدخلات للتنبؤ بـ yn. من خلال الجمع بين الصور والنصوص ، توفر بعض نماذج الصور والنصوص أيضًا التعلم في السياق. تشير الأبحاث السابقة إلى أن التعلم الفعال في السياق متعدد الوسائط يتطلب تدريبًا مسبقًا على تسلسل الصور والنصوص المتشابكة بالمثل (بدلاً من مجرد صورة واحدة / مجموعة تعليق). ومع ذلك ، فإن مجموعة بهذا الحجم لم تكن متاحة لعامة الناس بعد.

يقدم باحثون من جامعة كاليفورنيا ، سانتا باربرا ، معهد ألين للذكاء الاصطناعي ، مدرسة بول جي ألين لعلوم الكمبيوتر ، جامعة واشنطن ، جامعة كولومبيا ، جامعة يونسي ولايون صورة عامة متعددة الوسائط C4 (mmc4) ، صورة عامة بمليار مقياس – مجموعة نصية مكونة من صور / تسلسلات نصية متشابكة ، لمعالجة المشكلة. يتم استخدام صفحات الويب العامة لمجموعة ملفات c4 الإنجليزية التي تم تنظيفها لإنشاء MMC4. إنهم يتعاملون مع كل مستند على أنه مشكلة تعيين خطية ثنائية الأجزاء ، مع تخصيص جمل للصور (في ظل القيد الذي يتم فيه تعيين كل جملة على الأكثر صورة واحدة) وإجراءات المعالجة المسبقة المعتادة مثل إزالة البيانات المكررة وإزالة NSFW وما إلى ذلك. كما يقومون أيضًا بإدراج الصور في التسلسلات من العقوبات من خلال التعامل مع كل وثيقة كمثال لمشكلة التخصيص الخطي الثنائية.

لقد أظهروا أولاً أن استخدام CLIP ViT-L / 14 لتقدير الأوزان ثنائية الأجزاء في تقنية اللقطة الصفرية ينتج عنه أداء متطور في معايير المحاذاة داخل المستند ، والتي تُستخدم لإنشاء mmc4. يناقشون mmc4 ، مع ملاحظة ما يلي: 1) تغطي النصوص والصور الموضوعات المشتركة المتوقعة مثل الطبخ والسفر. 2) تعمل المرشحات مثل NSFW / إزالة الإعلانات بدقة عالية ؛ و 3) الصور الناتجة وثيقة الصلة بالمستندات المرتبطة ، وفي كثير من الأحيان ، يتم محاذاة بشكل صحيح مع الجملة الفردية الأكثر صلة.

قبل الختام ، يستكشفون حالات الاستخدام الأولى لـ mmc4 ، بما في ذلك OpenFlamingo3 ، وهو أحد أنواع Flamingo مفتوحة المصدر. يقدمون mmc4 ، وهو مجموعة من 585 مليون صورة من مجموعة بيانات c4 المعروفة تتخللها رموز إنجليزية 43B. وفقًا للنتائج الأولية ، يتيح التدريب على تسلسل MMC4 إمكانية التكيف في سياق اللقطة مع مجموعات بيانات التسمية التوضيحية للصور. وبالمقارنة ، فإن النماذج المدربة على الصور الفردية / التسميات التوضيحية تكون أقل قدرة على أداء التعلم متعدد الوسائط في السياق من النماذج المدربة على تسلسل الصور / النص من MMC4. ويتوقعون أن التشذير سيكون حاسمًا لفهم عدد قليل من اللقطات ولتقنيات لغة متعددة الوسائط أكثر تنوعًا حيث قد يرغب المستخدمون في التفاعل مع الوكلاء بطرق جديدة أثناء التفاعل مع المعلومات المرئية ومناقشتها.

يجب أن تركز الأبحاث المستقبلية على ما يلي:

1. تقييم تجريبي أكثر دقة لمهارات التفكير في السياق ؛ هل النماذج قادرة على الاستدلال عبر الصور والنصوص في موجه ، أم أنها مقصورة على أمثلة مشذرة ومنفصلة خاضعة للإشراف؟

2. تحجيم البيانات: هل توافر مجموعات ضخمة ومتداخلة يحد من الرؤية في السياق + أداء تعلم اللغة؟ أم أن نهج التدريب المسبق أحادي الوسيط الأفضل كافٍ لتحرير النماذج متعددة الوسائط من الاختناقات؟

3. ضبط التعليمات: على الرغم من أن التشذير المنفصل الخاضع للإشراف للصورة + أمثلة النص يسمح بالتعلم في السياق ، فإن تدريب نموذج متعدد الوسائط يتبع التعليمات على وجه التحديد لهذا الاستخدام يعد بديلاً قابلاً للتطبيق.

لقد تم تقييد الوصول إلى مشروعهم. أولئك الذين يكملون الوصول إلى المشروع يحتاجون إلى ملء نموذج على صفحة GitHub الخاصة بهم.