الأخبار التكنولوجية والاستعراضات والنصائح!

Meta AI تقدم IMAGEBIND: أول مشروع ذكاء اصطناعي مفتوح المصدر قادر على ربط البيانات من ست طرائق في وقت واحد ، دون الحاجة إلى إشراف صريح

ستساعدك المقالة التالية: Meta AI تقدم IMAGEBIND: أول مشروع ذكاء اصطناعي مفتوح المصدر قادر على ربط البيانات من ست طرائق في وقت واحد ، دون الحاجة إلى إشراف صريح

يمكن للبشر فهم الأفكار المعقدة بعد تعرضهم لحالات قليلة. في معظم الأوقات ، يمكننا التعرف على حيوان بناءً على وصف مكتوب وتخمين صوت محرك سيارة غير معروف بناءً على بصري. هذا جزئيًا لأن صورة واحدة يمكن أن “تربط” معًا تجربة حسية متباينة. استنادًا إلى البيانات المقترنة ، فإن التعلم المعياري متعدد الوسائط له حدود في الذكاء الاصطناعي مع زيادة عدد الطرائق.

كانت محاذاة النص والصوت وما إلى ذلك مع الصور محور العديد من المنهجيات الحديثة. هذه الاستراتيجيات تستخدم حاستين فقط على الأكثر ، إذا كان الأمر كذلك. ومع ذلك ، لا يمكن أن تمثل حفلات الزفاف النهائية سوى أساليب التدريب والأزواج المقابلة لها. لهذا السبب ، لا يمكن نقل حفلات الزفاف المرئية والصوتية مباشرة إلى أنشطة النص المصور أو العكس. يعد الافتقار إلى كميات هائلة من البيانات متعددة الوسائط حيث توجد جميع الطرائق معًا عائقًا كبيرًا أمام تعلم تضمين مشترك حقيقي.

يقدم بحث Meta الجديد IMAGEBIND ، وهو نظام يستخدم عدة أشكال من بيانات أزواج الصور لتعلم مساحة تمثيل مشتركة واحدة. ليس من الضروري استخدام مجموعات البيانات التي تحدث فيها جميع الطرائق في وقت واحد. بدلاً من ذلك ، يستفيد هذا العمل من خاصية ربط الصور ويوضح كيف أن محاذاة تضمين كل طريقة مع تضمين الصور يؤدي إلى محاذاة ناشئة عبر جميع الطرائق.

أدى الكم الهائل من الصور والنصوص المصاحبة على الويب إلى إجراء بحث كبير في تدريب نماذج نصوص الصور. تستفيد ImageBind من حقيقة أن الصور تتزامن بشكل متكرر مع طرائق أخرى ويمكن أن تكون بمثابة جسر لربطها ، مثل ربط النص بالصورة بالبيانات عبر الإنترنت أو ربط الحركة بالفيديو ببيانات الفيديو التي تم الحصول عليها من الكاميرات القابلة للارتداء مع مستشعرات IMU.

يمكن أن تكون أهداف تعلم الميزات عبر الطرائق هي التمثيلات المرئية المستفادة من كميات هائلة من بيانات الويب. هذا يعني أنه يمكن لـ ImageBind أيضًا محاذاة أي طريقة أخرى تظهر بشكل متكرر بجانب الصور. المحاذاة هي أبسط لأنماط مثل الحرارة والعمق التي ترتبط بشدة بالصور.

يوضح ImageBind أن مجرد استخدام الصور المقترنة يمكن أن يدمج جميع الأساليب الست. يمكن أن يوفر النموذج تفسيرًا أكثر شمولية للمعلومات عن طريق السماح للطرائق المختلفة “بالتحدث” مع بعضها البعض واكتشاف الروابط دون ملاحظة مباشرة. على سبيل المثال ، يمكن لـ ImageBind ربط الصوت والنص حتى لو لم تتمكن من رؤيتهما معًا. من خلال القيام بذلك ، يمكن للنماذج الأخرى “فهم” الأساليب الجديدة دون الحاجة إلى تدريب مكثف للوقت والطاقة. يجعل سلوك القياس القوي لـ ImageBind من الممكن استخدام النموذج بدلاً من أو بالإضافة إلى العديد من نماذج الذكاء الاصطناعي التي لم يكن بإمكانها في السابق استخدام طرائق إضافية.

يتم توضيح تصنيف الصفر الناشئ القوي وأداء الاسترداد في المهام لكل طريقة جديدة من خلال الجمع بين البيانات المقترنة بنص الصورة على نطاق واسع مع البيانات ذاتية الإشراف المقترنة بشكل طبيعي عبر أربع طرائق جديدة: وحدة القياس السمعية والعمق والحرارية والقصور الذاتي ( IMU) قراءات. يوضح الفريق أن تقوية تمثيل الصورة الأساسي يعزز هذه الميزات الناشئة.

تشير النتائج إلى أن تصنيف IMAGEBIND الناشئ عن عدم إطلاق النار على تصنيف الصوت ومعايير الاسترجاع مثل ESC و Clotho و AudioCaps يتساوى مع أو يتفوق على نماذج الخبراء المدربين بالإشراف المباشر على النص الصوتي. في معايير التقييم ذات اللقطات القليلة ، تؤدي عروض IMAGEBIND أيضًا بشكل أفضل من النماذج الخاضعة لإشراف الخبراء. أخيرًا ، يبرهنون على تعدد استخدامات IMAGEBIND المشتركة في مختلف المهام التركيبية ، بما في ذلك الاسترجاع متعدد الوسائط ، والمزيج الحسابي من التضمينات ، واكتشاف مصدر الصوت في الصور ، وتوليد الصور من إدخال الصوت.

نظرًا لأن هذه الزخارف لم يتم تدريبها على تطبيق معين ، فإنها تتخلف عن كفاءة النماذج الخاصة بالمجال. يعتقد الفريق أنه سيكون من المفيد معرفة المزيد حول كيفية تخصيص حفلات الزفاف للأغراض العامة لأهداف محددة ، مثل مهام التنبؤ المنظمة مثل الاكتشاف.