الأخبار التكنولوجية والاستعراضات والنصائح!

تعرف على ONE-PEACE: نموذج التمثيل العام نحو أساليب غير محدودة عبر أساليب مختلفة

ستساعدك المقالة التالية: تعرف على ONE-PEACE: نموذج التمثيل العام نحو أساليب غير محدودة عبر أساليب مختلفة

حظيت نماذج التمثيل باهتمام كبير في رؤية الكمبيوتر ، والصوت ، ومعالجة اللغة الطبيعية ، وما إلى ذلك. تُظهر نماذج التمثيل تعميماً عالياً في العديد من المهام النهائية بعد التعلم من البيانات الضخمة. علاوة على ذلك ، هناك طلب متزايد على نماذج التمثيل بسبب الارتفاع المذهل لنماذج اللغة واسعة النطاق (LLMs). أثبتت نماذج التمثيل مؤخرًا أهميتها الأساسية في تمكين LLM من الفهم والتجربة والمشاركة مع الطرائق الأخرى (مثل الرؤية). ركزت الأبحاث السابقة في الغالب على تطوير نماذج تمثيل أحادي النمط مع طوبولوجيا فريدة ومهام ما قبل التدريب بسبب الخصائص المختلفة للطرائق المختلفة.

أظهرت الجهود الأخيرة في تعلم اللغة المرئية واللغة الصوتية نتائج واعدة بفضل تطوير البنى الموحدة وأنشطة التدريب المسبق الفعالة. ومع ذلك ، لا يزال يتعين إتاحة البحث حول إنشاء نماذج عالمية يمكن استخدامها في الأساليب اللغوية والمسموعة والمرئية. على الرغم من تحقيق نتائج رائعة ، تحتاج نماذج التمثيل الأحادي إلى مساعدة في استخدام البيانات متعددة الوسائط ، مثل اقتران الصورة والنص والصوت ، بكفاءة ، مما يجعل تطبيقها على المهام متعددة الوسائط أمرًا صعبًا. استخدم مهمة تنبؤ مقنعة واحدة مع محول Multiway لتحليل طرائق النص والصورة للتدريب المسبق.

قابلية التوسع إلى الطرائق الأخرى ، مثل الصوت ، مقيدة نظرًا لأن وظيفة التنبؤ المقنع تتطلب نموذج CLIP المحدد مسبقًا لتقدير إدخال الصورة. إنه يوفر نهجًا واسعًا للتدريب المسبق يمكن استخدامه في اللغة والصوت والطرائق المرئية بدون نماذج خارجية (مثل CLIP). ومع ذلك ، فإنه يحتاج إلى توسيع نهج البيانات متعددة الوسائط. في هذه الدراسة ، يبحثون طريقة قابلة للتطوير لتطوير نموذج تمثيل عام يمكن أن يستوعب أي عدد من الأساليب. وهي تعزز المتطلبات التالية لنموذج التمثيل الواسع: 1. يجب أن يكون تصميم النموذج قابلاً للتكيف بدرجة كافية للتعامل مع التفاعل متعدد الوسائط والطرائق المتعددة. 2. ينبغي أن تعزز تمارين ما قبل التدريب المواءمة عبر الأساليب واستخراج المعلومات داخل كل طريقة. 3. يجب أن تكون تمارين ما قبل التدريب واسعة وغير معقدة بحيث يمكن استخدامها بطرق مختلفة.

بسبب هذه الحوافز ، اقترح باحثون من أكاديمية DAMO وجامعة Huazhong للعلوم والتكنولوجيا نموذج ONE-PEACE ، وهو نموذج به معلمات 4B يمكنه محاذاة التمثيلات ودمجها بسلاسة عبر الطرائق المرئية والصوتية واللغوية. تشتمل بنية ONE-PEACE على مشفر اندماج طريقة والعديد من مهايئات الطريقة. تتضمن كل طريقة محولًا لتحويل المدخلات الأولية إلى تسلسلات ميزة. يستخدم مشفر الانصهار النموذجي تسلسلات الميزات القائمة على بنية المحولات. توجد طبقة انتباه ذاتي مشتركة وعدة طرق لشبكات التغذية الأمامية (FFNs) في كل كتلة محول. خلال طريقة مساعدة FFNs في استخراج المعلومات ضمن الطرائق. تستخدم طبقة الانتباه الذاتي آلية الانتباه لتمكين التفاعل بين الميزات متعددة الوسائط.

يجعل تقسيم العمل الواضح في هذه الهندسة المعمارية إضافة طرائق جديدة أمرًا بسيطًا ولا يتطلب سوى إضافة محولات و FFNs. أنها توفر وظيفتين مستقلتين عن طريقة التدريب المسبق لـ ONE-PEACE. الأول هو التعلم المتباين متعدد الوسائط ، والذي يجمع بين التعليم المتباين الرؤية واللغة والتعلم المتباين للغة السمعية لمحاذاة المساحات الدلالية للطرائق الثلاثة للرؤية والصوت واللغة بنجاح. الطريقة الثانية هي تقليل الضوضاء داخل الوسائط التعلم التباين ، والذي يمكن اعتباره يجمع بين التنبؤ المقنع والمعرفة التباينية. يتم إجراء الفقد التباين بين الميزات المقنعة الدقيقة والميزات المرئية ، مثل تصحيحات الصور أو الرموز المميزة للغة أو ميزات شكل الموجة الصوتية.

يمكن توسيع برنامج ONE-PEACE ليشمل طرائق لا نهائية بفضل تصميم النموذج الملائم للقياس وأنشطة ما قبل التدريب. تعمل هذه الأنشطة معًا على تحسين أداء النموذج أثناء الضبط الدقيق مع الحفاظ على سعة الاسترجاع عبر الوسائط. كما أنها تلغي متطلبات الخطط الخاصة بالطرق لأنها موجودة في كل مكان لجميع الطرائق. يجرون دراسات متعمقة حول مهام مختلفة في طرائق مختلفة ، مثل الرؤية والصوت ولغة الرؤية وأنشطة اللغة الصوتية. يحقق ONE PEACE نتائج رائدة في الصناعة دون استخدام نماذج مدربة مسبقًا على الرؤية أو اللغة للتهيئة في المهام أحادية الوسائط ومتعددة الوسائط. الرمز متاح للجمهور على GitHub.