الأخبار التكنولوجية والاستعراضات والنصائح!

استكشاف AVFormer: نهج Google AI المبتكر لزيادة النماذج الصوتية فقط باستخدام المعلومات المرئية & amp؛ تبسيط المجال التكيف

ستساعدك المقالة التالية: استكشاف AVFormer: نهج Google AI المبتكر لزيادة النماذج الصوتية فقط باستخدام المعلومات المرئية & amp؛ تبسيط المجال التكيف

تتمثل إحدى أكبر العقبات التي تواجه أنظمة التعرف التلقائي على الكلام (ASR) في عدم قدرتها على التكيف مع المجالات الجديدة غير المحدودة. تقنية ASR السمعية البصرية (AV-ASR) هي تقنية لتحسين دقة أنظمة ASR في الفيديو متعدد الوسائط ، خاصة عندما يكون الصوت مرتفعًا. هذه الميزة لا تقدر بثمن للأفلام التي يتم تصويرها “في البرية” عندما يكون فم السماعة غير مرئي. غالبًا ما تكون النماذج الخاصة بهذه المهمة كبيرة الحجم وتتضمن كلاً من أجهزة التشفير المرئية والصوتية ومجموعات البيانات لهذه المهمة تميل إلى أن تكون صغيرة.

كما تعمل AVASR الأخرى ، يتم تدريسها واختبارها فقط باستخدام مقاطع الفيديو التعليمية. كما توضح التجارب التي أجراها فريق البحث في Google ، فإنه يؤدي أداءً سيئًا عند تطبيقه على مجالات جديدة باستخدام مجموعة بيانات تدريب واحدة فقط. ومع ذلك ، تم تحسين العديد من نماذج الصوت فقط الضخمة التي تم إصدارها حديثًا بشكل كبير باستخدام التدريب المسبق تحت الإشراف الذاتي والتدريب الهائل الخاضع للإشراف على البيانات الصوتية فقط من الكتب الصوتية مثل LibriLight و LibriSpeech. النماذج ذات المليارات من المعلمات ، والتوافر الواسع ، والتعميم عبر المجال المثير للإعجاب كلها ميزات لهذه الفئة من النماذج. الفكرة هي إعادة تدوير الاستثمار الضخم في تدريب مثل هذه النماذج من خلال إعادة استخدام أوزانها. إلهامهم هو الجهود الأخيرة التي تقوم بتعديل نماذج الأساس المجمدة لاستخدامها في مجموعة متنوعة من المجالات.

بينما تحتفظ هذه النماذج بمزايا التدريب المسبق الصوتي فقط لتعميم اللقطة الصفرية ، فإنها تدمج الآن المدخلات المرئية بطريقة خفيفة الوزن لتمكين AV-ASR. يستخدم إطار عمل AVFormer طبقات الإسقاط الضوئي والمحولات القابلة للتدريب لبث المدخلات المرئية في نموذج ASR الثابت.

يوضح الباحثون أنه يمكن تدريسها مع الحد الأدنى من وقت التدريب الإضافي والمعلمات على كمية متواضعة من بيانات الفيديو ذات العلامات الرديئة. هذا يقلل من احتمالية تحول المجال والنسيان الكارثي المرتبط بالضبط الدقيق من طرف إلى طرف. كما أنها تدمج خطة المناهج الدراسية الأساسية أثناء التدريب لضمان الاتساق في التوليف النهائي لهذه المحولات ، والتي تثبت أنها ضرورية للنموذج لتفسير البيانات السمعية والبصرية جنبًا إلى جنب بشكل صحيح. أخيرًا ، أظهروا أن النموذج يتفوق على أحدث أساليب التسديد الصفري على ثلاثة معايير AV-ASR من مجالات مختلفة مع الحفاظ على الأداء المحترم على الخطوط الأساسية التي تعتمد فقط على الصوت.

يعد تعميم Zero-shot عبر جميع مجالات AV هو الهدف دون التضحية بالجودة في معايير الصوت فقط. يتم استخدام نموذج ASR المتطور كنقطة بداية ثم تعديله للاستخدام في AV-ASR غير المقيد. يتم استخدام العنصرين التاليين لتضمين الميزات المرئية المستمدة من نموذج مرئي قوي تم اختباره مسبقًا في النموذج:

  • يستخدمون إسقاطًا خطيًا للعناصر المرئية لدمج الرموز الصوتية.
  • لتسهيل تكيف المجال ، يقدمون محولات طفيفة التوغل في مشفر نموذج ASR قبل أن يتم تجميده.

فيما يلي بعض أهم أجزاء العمارة:

  • التشفير وفك التشفير للمطابقة المجمدة
  • تُستخدم طبقات التشفير والإسقاط البصري لإسقاط الميزات واستخراجها من الصور.
  • تمت إضافة طبقات التكيف إلى البنية التحتية الأساسية ، وتحديداً للطيف الصوتي.

لتسهيل تكيف المجال عبر طرائق متعددة ، تتميز الهندسة المعمارية بنموذج وحدة فك ترميز Conformer المجمد ومشفّر CLIP مجمّد (طبقات مجمدة تظهر باللون الرمادي مع رمز قفل) ، بالإضافة إلى وحدتين خفيفتين قابلتين للتدريب ، طبقة إسقاط بصري (كما هو موضح في البرتقالي) ومحولات عنق الزجاجة (تظهر باللون الأزرق). يوصي الباحثون باتباع نهج من مرحلتين لتعلم المناهج ، حيث تركز المرحلة الأولى على تدريب المحولات (باللون الأزرق) بدون أي رموز مرئية ، بينما تقوم المرحلة الثانية بضبط طبقة الإسقاط المرئي (باللون البرتقالي) مع الحفاظ على بقية النموذج ثابتًا.

يقوم الباحثون بتقييم أداء AVFormer من الصفر على معايير How2 و VisSpeech و Ego4D AV-ASR مقارنةً بـ BEST-RQ ، الإصدار الصوتي للنموذج ، و AVATAR ، أحدث AV-ASR. عندما يتم تدريب كل من AVATAR و BEST-RQ على LibriSpeech ومجموعة بيانات HowTo100M الكاملة ، لا يزال AVFormer يتفوق عليهم. والجدير بالذكر أن هذا يتطلب تدريب معلمات 600M لـ BEST-RQ ولكن فقط 4M معلمات لـ AVFormer ؛ لذلك ، فهو يحتاج فقط إلى مجموعة فرعية صغيرة من مجموعة بيانات التدريب (5٪ من HowTo100M). بالإضافة إلى ذلك ، قاموا بمقارنة AVFormer بخط أساس صوتي فقط يسمى LibriSpeech ووجدوا أنه يتفوق على كليهما.

تتم مقارنة أحدث ما توصلت إليه التقنية في أداء اللقطة الصفرية على العديد من مجموعات بيانات AV-ASR. LibriSpeech ، منصة صوتية فقط ، تتميز أيضًا بالعروض. تشير نسب WER المنخفضة إلى أداء أعلى. بينما تم تحديد مجمل AVATAR و BEST-RQ على HowTo100M ، فإن مجموعة AVFormer الصغيرة من المعلمات المحددة تسمح لها بالعمل بفعالية مع أقل من 5٪ من مجموعة البيانات.

كشف الباحثون النقاب عن AVFormer ، وهي أداة فعالة لتحويل الأمثلة الثابتة لنماذج ASR الحديثة إلى تلك المناسبة لـ AVASR. هذه الطريقة واقعية وفعالة ، كما يتضح من كفاءتها الصفرية. يصبح ضبط مجموعة المعلمات الكاملة للنماذج المدربة مسبقًا مشكلة مع نمو نماذج ASR في الحجم والتعقيد عبر المجالات. الطريقة فعالة للمعلمات ، مما يسمح بنقل المجال المتزامن ومزج المدخلات المرئية.