ستساعدك المقالة التالية: أطلقت Meta AI مشروع الكلام متعدد اللغات (MMS) على نطاق واسع: تقديم الكلام إلى النص وتحويل النص إلى كلام والمزيد لأكثر من 1000 لغة
لقد تم إحراز تقدم كبير في تكنولوجيا الكلام على مدى العقد الماضي ، مما سمح بدمجها في عناصر استهلاكية متنوعة. يتطلب الأمر الكثير من البيانات المصنفة ، في هذه الحالة ، عدة آلاف من ساعات الصوت مع النسخ ، لتدريب نموذج جيد للتعلم الآلي لمثل هذه الوظائف. هذه المعلومات موجودة فقط في بعض اللغات. على سبيل المثال ، من بين أكثر من 7000 لغة مستخدمة اليوم ، يتم دعم حوالي 100 لغة فقط بواسطة خوارزميات التعرف على الصوت الحالية.
في الآونة الأخيرة ، تم تقليل كمية البيانات المصنفة اللازمة لإنشاء أنظمة الكلام بشكل كبير بسبب تمثيلات الكلام تحت الإشراف الذاتي. على الرغم من التقدم ، لا تزال الجهود الرئيسية الحالية تغطي حوالي 100 لغة فقط.
Facebookيدمج مشروع الكلام متعدد اللغات (MMS) الخاص بشركة Wav2vec 2.0 مع مجموعة بيانات جديدة تحتوي على بيانات مصنفة لأكثر من 1100 لغة وبيانات غير مسماة لما يقرب من 4000 لغة لمعالجة بعض هذه العقبات. بناءً على النتائج التي توصلوا إليها ، تتفوق نماذج الكلام متعدد اللغات على أحدث الأساليب وتدعم عشرة أضعاف اللغات.
نظرًا لأن أكبر مجموعات بيانات الكلام المتاحة لا تتضمن سوى ما يصل إلى 100 لغة ، كان هدفها الأولي هو جمع البيانات الصوتية لمئات اللغات. نتيجة لذلك ، نظروا إلى الكتابات الدينية مثل الكتاب المقدس ، والتي تُرجمت إلى العديد من اللغات والتي تم فحص ترجماتها على نطاق واسع لأبحاث الترجمة اللغوية القائمة على النصوص. سجل الأشخاص أنفسهم وهم يقرؤون هذه الترجمات وجعلوا الملفات الصوتية متاحة على الإنترنت. جمع هذا البحث مجموعة من قراءات العهد الجديد بأكثر من 1100 لغة ، مما أدى إلى متوسط 32 ساعة من البيانات لكل لغة.
يكشف تحقيقهم أن النماذج المقترحة تؤدي أداءً جيدًا بشكل مماثل لأصوات الذكور والإناث ، على الرغم من أن هذه البيانات من مجال معين ويتم قراءتها عادةً من قبل المتحدثين الذكور. على الرغم من أن التسجيلات دينية ، إلا أن البحث يشير إلى أن هذا لا ينحاز بشكل غير ملائم للنموذج نحو إنتاج لغة أكثر تديناً. وفقًا للباحثين ، هذا لأنهم يستخدمون إستراتيجية التصنيف الزمني الاتصالية ، والتي تكون محدودة أكثر من نماذج اللغات الكبيرة (LLMs) أو نماذج التسلسل إلى التسلسل للتعرف على الصوت.
قام الفريق بمعالجة بيانات tha مسبقًا من خلال الجمع بين نهج المحاذاة الإجباري عالي الكفاءة والذي يمكنه التعامل مع التسجيلات التي تبلغ مدتها 20 دقيقة أو أكثر مع نموذج المحاذاة الذي تم تدريبه باستخدام بيانات من أكثر من 100 لغة مختلفة. للتخلص من المعلومات التي قد تكون منحرفة ، استخدموا العديد من التكرارات لهذا الإجراء بالإضافة إلى خطوة التصفية عبر التحقق من الصحة بناءً على دقة النموذج. لقد قاموا بدمج تقنية المحاذاة في PyTorch وجعلوا نموذج المحاذاة متاحًا للجمهور حتى يتمكن الأكاديميون الآخرون من استخدامه لإنشاء مجموعات بيانات حديث جديدة.
لا توجد معلومات كافية لتدريب نماذج التعرف على الكلام التقليدية الخاضعة للإشراف مع 32 ساعة فقط من البيانات لكل لغة. اعتمد الفريق على wav2vec 2.0 لتدريب الأنظمة الفعالة ، مما قلل بشكل كبير من كمية البيانات التي تم تصنيفها مسبقًا. على وجه التحديد ، استخدموا أكثر من 1400 لغة فريدة لتدريب النماذج الخاضعة للإشراف الذاتي على أكثر من 500000 ساعة من البيانات الصوتية ، أي ما يقرب من خمس مرات لغات أكثر من أي جهد سابق.
استخدم الباحثون مجموعات بيانات معيارية موجودة مسبقًا مثل FLEURS لتقييم أداء النماذج المدربة على بيانات الكلام متعدد اللغات بشكل كبير. باستخدام نموذج wav2vec 2.0 لمعامل 1B ، قاموا بتدريب نظام التعرف على الكلام متعدد اللغات على أكثر من 1100 لغة. يتدهور الأداء قليلاً مع نمو عدد اللغات: يرتفع معدل الخطأ في الأحرف بنسبة 0.4٪ تقريبًا من 61 إلى 1،107 لغة ، بينما تزداد تغطية اللغة بنحو 18 مرة.
بمقارنة بيانات الكلام متعدد اللغات على نطاق واسع مع Whisper الخاص بـ OpenAI ، اكتشف الباحثون أن النماذج التي تم تدريبها على النوع الأول تحقق نصف معدل الخطأ في الكلمات. في الوقت نفسه ، يغطي هذا الأخير 11 ضعف عدد اللغات. يوضح هذا أن النموذج يمكنه التنافس بشكل إيجابي مع أحدث التقنيات في التعرف على الصوت.
استخدم الفريق أيضًا مجموعات البيانات ومجموعات البيانات المتاحة للجمهور مثل FLEURS و CommonVoice لتدريب نموذج تحديد اللغة (LID) لأكثر من 4000 لغة. ثم اختبرته في تحدي FLEURS LID. تظهر النتائج أن الأداء لا يزال ممتازًا حتى عندما يتم دعم 40 مرة من اللغات. كما طوروا أنظمة تركيب الكلام لأكثر من 1100 لغة. يتم تدريب غالبية خوارزميات تحويل النص إلى كلام الحالية على مجموعات بيانات صوتية ذات مكبر صوت واحد.
يتنبأ الفريق بعالم حيث يمكن لنموذج واحد التعامل مع العديد من مهام الكلام عبر جميع اللغات. بينما قاموا بتدريب نماذج فردية لكل مهمة – التعرف على اللغة والتوليف وتحديدها – فإنهم يعتقدون أنه في المستقبل ، سيكون نموذجًا واحدًا قادرًا على التعامل مع كل هذه الوظائف وأكثر من ذلك ، مما يؤدي إلى تحسين الأداء في كل مجال.