الأخبار التكنولوجية والاستعراضات والنصائح!

تعرف على CoMoSpeech: أسلوب قائم على نموذج الاتساق لتركيب الكلام يحقق إنتاج صوتي سريع وعالي الجودة

ستساعدك المقالة التالية: تعرف على CoMoSpeech: أسلوب قائم على نموذج الاتساق لتركيب الكلام يحقق إنتاج صوتي سريع وعالي الجودة

مع تزايد التفاعل بين الإنسان والآلة وتطبيقات الترفيه ، تم تضمين مهام تحويل النص إلى كلام (TTS) وتوليف صوت الغناء (SVS) على نطاق واسع في تركيب الكلام ، والذي يسعى جاهدًا إلى إنتاج صوت واقعي للأشخاص. استحوذت الأساليب القائمة على الشبكة العصبية العميقة (DNN) إلى حد كبير على مجال تخليق الكلام. عادةً ما يتم استخدام خط أنابيب من مرحلتين ، حيث يقوم النموذج الصوتي بتحويل النص ومعلومات التحكم الأخرى إلى ميزات صوتية (مثل مخططات الطيفية) قبل أن يقوم المشفر الصوتي بتحويل الميزات الصوتية إلى أشكال موجية مسموعة.

لقد نجح خط الأنابيب المكون من مرحلتين لأنه يعمل بمثابة “مرحل” لحل مشكلة تفجير البعد لترجمة النصوص القصيرة إلى صوتيات طويلة ذات تردد أخذ عينات مرتفع. الإطارات تصف الخصائص الصوتية. تؤثر الخاصية الصوتية التي ينتجها النموذج الصوتي ، غالبًا ما تكون مخطط طيفي ، بشكل كبير على جودة المحادثات المركبة. كثيرًا ما تُستخدم الشبكات العصبية التلافيفية (CNN) والمحولات في الأساليب القياسية الصناعية مثل Tacotron و DurIAN و FastSpeech للتنبؤ بمخطط ميل الطيفي من المكون الحاكم. اكتسبت قدرة نهج نموذج الانتشار على توليد عينات عالية الجودة الكثير من الاهتمام. العمليتان اللتان تشكلان نموذج الانتشار ، والمعروفان أيضًا بالنموذج القائم على النقاط ، هما عملية انتشار تشوش البيانات تدريجيًا إلى ضوضاء وعملية عكسية تحول الضجيج ببطء إلى البيانات. تعد حاجة نموذج الانتشار للعديد من التكرارات للجيل عيبًا خطيرًا. تم اقتراح العديد من التقنيات القائمة على نموذج الانتشار للنمذجة الصوتية في تركيب الصوت. لا تزال مشكلة سرعة التوليد البطيئة موجودة في معظم هذه الأعمال.

طور Grad-TTS معادلة تفاضلية عشوائية (SDE) لحل SDE العكسي ، والذي يتم استخدامه لحل الضوضاء لتحويل طيف ميل. على الرغم من إنتاج جودة صوت رائعة ، إلا أن سرعة الاستدلال بطيئة لأن الطريقة العكسية تتطلب الكثير من التكرارات (10-1000). تمت إضافة التقطير التدريجي إلى Prodiff عندما تم تطويره بشكل أكبر لتقليل عمليات العينة. استخدم DiffGAN-TTS نموذجًا تم تدريبه على الخصوم في Liu et al. لتمثيل وظيفة تقليل الضوضاء تقريبًا لتوليف الصوت الفعال. ResGrad في Chen et al. يقدّر ما تبقى من التنبؤ من FastSpeech2 المدربين مسبقًا والحقيقة الأساسية باستخدام نموذج الانتشار.

من الوصف أعلاه ، من الواضح أن تركيب الكلام له ثلاثة أهداف:

جودة صوت ممتازة: يجب أن يلتقط النموذج التوليفي بأمانة التفاصيل الدقيقة للصوت المتحدث التي تضيف إلى التعبير وطبيعية الصوت المركب. ركزت الأبحاث الحديثة على الأصوات ذات التغييرات الأكثر تعقيدًا في درجة الصوت والتوقيت والعاطفة بالإضافة إلى صوت التحدث المميز. Diffsinger ، على سبيل المثال ، يوضح كيف يمكن لنموذج الانتشار المصمم جيدًا أن يوفر صوتًا غنائيًا مركبًا ذا جودة جيدة بعد 100 تكرار. بالإضافة إلى ذلك ، من المهم منع التشوهات والتشوهات في الصوت الذي تم إنشاؤه.

استنتاج سريع: يعد التركيب الصوتي السريع ضروريًا للتطبيقات في الوقت الفعلي ، بما في ذلك أنظمة الاتصال والكلام التفاعلي والموسيقى. كونك ببساطة أسرع من الوقت الحقيقي لتركيب الصوت غير كافٍ عند تخصيص الوقت للخوارزميات الأخرى في نظام متكامل.

أبعد من الكلام: هناك حاجة إلى نمذجة صوتية أكثر تعقيدًا ، مثل صوت الغناء ، بدلاً من صوت التحدث المميز من حيث طبقة الصوت ، والعاطفة ، والإيقاع ، والتحكم في التنفس ، والجرس.

على الرغم من إجراء العديد من المحاولات ، إلا أن مشكلة المفاضلة بين جودة الصوت المركب وقدرة النموذج وسرعة الاستدلال لا تزال قائمة في تحويل النص إلى كلام. يكون أكثر وضوحًا في SVS نظرًا لآلية عملية تقليل التشويش عند إجراء أخذ العينات. غالبًا ما تهدف الأساليب الحالية إلى التخفيف من مشكلة الاستدلال البطيء بدلاً من حلها بالكامل. على الرغم من ذلك ، يجب أن تكون أسرع من الأساليب التقليدية دون استخدام نماذج الانتشار مثل FastSpeech2.

تم تطوير نموذج التناسق مؤخرًا ، مما أدى إلى إنتاج صور عالية الجودة بخطوة واحدة فقط لأخذ العينات من خلال التعبير عن المعادلة التفاضلية العشوائية (SDE) ، ووصف عملية أخذ العينات على أنها معادلة تفاضلية عادية (ODE) ، وتعزيز خاصية الاتساق للنموذج. على مسار ODE. على الرغم من هذا الإنجاز في تركيب الصورة ، هناك حاجة حاليًا إلى نموذج توليف صوتي معروف يعتمد على نموذج التناسق. يشير هذا إلى أنه من الممكن تطوير تقنية تخليق صوتي متسقة قائمة على النموذج تجمع بين التوليف عالي الجودة وسرعة الاستدلال السريع.

في هذه الدراسة ، يقدم باحثون من جامعة هونغ كونغ المعمدانية وجامعة هونغ كونغ للعلوم والتكنولوجيا و Microsoft Research Asia ومعهد هونغ كونغ للعلوم والابتكار CoMoSpeech ، وهو نهج سريع وعالي الجودة في تركيب الكلام يعتمد على نماذج التناسق. تم اشتقاق CoMoSpeech من مدرب تلقى تدريبًا بالفعل. وبشكل أكثر تحديدًا ، يستخدم نموذج المعلم الخاص بهم SDE لتعلم وظيفة تسجيل الدرجات المطابقة وترجمة مخطط ميل الطيفي بسلاسة إلى توزيع ضوضاء غاوسي. بعد التدريب ، يقومون ببناء وظيفة معرّف المدرس باستخدام المحولات الرقمية المرتبطة بـ ODE ، والتي يتم استخدامها بعد ذلك لمزيد من تقطير الاتساق. يتم إنتاج CoMoSpeech مع خصائص متسقة عن طريق التقطير. في النهاية ، يمكن لـ CoMoSpeech إنشاء صوت عالي الجودة بخطوة عينة واحدة.

تظهر نتائج تجارب TTS و SVS الخاصة بهم أن CoMoSpeech يمكن أن ينتج مونولوجات بخطوة عينة واحدة ، وهي أسرع بأكثر من 150 مرة من الوقت الفعلي. تكشف دراسة جودة الصوت أيضًا أن CoMoSpeech يوفر جودة صوت أعلى أو على قدم المساواة مع تقنيات نماذج الانتشار الأخرى التي تحتاج إلى عشرات إلى مئات التكرارات. أصبح تركيب الكلام المستند إلى نموذج الانتشار عمليًا الآن لأول مرة. يتم إعطاء العديد من الأمثلة الصوتية على موقع المشروع الخاص بهم.