الأخبار التكنولوجية والاستعراضات والنصائح!

Meet Bark: نموذج استنساخ صوت AI لتحويل النص إلى كلام والذي يبدو مثلك تمامًا

ستساعدك المقالة التالية: Meet Bark: نموذج استنساخ صوت AI لتحويل النص إلى كلام والذي يبدو مثلك تمامًا

تم تقديم نموذج Text2Speech الجديد ، Bark ، ولديه قيود على استنساخ الصوت ويسمح بالمطالبات لضمان سلامة المستخدم. ومع ذلك ، قام العلماء بفك تشفير عينات الصوت ، وتحرير التعليمات من القيود ، وجعلها متاحة في دفتر Jupyter يمكن الوصول إليه. الآن ، باستخدام 5-10 ثوانٍ فقط من عينات الصوت / النص ، من الممكن استنساخ ملف صوتي كامل.

ما هو النباح؟

تم تصميم نموذج Bark الرائد لتحويل النص إلى صوت من Suno على نماذج من طراز GPT ويمكنه إنتاج كلام طبيعي في العديد من اللغات ، بالإضافة إلى الموسيقى والضوضاء والمؤثرات الصوتية الأساسية. طورت Suno نموذج Bark لتحويل النص إلى صوت باستخدام محول. بالإضافة إلى إلقاء خطاب يبدو طبيعيًا بعدة لغات ، يمكن لـ Bark أيضًا إنشاء الموسيقى والضوضاء المحيطة والمؤثرات الصوتية الأساسية. يمكن للنموذج أيضًا أن يولد تعبيرات للوجه ، بما في ذلك الابتسام والعبوس والبكاء.

يستخدم Bark نماذج من نمط GPT لإنشاء الكلام مع الحد الأدنى من الضبط الدقيق ، مما ينتج عنه أصوات بمجموعة واسعة من التعبيرات والعواطف التي تعكس بدقة النغمة والنبرة والإيقاع. إنها تجربة رائعة تجعلك تتساءل عما إذا كنت تتحدث إلى أناس حقيقيين أم لا. يتمتع Bark بقدرات مذهلة وواضحة لتوليد الصوت بعدة لغات ، بما في ذلك الماندرين والفرنسية والإيطالية والإسبانية.

كيف يعمل؟

يستخدم Bark نماذج من نمط GPT لإنتاج الصوت من البداية ، تمامًا مثل Vall-E وغيره من الأعمال الرائعة في المنطقة. على عكس Vall-E ، تدمج الرموز الدلالية عالية المستوى موجه النص الأول بدلاً من الصوتيات. لذلك ، قد يُعمم على الأصوات غير الكلامية ، مثل كلمات الموسيقى أو المؤثرات الصوتية في بيانات التدريب ، بالإضافة إلى الكلام. ثم يتم إنشاء شكل الموجة بالكامل عن طريق تحويل الرموز الدلالية إلى رموز ترميز صوتية باستخدام نموذج ثانٍ.

سمات

  • يحتوي Bark على دعم مدمج لعدة لغات ويمكنه اكتشاف لغة إدخال المستخدم تلقائيًا. بينما تتمتع اللغة الإنجليزية حاليًا بأعلى جودة ، إلا أن اللغات الأخرى ستتحسن كمقياس واحد. لذلك ، سيستخدم Bark التمييز الطبيعي للغات المقابلة عند تقديمه مع نص بتبديل الشفرة.
  • Bark قادر على إنتاج أي شكل من أشكال الصوت يمكن تخيله ، بما في ذلك الموسيقى. لا يوجد تمييز جوهري بين الكلام والموسيقى في عقل بارك. في بعض الأحيان ، على الرغم من ذلك ، سيقوم Bark بدلاً من ذلك بإنشاء موسيقى تعتمد على الكلمات.
  • يمكن للنباح أن يكرر كل فارق بسيط في الصوت البشري ، بما في ذلك الجرس والنبرة والانعطاف والعزف. يعمل النموذج أيضًا على حفظ الأصوات البيئية والموسيقى والمدخلات الأخرى. نظرًا للتعرف الآلي على اللغة من Bark ، يمكنك استخدام موجه التاريخ الألماني مع المحتوى باللغة الإنجليزية ، على سبيل المثال. نتيجة لذلك ، عادةً ما يكون الصوت الناتج لهجة ألمانية.
  • يمكن للمستخدمين تحديد صوت شخصية معينة من خلال تقديم مطالبات مثل NARRATOR و MAN و WOMAN وما إلى ذلك. يتم اتباع هذه التوجيهات في بعض الأحيان فقط ، خاصة إذا تم توفير اتجاه سجل صوتي آخر يتعارض مع الأول.

أداء

تم التحقق من صحة تطبيقات CPU و GPU (pytorch 2.0+ و CUDA 11.7 و CUDA 12.0). يمكن أن ينتج Bark صوتًا في الوقت الفعلي تقريبًا على وحدات معالجة الرسومات الحالية باستخدام PyTorch كل ليلة. تتطلب Bark تشغيل نماذج محولات بأكثر من مائة مليون معلمة. قد تكون أوقات الاستدلال أبطأ من 10 إلى 100 مرة في وحدات معالجة الرسومات الأقدم أو التعاون الافتراضي أو وحدة المعالجة المركزية