الأخبار التكنولوجية والاستعراضات والنصائح!

تعرف على AUDIT: نموذج تحرير صوتي موجه بالتعليمات يعتمد على نماذج الانتشار الكامنة

ستساعدك المقالة التالية: تعرف على AUDIT: نموذج تحرير صوتي موجه بالتعليمات يعتمد على نماذج الانتشار الكامنة

تتقدم نماذج الانتشار بسرعة وتجعل الحياة أسهل. من معالجة اللغة الطبيعية وفهم اللغة الطبيعية إلى رؤية الكمبيوتر ، أظهرت نماذج الانتشار نتائج واعدة في كل مجال تقريبًا. هذه النماذج هي تطور حديث في الذكاء الاصطناعي التوليدي وهي نوع من النماذج التوليدية العميقة التي يمكن استخدامها لتوليد عينات واقعية من التوزيعات المعقدة.

تم تقديم نموذج انتشار جديد مؤخرًا من قبل الباحثين يمكنه بسهولة تحرير المقاطع الصوتية. يُطلق على نموذج الانتشار الكامن ، المسمى AUDIT ، نموذج تحرير صوتي موجه بالتعليمات. يتضمن تحرير الصوت بشكل أساسي تغيير إشارة إدخال الصوت لإنتاج إخراج صوتي محرّر. يتضمن ذلك مهام مثل إضافة مؤثرات صوتية في الخلفية ، أو استبدال موسيقى الخلفية ، أو إصلاح الصوت غير المكتمل ، أو تحسين الصوت منخفض الجودة. يأخذ AUDIT كلاً من إدخال الصوت والتعليمات البشرية كشرط ويولد إخراج الصوت المحرر.

استخدم الباحثون بيانات ثلاثية لتدريب نموذج نشر تحرير الصوت بطريقة خاضعة للإشراف. البيانات الثلاثية المستخدمة هي التعليمات وإدخال الصوت وإخراج الصوت. تم استخدام إدخال الصوت بشكل مباشر كمدخل شرطي لضمان الاتساق في مقاطع الصوت دون تحرير. كما تم استخدام إرشادات التحرير بشكل مباشر كدليل نصي لجعل النموذج أكثر مرونة وملاءمة لسيناريوهات العالم الحقيقي.

لخص فريق الباحثين وراء AUDIT مساهماتهم على النحو التالي –

  1. AUDIT هو التطور الأول الذي تم فيه تدريب نموذج الانتشار على تحرير الصوت ، والذي يأخذ تعليمات النص البشري كشرط.
  2. تم تصميم إطار عمل بناء البيانات لتدريب التدقيق بطريقة خاضعة للإشراف.
  3. AUDIT قادر على تعظيم الحفاظ على مقاطع الصوت التي لا تتطلب التحرير.
  4. يعمل التدقيق بشكل جيد مع الإرشادات البسيطة كدليل نصي دون الحاجة إلى وصف تفصيلي لهدف التحرير.
  5. حقق التدقيق نتائج جديرة بالملاحظة في كل من المقاييس الموضوعية والذاتية لعدد من مهام تحرير الصوت.

شارك الفريق بعض الأمثلة حيث قام التدقيق بأداء كبير وقام بتحرير الصوتيات بدقة. يتضمن ذلك إضافة صوت بوق السيارة في الصوت ، واستبدال صوت الضحك بصوت البوق ، وإزالة صوت امرأة تتحدث من صوت صفير شخص ما ، وما إلى ذلك. كان أداء AUDIT جيدًا للغاية في مهام تحرير الصوت وأظهر نتائج رائعة في المقاييس الموضوعية والذاتية ، بما في ذلك المهام التالية.

  • إضافة صوت إلى مقطع صوتي.
  • إسقاط أو حذف صوت من مقطع صوتي
  • استبدال حدث صوتي في إدخال الصوت بصوت آخر.
  • inpainting الصوت: إكمال مقطع مقنع من الصوت بناءً على السياق أو موجه نصي.
  • مهمة فائقة الدقة يمكن من خلالها تحويل صوت الإدخال منخفض العينات إلى صوت إخراج عالي العينات.

في الختام ، يبدو أن التدقيق الداخلي هو نهج واعد للمستقبل يمكنه تبسيط تحرير الصوت المرن والفعال باتباع الإرشادات البشرية.