الأخبار التكنولوجية والاستعراضات والنصائح!

اقترح باحثون من UCL و Google فتحات صوتية: نموذج تكويني يركز على الفتحة لفصل المصادر العمياء للمجال الصوتي

ستساعدك المقالة التالية: اقترح باحثون من UCL و Google فتحات صوتية: نموذج تكويني يركز على الفتحة لفصل المصادر العمياء للمجال الصوتي

لقد حظي استخدام الشبكات العصبية في البنى التي تعمل على بيانات منظمة وتتعلم كيفية التعيين من المدخلات غير المهيكلة إلى مساحات الإخراج المهيكلة باهتمام كبير مؤخرًا. يتم دعم التطورات الأخيرة في تحديد الكائنات واكتشاف الأشياء غير الخاضعة للإشراف ، خاصة في مجال الرؤية ، من خلال الأنظمة التي تركز على الفتحة أو التي تركز على الكائن. هذه البنى المتمحورة حول الكائن مناسبة تمامًا لفصل الصوت بسبب التحيز الاستقرائي المتأصل في معادلة التباديل. الهدف من تمييز مصادر الصوت عن الإشارات الصوتية المختلطة دون الوصول إلى معلومات داخلية حول المصادر أو عملية الخلط هو محور تطبيق هذه الورقة للمفاهيم الأساسية من هذه البنى.

شكل 1: نظرة عامة على العمارة: يتم إنشاء مخطط طيفي بعد تقطيع شكل موجة الإدخال. بعد ذلك ، تقوم الشبكة العصبية بتشفير المخطط الطيفي لمجموعة من التداخلات ذات المصدر الثابت التبادلي (s1 … n) ، والتي يتم فك تشفيرها بعد ذلك لإنتاج مجموعة من مخططات طيفية المصدر المتميزة. تشرف وظيفة الخسارة الثابتة القائمة على المطابقة على خط الأنابيب بالكامل باستخدام مخططات طيفية مصدر الحقيقة الأرضية.

فصل الصوت هو مشكلة قائمة على مجموعة لأن ترتيب المصادر عشوائي. يتم التعرف على تعيين من مخطط طيف صوتي مختلط إلى مجموعة غير مرتبة من البرامج الطيفية المنفصلة المصدر ، ويتم تأطير التحدي المتمثل في فصل الصوت على أنه مشكلة النمذجة التوليدية الشرطية المتغيرة. باستخدام تقنيتهم ​​، فتحات الصوت ، يتم تقسيم الصوت إلى متغيرات كامنة مميزة لكل مصدر ، والتي يتم بعد ذلك فك تشفيرها لتوفير مخططات طيفية خاصة بالمصدر. يتم إنشاؤه باستخدام وظائف التشفير وفك التشفير بناءً على بنية المحولات. إنه معادل للتبديل ، مما يجعله مستقلاً عن ترتيب المتغيرات الكامنة المصدر (المعروفة أيضًا باسم “الفتحات”). يقومون بتدريب AudioSlots مع خسارة قائمة على المطابقة لإنتاج مصادر مستقلة من المدخلات الصوتية المختلطة لتقييم إمكانات مثل هذه البنية.

قدم باحثون من جامعة كوليدج لندن وجوجل ريسيرتش AudioSlots ، وهي بنية مولدة لبرامج طيفية صوتية مرتكزة على الفتحات. إنها توفر دليلاً على أن AudioSlots توفر إمكانية استخدام نماذج إنشائية منظمة لمعالجة مشكلة فصل مصدر الصوت. على الرغم من وجود العديد من العيوب في تنفيذها الحالي لـ AudioSlots ، مثل انخفاض جودة إعادة البناء للميزات عالية التردد والحاجة إلى مصادر صوتية منفصلة كإشراف ، إلا أنهم واثقون من أنه يمكن حل هذه المشكلات ويقترحون العديد من المجالات المحتملة لمزيد من البحث.

يعرضون منهجيتهم في العمل على مهمة فصل صوت ثنائية مباشرة من Libri2Mix. يكتشفون أن فصل الصوت مع النماذج التوليدية المرتكزة على الفتحات يظهر واعدًا ولكنه يأتي مع بعض الصعوبات: إصدار النموذج الذي يتم تقديمه يكافح لتوليد تفاصيل عالية التردد يعتمد على الاستدلال لتجميع أجزاء الصوت المتوقعة بشكل مستقل معًا ، ولا تزال بحاجة إلى أرضية- الحقيقة مصادر الصوت المرجعية للتدريب. في عملهم المستقبلي ، الذي يوفرون طرقًا محتملة له في دراستهم ، إنهم متفائلون بإمكانية معالجة هذه الصعوبات. ومع ذلك ، فإن نتائجهم تعمل في المقام الأول كدليل على المفهوم لهذه الفكرة.

تفحص ال ورق. لا تنسى الانضمام 22k + ML SubRedditو قناة الخلافو و النشرة البريد الإلكتروني، حيث نشارك آخر أخبار أبحاث الذكاء الاصطناعي ومشاريع الذكاء الاصطناعي الرائعة والمزيد. إذا كانت لديك أي أسئلة بخصوص المقالة أعلاه أو إذا فاتنا أي شيء ، فلا تتردد في مراسلتنا عبر البريد الإلكتروني على

🚀 تحقق من 100’s AI Tools في AI Tools Club

تحقق من https://aitoolsclub.com للعثور على مئات من أدوات الذكاء الاصطناعي الرائعة