الأخبار التكنولوجية والاستعراضات والنصائح!

تعرف على AudioGPT: نظام AI متعدد الوسائط يربط ChatGPT بنماذج الأساس الصوتي

ستساعدك المقالة التالية: تعرف على AudioGPT: نظام AI متعدد الوسائط يربط ChatGPT بنماذج الأساس الصوتي

يتأثر مجتمع الذكاء الاصطناعي الآن بشكل كبير بنماذج اللغات الكبيرة ، وقد أدى إدخال ChatGPT و GPT-4 إلى معالجة لغة طبيعية متقدمة. بفضل بيانات نصوص الويب الهائلة والهندسة القوية ، يمكن لـ LLM القراءة والكتابة والمحادثة مثل البشر. على الرغم من التطبيقات الناجحة في معالجة النصوص وتوليدها ، فإن نجاح طريقة الصوت والموسيقى والصوت والرأس الناطق) محدود ، على الرغم من أنها مفيدة للغاية للأسباب التالية: 1) في سيناريوهات العالم الحقيقي ، يتواصل البشر باستخدام اللغة المنطوقة طوال اليوم المحادثات ، ويستخدمون المساعد المنطوق لجعل الحياة أكثر راحة ؛ 2) يلزم معالجة معلومات الطريقة الصوتية لتحقيق نجاح التوليد الاصطناعي.

تتمثل الخطوة الحاسمة لـ LLM نحو أنظمة ذكاء اصطناعي أكثر تطوراً في فهم وإنتاج الصوت والموسيقى والصوت والرؤوس الناطقة. على الرغم من مزايا الطريقة الصوتية ، لا يزال من الصعب تدريب LLMs التي تدعم معالجة الصوت بسبب المشكلات التالية: 1) البيانات: توفر مصادر قليلة جدًا محادثات منطوقة في العالم الحقيقي ، والحصول على بيانات الكلام التي تحمل علامة بشرية يعد مكلفًا ووقتًا – عملية مستهلكة. بالإضافة إلى ذلك ، هناك حاجة إلى بيانات كلام المحادثة متعددة اللغات مقارنة بمجموعة كبيرة من بيانات نصوص الويب ، وكمية البيانات محدودة. 2) الموارد الحسابية: تدريب LLM متعدد الوسائط من البداية يتطلب حسابًا ويستغرق وقتًا طويلاً.

يقدم باحثون من جامعة تشجيانغ وجامعة بكين وجامعة كارنيجي ميلون وجامعة ريمين في الصين “AudioGPT” في هذا العمل ، وهو نظام تم تصميمه ليكون ممتازًا في فهم وإنتاج طريقة الصوت في الحوارات المنطوقة. بخاصة:

  1. يستخدمون مجموعة متنوعة من نماذج الأساس الصوتي لمعالجة المعلومات الصوتية المعقدة بدلاً من تدريب LLM متعدد الوسائط من البداية.
  2. يربطون LLM بواجهات الإدخال / الإخراج لمحادثات الكلام بدلاً من تدريب نموذج اللغة المنطوقة.
  3. يستخدمون LLM كواجهة للأغراض العامة تمكن AudioGPT من حل العديد من مهام فهم الصوت وإنشاءه.

سيكون من غير المجدي بدء التدريب من نقطة الصفر لأن نماذج الأساس الصوتي يمكنها بالفعل فهم وإنتاج الكلام والموسيقى والصوت ورؤوس الكلام.

باستخدام واجهات الإدخال / الإخراج ، ChatGPT ، واللغة المنطوقة ، يمكن لـ LLM التواصل بشكل أكثر فعالية عن طريق تحويل الكلام إلى نص. يستخدم ChatGPT محرك المحادثة والمدير الفوري لتحديد نية المستخدم عند معالجة البيانات الصوتية. يمكن تقسيم عملية AudioGPT إلى أربعة أجزاء ، كما هو موضح في الشكل 1:

• تحويل الأسلوب: يمكن أن يتواصل استخدام واجهات الإدخال / الإخراج و ChatGPT واللغة المنطوقة LLMs بشكل أكثر فعالية عن طريق تحويل الكلام إلى نص.

• تحليل المهام: يستخدم ChatGPT محرك المحادثة والمدير الفوري لتحديد نية المستخدم عند معالجة البيانات الصوتية.

• تعيين نموذج: يخصص ChatGPT نماذج الأساس الصوتي للفهم والتوليد بعد تلقي الحجج المنظمة للعروض ، والجرس ، والتحكم في اللغة.

• تصميم الاستجابة: توليد وتزويد المستهلكين بالإجابة النهائية بعد تنفيذ نموذج الأساس الصوتي.

أصبح تقييم فعالية LLM متعدد الوسائط في فهم النية البشرية وتنسيق التعاون بين نماذج الأساس المختلفة قضية بحث شائعة بشكل متزايد. تظهر النتائج من التجارب أن AudioGPT يمكنه معالجة البيانات الصوتية المعقدة في حوار متعدد الجولات لتطبيقات الذكاء الاصطناعي المختلفة ، بما في ذلك إنشاء وفهم الكلام والموسيقى والصوت والرؤوس الناطقة. يصفون مفاهيم التصميم وإجراءات التقييم لاتساق AudioGPT وقدرته وقوته في هذه الدراسة.

يقترحون AudioGPT ، الذي يزود ChatGPT بنماذج أساس الصوت للوظائف الصوتية المعقدة.

هذا هو أحد المساهمات الرئيسية للورقة. تقترن واجهة تحويل الطرائق بـ ChatGPT كواجهة للأغراض العامة لتمكين الاتصال المنطوق. يصفون مفاهيم التصميم وإجراءات التقييم الخاصة بـ LLM متعدد الوسائط ويقيمون اتساق وقدرة وقوة AudioGPT. يتفهم AudioGPT الصوت بشكل فعال وينتجه من خلال جولات عديدة من المناقشة ، مما يمكّن الأشخاص من إنتاج مواد صوتية غنية ومتنوعة مع بساطة لم يسمع بها من قبل. تم فتح الكود على GitHub.