ستساعدك المقالة التالية: تعرف على ديسكو التوليدي: نظام ذكاء اصطناعي مولّد يسهل إنشاء تحويل النص إلى فيديو لتصور الموسيقى باستخدام نموذج لغة كبير ونموذج تحويل النص إلى صورة
تلعب المرئيات دورًا مهمًا في كيفية سماعهم للموسيقى لأنها قد تبرز المشاعر والأفكار التي تعبر عنها. من المعتاد في مجال الموسيقى إصدار موسيقى مصحوبة بالمتخيلات ومقاطع الفيديو التي تعرض كلمات الأغاني ومقاطع الفيديو الموسيقية. تعد العروض التقديمية المسرحية والمناورات المرئية ، والتعديل في الوقت الفعلي واختيار الصور لتتناسب مع الموسيقى ، من الطرق الأخرى التي تؤكد بها الحفلات الموسيقية والمهرجانات على تصور الموسيقى. كل مكان يمكن عزف الموسيقى فيه الآن به بعض التصور الموسيقي ، من قاعات الحفلات الموسيقية إلى شاشات الكمبيوتر. تعد مقاطع الفيديو الموسيقية أحد الأمثلة على نوع من التصور الموسيقي الذي قد يعتز به الإنتاج الثقافي مثل الأغنية نظرًا لأن المواد المرئية تجعل الموسيقى أكثر غامرة.
نظرًا لأن الجمع بين الرسومات ومطابقتها مع الموسيقى يستغرق الكثير من الوقت والموارد ، فمن الصعب تطوير تصور الموسيقى. على سبيل المثال ، يجب الحصول على مقطع فيديو موسيقي وتصويره ومحاذاته وقصه. تتضمن كل خطوة في عملية تصميم وتحرير الفيديو الموسيقي اتخاذ قرارات إبداعية فيما يتعلق بالألوان والزوايا والانتقالات والموضوعات والرموز. يعد تنسيق هذه القرارات الإبداعية مع المكونات المعقدة للموسيقى أمرًا صعبًا. يجب أن يتعلم محررو الفيديو دمج الأغاني والألحان والإيقاعات مع الصور المتحركة عند التقاطعات الإستراتيجية.
يجب على المستخدمين الاطلاع على الكثير من المواد أثناء إنشاء مقاطع الفيديو ، ولكن يمكن لنماذج الذكاء الاصطناعي التوليدية إنتاج العديد من المحتويات الجميلة. في هذه المقالة ، يقدمون نمطي تصميم يمكن استخدامهما لتنظيم إنشاء الأفلام وإنشاء قصص مرئية مقنعة داخل مقاطع الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي: الانتقال ، نمط التصميم الأولي ، يساعد في تمثيل التغيير في لقطة منتجة. يعمل التعليق ، وهو نمط التصميم الثاني ، على تعزيز الاستمرارية البصرية والتركيز طوال اللقطة المصممة. يمكن للمستخدمين استخدام استراتيجيتي التصميم هاتين لتقليل الأعمال الفنية المتحركة وتعزيز قابلية مشاهدة الأفلام التي تم إنشاؤها بواسطة الذكاء الاصطناعي. يقدم باحثون من جامعة كولومبيا و Hugging Face تقنية Generative Disco ، وهي تقنية تحويل النص إلى فيديو لتصور الموسيقى التفاعلي. كانت واحدة من أوائل من قاموا بالتحقيق في المشكلات المتعلقة بالتفاعل بين الإنسان والحاسوب فيما يتعلق بأنظمة تحويل النص إلى فيديو واستخدام الذكاء الاصطناعي التوليدي لدعم تصور الموسيقى.
تعمل الفواصل الزمنية بمثابة لبنة أساسية لإنتاج مقاطع تصور الموسيقى الموجزة التي يمكن إنشاؤها باستخدام منهجيتها. يقرر المستخدمون أولاً أي فترة موسيقية يريدون تصورها. ثم يقومون بإنشاء مطالبات البدء والانتهاء لتحديد معلمات التصور لتلك الفترة الزمنية. يوفر النظام مساحة للعصف الذهني لمساعدة المستخدمين في تحديد المطالبات بالتوصيات المأخوذة من نموذج لغة كبير (GPT-4) ومعرفة مجال تحرير الفيديو للسماح للمستخدمين باستكشاف الطرق المختلفة التي قد يبدأ بها الفاصل الزمني وينتهي. يمكن للمستخدمين التثليث بين كلمات الأغاني والرسومات والموسيقى باستخدام ميزات العصف الذهني للنظام ، والتي تشمل الفهم البصري لـ GPT-4 والمصدر الآخر لمعلومات المجال. يختار المستخدمون جيلين ليكونا بمثابة صور البداية والنهاية للفاصل الزمني ، ثم يتم إنتاج تسلسل للصور عن طريق تزييف هاتين الصورتين في الوقت المناسب مع إيقاع الموسيقى. أجروا بحثًا عن المستخدم (ن = 12) مع اثني عشر متخصصًا في الفيديو والموسيقى لتقييم سير العمل في Generative Disco. كشف الاستطلاع أن المستخدمين اعتبروا النظام معبرًا للغاية وممتعًا ومباشرًا للاستكشاف. يمكن لخبراء الفيديو أن يتفاعلوا بشكل وثيق مع أجزاء كثيرة من الموسيقى أثناء إنتاج الصور التي يجدونها عملية وجذابة.
هذه هي المساهمات التي قدموها:
• إطار عمل لإنتاج الفيديو يستخدم الفواصل الزمنية باعتبارها لبنة أساسية. مع الوقت والحجوزات التي تعزز التركيز البصري ، قد ينقل الفيديو المنتج المعنى من خلال تغييرات اللون والموضوع والأسلوب والوقت.
• تقنية العصف الذهني متعدد الوسائط والتفكير السريع الذي يربط بين الكلمات والأصوات والأهداف المرئية ضمن المطالبات باستخدام GPT-4 والمعرفة بالمجال.
• Generative Disco ، وهو نظام ذكاء اصطناعي توليدي يستخدم خط أنابيب من نموذج لغة كبير ونموذج تحويل النص إلى صورة للمساعدة في إنتاج تحويل النص إلى فيديو لتصور الموسيقى.
• أظهر بحث كيف يمكن للخبراء استخدام Generative Disco لإعطاء الأولوية للتعبير على التنفيذ. في محادثتهم ، قاموا بتوسيع حالات التطبيق لطريقة تحويل النص إلى فيديو الخاصة بهم والتي تتجاوز التصور الموسيقي وتتحدث عن كيفية قيام الذكاء الاصطناعي التوليدي بالفعل بتحويل العمل الإبداعي.