الأخبار التكنولوجية والاستعراضات والنصائح!

يحول بحث NVIDIA الجديد الانتشار المستقر لـ LDM إلى نموذج تحويل نص إلى فيديو فعال ومعبّر بدقة تصل إلى 1280 × 2048

ستساعدك المقالة التالية: يحول بحث NVIDIA الجديد الانتشار المستقر لـ LDM إلى نموذج تحويل نص إلى فيديو فعال ومعبّر بدقة تصل إلى 1280 × 2048

نظرًا للتطورات الحديثة في أساليب النمذجة الأساسية ، جذبت النماذج التوليفية للصور اهتمامًا لم يسبق له مثيل. تعتمد أكثر النماذج فعالية اليوم على نماذج الانتشار ومحولات الانحدار الذاتي وشبكات الخصومة التوليدية. تشمل الميزات المرغوبة بشكل خاص لنماذج الانتشار (DMs) هدف التدريب المرن والقابل للتطوير والميل إلى الحاجة إلى معلمات أقل من معادلاتها القائمة على المحولات. تعد ندرة مجموعات بيانات الفيديو واسعة النطاق والعامة والمتاحة للجمهور والتكلفة الحسابية العالية التي ينطوي عليها التدريب على بيانات الفيديو من الأسباب الرئيسية وراء تأخر نمذجة الفيديو. في الوقت نفسه ، حقق مجال الصور خطوات هائلة.

على الرغم من وجود ثروة من الأبحاث حول تركيب الفيديو ، فإن معظم الجهود ، بما في ذلك مقاطع الفيديو المباشرة السابقة ، تنتج فقط أفلامًا منخفضة الدقة وقصيرة في كثير من الأحيان. إنهم ينشئون أفلامًا ممتدة وعالية الدقة من خلال تطبيق نماذج الفيديو على المشكلات الفعلية. إنهم يركزون على قضيتين ذات صلة بإنشاء الفيديو في العالم الحقيقي: (1) توليف الفيديو الموجه بالنص لإنتاج محتوى إبداعي و (2) توليف الفيديو لبيانات القيادة الواقعية عالية الدقة ، والتي تتمتع بإمكانيات كبيرة كمحرك محاكاة في القيادة الذاتية القيادة. للقيام بذلك ، يعتمدون على نماذج الانتشار الكامنة (LDMs) ، والتي يمكن أن تقلل العبء الحسابي الكبير عند التعلم من الصور عالية الدقة.

يقومون بإنشاء مقاطع فيديو متماسكة مؤقتًا باستخدام نماذج نشر الصور المدربة مسبقًا. يولد النموذج أولاً مجموعة من العينات مستقلة عن بعضها البعض. تتم محاذاة العينات مؤقتًا وإنشاء أفلام متماسكة بعد الضبط الدقيق للفيديو الزمني.

يوصي باحثون من LMU Munich و NVIDIA ومعهد Vector وجامعة تورنتو وجامعة Waterloo بالفيديو LDM وتوسيع نطاق LDM لإنشاء فيديو عالي الدقة ، وهي عملية تتطلب قدرًا كبيرًا من قوة الحوسبة. على عكس الأبحاث السابقة حول DMs لإنشاء الفيديو ، يتم تدريب Video LDM الخاص بهم مسبقًا على الصور حصريًا (أو استخدام LDM للصور المدربة مسبقًا) ، مما يسمح لنا بالاستفادة من مجموعات بيانات الصور الضخمة. بعد إضافة بُعد زمني إلى الفضاء الكامن DM ، يقومون بتحويل مولد صور LDM إلى مولد فيديو عن طريق تثبيت الطبقات المكانية المدربة مسبقًا وتدريب الطبقات الزمنية فقط على تسلسلات أو أفلام صور مشفرة (الشكل 1). لإنشاء تناسق زمني في مساحة البكسل. يقومون بضبط مفكك تشفير LDM بطريقة مماثلة (الشكل 2).

كما أنها تقوم أيضًا بمحاذاة مساحة البكسل ومختبرات DM الكامنة بشكل مؤقت ، والتي تستخدم بشكل متكرر للحصول على دقة فائقة للصور ، مما يجعلها في نماذج فائقة الدقة للفيديو متسقة مع الوقت لزيادة تحسين الدقة المكانية. قد ينتج نهجهم ، الذي يعتمد على LDMs ، أفلامًا متماسكة وطويلة عالميًا باستخدام القليل من الذاكرة وقوة المعالجة. يجب أن يعمل جهاز تكبير عينات الفيديو محليًا فقط من أجل التوليف بدقة عالية للغاية ، مما ينتج عنه القليل من التدريب ومتطلبات الحوسبة. لتحقيق جودة فيديو متطورة ، قاموا باختبار تقنيتهم ​​باستخدام 5121024 أفلام سيناريو القيادة الفعلية وتوليف مقاطع فيديو مدتها عدة دقائق.

بالإضافة إلى ذلك ، فهي تعمل على تحسين LDM الفعال للنص إلى الصورة والمعروف باسم Stable Diffusion ، بحيث يمكن استخدامه لإنشاء نص إلى فيديو بدقة تصل إلى 1280 × 2048. ويمكنهم الاستفادة من مجموعة تدريب صغيرة بشكل معقول من الأفلام ذات التسميات التوضيحية لأنهم بحاجة إلى تدريب طبقات المحاذاة الزمنية في مثل هذا السيناريو. إنهم يقدمون أول مثيل لإنشاء نص إلى فيديو مخصص عن طريق نقل الطبقات الزمنية التي تم تعلمها إلى LDMs التي تم تكوينها بشكل متنوع لتحويل النص إلى صورة. إنهم يتوقعون أن يمهد عملهم الطريق لإنشاء محتوى رقمي أكثر فعالية ومحاكاة القيادة الذاتية.

فيما يلي مساهماتهم:

(ط) أنها توفر طريقة عملية لتطوير نماذج إنتاج الفيديو القائمة على LDM بدقة عالية واتساق طويل الأجل. يتمثل اكتشافهم المهم في استخدام صور DMs المدربة مسبقًا لإنشاء مقاطع فيديو عن طريق إضافة طبقات زمنية يمكنها تدريب الصور على المحاذاة باستمرار طوال الوقت (الشكلان 1 و 2).

(2) يقومون أيضًا بضبط الدقة الفائقة DMs ، والتي تستخدم على نطاق واسع في الأدبيات المتعلقة بالتوقيت.

(3) يمكنهم إنتاج عدة أفلام مدتها دقيقة واحدة وتحقيق أحدث أداء لتركيب الفيديو عالي الدقة على تسجيلات سيناريو القيادة الحقيقية.

إنهم (1) يقومون بترقية النص إلى صورة LDM التي يمكن الوصول إليها بشكل عام لنشر النص إلى صورة LDM قوية ومعبرة لتحويل النص إلى فيديو (2) ، (3) تبين أن الطبقات الزمنية المكتسبة قد تتكامل مع نقاط فحص نموذج الصورة الأخرى (مثل مثل DreamBooth) ، و (4) تفعل الشيء نفسه بالنسبة للطبقات الزمنية المكتسبة.