ستساعدك المقالة التالية: نقل الصور بدون جهد: Text2Video-Zero هو نموذج AI يحول نماذج تحويل النص إلى صورة إلى مولدات فيديو Zero-Shot
لقد شهدنا ظهور نماذج الذكاء الاصطناعي التوليدية في الشهرين الماضيين. لقد انتقلوا من إنشاء صور منخفضة الدقة شبيهة بالوجه إلى إنشاء صور واقعية عالية الدقة بسرعة كبيرة. أصبح من الممكن الآن الحصول على صور فريدة واقعية من خلال وصف ما نريد رؤيته. علاوة على ذلك ، ربما يكون الأمر الأكثر إثارة للإعجاب هو حقيقة أنه يمكننا حتى استخدام نماذج الانتشار لإنشاء مقاطع فيديو لنا.
المساهم الرئيسي في الذكاء الاصطناعي التوليدي هو نماذج الانتشار. يأخذون مطالبة نصية وينشئون ناتجًا يطابق هذا الوصف. يفعلون ذلك عن طريق تحويل مجموعة من الأرقام العشوائية تدريجيًا إلى صورة أو مقطع فيديو مع إضافة المزيد من التفاصيل لجعلها تبدو مثل الوصف. تتعلم هذه النماذج من مجموعات البيانات التي تحتوي على ملايين العينات ، حتى تتمكن من إنشاء صور مرئية جديدة تشبه تلك التي رأوها من قبل. رغم ذلك ، يمكن أن تكون مجموعة البيانات هي المشكلة الرئيسية في بعض الأحيان.
يكاد يكون من غير الممكن دائمًا تدريب نموذج انتشار لتوليد الفيديو من البداية. إنهم يحتاجون إلى مجموعات بيانات كبيرة للغاية وكذلك معدات لتلبية احتياجاتهم. لا يمكن إنشاء مجموعات البيانات هذه إلا لعدد من المعاهد حول العالم ، حيث إن الوصول إلى هذه البيانات وجمعها بعيد المنال بالنسبة لمعظم الناس بسبب التكلفة. علينا أن نذهب مع النماذج الحالية ونحاول جعلها تعمل مع حالة الاستخدام الخاصة بنا.
حتى إذا تمكنت بطريقة ما من إعداد مجموعة بيانات نصية – فيديو بملايين ، إن لم يكن مليارات ، من الأزواج ، فلا تزال بحاجة إلى إيجاد طريقة للحصول على طاقة الأجهزة المطلوبة لتغذية تلك النماذج واسعة النطاق. لذلك ، فإن التكلفة العالية لنماذج نشر الفيديو تجعل من الصعب على العديد من المستخدمين تخصيص هذه التقنيات لاحتياجاتهم الخاصة.
ماذا لو كانت هناك طريقة لتجاوز هذا المطلب؟ هل يمكن أن يكون لدينا طريقة لتقليل تكلفة تدريب نماذج نشر الفيديو؟ الوقت المناسب لتلبية Text2Video-Zero
Text2Video-Zero هو نموذج توليد نص إلى فيديو بدون لقطة ، مما يعني أنه لا يتطلب أي تدريب ليتم تخصيصه. يستخدم نماذج نص إلى صورة مدربة مسبقًا ويحولها إلى نموذج إنشاء فيديو متسق مؤقتًا. في النهاية يعرض الفيديو سلسلة من الصور بطريقة سريعة لتحفيز الحركة. إن فكرة استخدامها على التوالي لإنشاء الفيديو هي حل مباشر.
على الرغم من ذلك ، لا يمكننا استخدام نموذج إنشاء الصور مئات المرات ودمج المخرجات في النهاية. لن يعمل هذا لأنه لا توجد طريقة للتأكد من أن النماذج ترسم نفس الكائنات طوال الوقت. نحن بحاجة إلى طريقة لضمان الاتساق الزمني في النموذج.
لفرض الاتساق الزمني ، Text2Video-Zero يستخدم اثنين من التعديلات خفيفة الوزن.
أولاً ، يُثري المتجهات الكامنة للإطارات المُنشأة بمعلومات الحركة للحفاظ على اتساق المشهد العالمي ووقت الخلفية. يتم ذلك عن طريق إضافة معلومات الحركة إلى المتجهات الكامنة بدلاً من مجرد أخذ عينات عشوائية منها. ومع ذلك ، لا تملك هذه النواقل الكامنة قيودًا كافية لتصوير ألوان أو أشكال أو هويات معينة ، مما يؤدي إلى تناقضات زمنية ، خاصة بالنسبة للكائن الأمامي. لذلك ، يلزم إجراء تعديل ثانٍ لمعالجة هذه المشكلة.
التعديل الثاني يتعلق بآلية الانتباه. للاستفادة من قوة الانتباه عبر الإطار وفي نفس الوقت استغلال نموذج الانتشار المدرب مسبقًا دون إعادة التدريب ، يتم استبدال كل طبقة انتباه ذاتي باهتمام عبر الإطار ، ويتركز الاهتمام لكل إطار على الإطار الأول. هذا يساعد Text2Video-Zero للحفاظ على سياق ومظهر وهوية الكائن الأمامي خلال التسلسل بأكمله.
تظهر التجارب أن هذه التعديلات تؤدي إلى إنشاء فيديو عالي الجودة ومتسق مع الوقت ، على الرغم من أنه لا يتطلب تدريبًا على بيانات الفيديو واسعة النطاق. علاوة على ذلك ، لا يقتصر الأمر على التوليف من نص إلى فيديو ولكنه ينطبق أيضًا على إنشاء الفيديو الشرطي والمتخصص ، بالإضافة إلى تحرير الفيديو عن طريق التعليمات النصية.