الأخبار التكنولوجية والاستعراضات والنصائح!

تعرف على Dreamix: إطار جديد للذكاء الاصطناعي (AI) لتحرير الفيديو الموجه بالنص

ستساعدك المقالة التالية: تعرف على Dreamix: إطار جديد للذكاء الاصطناعي (AI) لتحرير الفيديو الموجه بالنص

يعد تحويل النص إلى صورة مهمة صعبة في رؤية الكمبيوتر ومعالجة اللغة الطبيعية. يتطلب إنشاء محتوى مرئي عالي الجودة من الأوصاف النصية التقاط العلاقة المعقدة بين اللغة والمعلومات المرئية. إذا كان تحويل النص إلى صورة يمثل تحديًا بالفعل ، فإن توليف النص إلى الفيديو يوسع تعقيد إنشاء المحتوى ثنائي الأبعاد إلى ثلاثي الأبعاد ، بالنظر إلى التبعيات الزمنية بين إطارات الفيديو.

النهج الكلاسيكي عند التعامل مع مثل هذا المحتوى المعقد هو استغلال نماذج الانتشار. ظهرت نماذج الانتشار كأسلوب قوي لمعالجة هذه المشكلة ، والاستفادة من قوة الشبكات العصبية العميقة لتوليد صور فوتوغرافية واقعية تتماشى مع وصف نصي معين أو إطارات فيديو مع تناسق زمني.

تعمل نماذج الانتشار من خلال تحسين المحتوى المتولد بشكل متكرر من خلال سلسلة من خطوات الانتشار ، حيث يتعلم النموذج التقاط التبعيات المعقدة بين المجالات النصية والمرئية. وقد أظهرت هذه النماذج نتائج مبهرة في السنوات الأخيرة ، حيث حققت أداءً متطورًا في تحويل النص إلى صورة ومن نص إلى فيديو.

على الرغم من أن هذه النماذج تقدم عمليات إبداعية جديدة ، إلا أنها مقيدة في الغالب بإنشاء صور جديدة بدلاً من تحرير الصور الموجودة. تم تطوير بعض الأساليب الحديثة لملء هذه الفجوة ، مع التركيز على الحفاظ على خصائص معينة للصورة ، مثل ملامح الوجه أو الخلفية أو المقدمة ، أثناء تحرير الآخرين.

لتحرير الفيديو ، يتغير الوضع. حتى الآن ، تم استخدام نماذج قليلة فقط لهذه المهمة ، وكانت النتائج نادرة. يمكن وصف جودة التقنية من خلال المحاذاة والإخلاص والجودة. تشير المحاذاة إلى درجة الاتساق بين موجه نص الإدخال والفيديو الناتج. يراعي الإخلاص درجة الحفاظ على محتوى الإدخال الأصلي (أو على الأقل من ذلك الجزء غير المشار إليه في موجه النص). الجودة تعني تعريف الصورة ، مثل وجود تفاصيل دقيقة الحبيبات.

يتمثل الجزء الأكثر تحديًا في هذا النوع من تحرير الفيديو في الحفاظ على التناسق الزمني بين الإطارات. نظرًا لأن تطبيق أساليب التحرير على مستوى الصورة (إطارًا بإطار) لا يمكن أن يضمن مثل هذا الاتساق ، فهناك حاجة إلى حلول مختلفة.

نهج مثير للاهتمام لمعالجة مهمة تحرير الفيديو يأتي من Dreamix ، وهو إطار جديد للذكاء الاصطناعي (AI) يعتمد على نماذج الانتشار.

نظرة عامة على Dreamix مبينة أدناه.

يتمثل جوهر هذه الطريقة في تمكين نموذج نشر الفيديو المكيف للنص (VDM) للحفاظ على دقة عالية لفيديو الإدخال المحدد. ولكن كيف؟

أولاً ، بدلاً من اتباع النهج الكلاسيكي وتغذية الضوضاء النقية كتهيئة للنموذج ، استخدم المؤلفون نسخة متدهورة من الفيديو الأصلي. يحتوي هذا الإصدار على معلومات زمانية مكانية منخفضة ويتم الحصول عليها من خلال تصغير الحجم وإضافة الضوضاء.

ثانيًا ، تم تحديد نموذج الجيل على الفيديو الأصلي لتحسين الدقة بشكل أكبر.

يضمن Finetuning أن نموذج التعلم يمكنه فهم التفاصيل الدقيقة للفيديو عالي الدقة. ومع ذلك ، لنفترض أن النموذج تم تحديده بدقة على فيديو الإدخال. في هذه الحالة ، قد تفتقر إلى إمكانية تحرير الحركة لأنها ستفضل الحركة الأصلية بدلاً من اتباع مطالبات النص.

لمعالجة هذه المشكلة ، يقترح المؤلفون نهجًا جديدًا يسمى الضبط الدقيق المختلط. في الضبط النهائي المختلط ، يتم تحديد نماذج انتشار الفيديو (VDMs) على إطارات فيديو الإدخال الفردية مع تجاهل الترتيب الزمني. يتم تحقيق ذلك عن طريق إخفاء الانتباه الزمني. يؤدي الضبط الدقيق المختلط إلى تحسن كبير في جودة تعديلات الحركة.

تم توضيح المقارنة في النتائج بين Dreamix وأحدث الأساليب أدناه.

كان هذا ملخص Dreamix ، وهو إطار عمل ذكاء اصطناعي جديد لتحرير مقاطع الفيديو الموجهة بالنص.

إذا كنت مهتمًا أو ترغب في معرفة المزيد عن إطار العمل هذا ، فيمكنك العثور على رابط للورقة وصفحة المشروع.