الأخبار التكنولوجية والاستعراضات والنصائح!

يقترح بحث جديد للذكاء الاصطناعي (AI) من جامعة ماريلاند أداة تحرير فيديو بطبقات يحركها النص مدركًا للشكل

ستساعدك المقالة التالية: يقترح بحث جديد للذكاء الاصطناعي (AI) من جامعة ماريلاند أداة تحرير فيديو بطبقات يحركها النص مدركًا للشكل

تم إحداث ثورة في تحرير الفيديو ، وهي عملية معالجة مقاطع الفيديو وإعادة ترتيبها لتحقيق الأهداف المرجوة ، من خلال دمج الذكاء الاصطناعي (AI) في علوم الكمبيوتر. تسمح أدوات تحرير الفيديو التي تعمل بالذكاء الاصطناعي بعمليات ما بعد الإنتاج بشكل أسرع وأكثر كفاءة. مع تقدم خوارزميات التعلم العميق ، يمكن للذكاء الاصطناعي الآن أداء مهام مثل تصحيح الألوان وتتبع الكائنات وحتى إنشاء المحتوى تلقائيًا. من خلال تحليل الأنماط في بيانات الفيديو ، يمكن للذكاء الاصطناعي اقتراح تعديلات وانتقالات من شأنها تحسين المظهر العام والمظهر للمنتج النهائي. بالإضافة إلى ذلك ، يمكن أن تساعد الأدوات المستندة إلى الذكاء الاصطناعي في تنظيم وتصنيف مكتبات الفيديو الكبيرة ، مما يسهل على المحررين العثور على اللقطات التي يحتاجون إليها. يمكن أن يؤدي استخدام الذكاء الاصطناعي في تحرير الفيديو إلى تقليل الوقت والجهد اللازمين بشكل كبير لإنتاج محتوى فيديو عالي الجودة مع إتاحة إمكانيات إبداعية جديدة.

شهد استخدام شبكات GAN في تركيب الصور الموجهة بالنص ومعالجتها تطورات كبيرة في السنوات الأخيرة. لقد أثبتت نماذج إنشاء تحويل النص إلى صورة مثل DALL-E والطرق الحديثة باستخدام تضمين CLIP المدربين مسبقًا نجاحًا. أظهرت نماذج الانتشار ، مثل Stable Diffusion ، نجاحًا أيضًا في إنشاء الصور الموجهة بالنص وتحريرها ، مما أدى إلى تطبيقات إبداعية متنوعة. ومع ذلك ، لتحرير الفيديو ، مطلوب أكثر من الدقة المكانية ، وهذا هو الاتساق الزمني.

يعمل العمل المقدم في هذه المقالة على توسيع إمكانات تحرير الصور الدلالية لنموذج النص إلى الصورة الأكثر تطورًا Stable Diffusion إلى تحرير الفيديو المتسق.

خط الأنابيب للهندسة المعمارية المقترحة موضح أدناه.

بالنظر إلى إدخال فيديو وموجه نصي ، فإن طريقة تحرير الفيديو المدركة للشكل المقترحة تنتج مقطع فيديو متسقًا مع تغييرات في المظهر والشكل مع الحفاظ على الحركة في فيديو الإدخال. للحصول على تناسق زمني ، يستخدم النهج NLA (أطلس غير خطي) مُدرَّب مسبقًا لتحليل فيديو الإدخال في أطلس موحد في الخلفية (BG) والمقدمة (FG) مع رسم خرائط الأشعة فوق البنفسجية المرتبط لكل إطار. بعد تحلل الفيديو ، يتم التلاعب بإطار رئيسي واحد في الفيديو باستخدام نموذج نشر النص إلى الصورة (الانتشار الثابت). استغل النموذج هذا الإطار الرئيسي الذي تم تحريره لتقدير المراسلات الدلالية الكثيفة بين المدخلات والإطارات الرئيسية المحررة ، مما يسمح بإجراء تشوه الشكل. هذه الخطوة حساسة للغاية ، لأنها تنتج متجه تشوه الشكل المطبق على الصورة المستهدفة للحفاظ على الاتساق الزمني. يعمل تشوه الشكل هذا كأساس للتشوه لكل إطار نظرًا لاستخدام خرائط الأشعة فوق البنفسجية والأطلس لربط التعديلات بكل إطار. علاوة على ذلك ، يتم استغلال نموذج انتشار مدرب مسبقًا للتأكد من أن إخراج الفيديو سلس وبدون وحدات بكسل غير مرئية.

وفقًا للمؤلفين ، ينتج عن النهج المقترح أداة موثوقة لتحرير الفيديو توفر المظهر المطلوب وتحريرًا ثابتًا للشكل. يقدم الشكل أدناه مقارنة بين إطار العمل المقترح وأحدث الأساليب.

كان هذا ملخصًا لأداة جديدة للذكاء الاصطناعي من أجل تعديل نصوص يحركه النص بشكل دقيق ومتسق.

إذا كنت مهتمًا أو ترغب في معرفة المزيد عن إطار العمل هذا ، فيمكنك العثور على رابط للورقة وصفحة المشروع.