الأخبار التكنولوجية والاستعراضات والنصائح!

يقترح باحثو CMU STF (رسم المستقبل): نهج ذكاء اصطناعي جديد يجمع بين إنشاء نص إلى فيديو بدون لقطة مع ControlNet لتحسين إخراج هذه …

ستساعدك المقالة التالية: يقترح باحثو CMU STF (رسم المستقبل): نهج ذكاء اصطناعي جديد يجمع بين إنشاء نص إلى فيديو بدون لقطة مع ControlNet لتحسين إخراج هذه …

زادت شعبية الأساليب القائمة على الشبكة العصبية لإنشاء مواد فيديو جديدة بسبب الارتفاع الهائل في محتوى الفيديو على الإنترنت. ومع ذلك ، فإن الحاجة إلى مجموعات البيانات المتاحة للجمهور مع بيانات الفيديو المصنفة تجعل من الصعب تدريب نماذج تحويل النص إلى فيديو. علاوة على ذلك ، فإن طبيعة المطالبات تجعل من الصعب إنتاج الفيديو باستخدام نماذج تحويل النص إلى الفيديو الحالية. إنها توفر حلاً مبتكرًا لهذه المشكلات يجمع بين مزايا إنتاج نص إلى فيديو بدون لقطة مع التحكم القوي في ControlNet. يعتمد نهجهم على بنية Text-to-Video Zero ، والتي تستخدم Stable Diffusion وتقنيات توليف نص إلى صورة أخرى لإنشاء مقاطع فيديو بأقل تكلفة.

التغييرات الرئيسية التي يقومون بها هي إضافة ديناميكيات الحركة إلى الرموز الكامنة للإطارات المنتجة وإعادة برمجة الاهتمام الذاتي على مستوى الإطار باستخدام آلية الانتباه عبر الإطارات الجديدة تمامًا. تضمن هذه التعديلات توحيد هوية الكائن الأمامي وسياقه ومظهره على المشهد والخلفية بالكامل. وهي تشمل إطار عمل ControlNet لتحسين التحكم في مواد الفيديو التي تم إنشاؤها. تعد خرائط الحافة وخرائط التجزئة والنقاط الرئيسية مجرد عدد قليل من شروط الإدخال المختلفة التي قد تقبلها ControlNet. يمكن أيضًا تدريبه من البداية إلى النهاية على مجموعة بيانات صغيرة.

تنتج Textto-Video Zero و ControlNet إطار عمل قويًا وقابلًا للتكيف لبناء محتوى الفيديو وإدارته مع استهلاك أقل الموارد. يحتوي نهجهم على إخراج فيديو يتبع تدفق إطارات مرسومة متعددة كمدخلات وإطارات مخططة متعددة كإخراج. قبل تشغيل Text-to-Video Zero ، يقومون بإقحام الإطارات بين الرسومات المُدخلة واستخدام الفيديو الناتج للإطارات المُقحمة كأسلوب تحكم. يمكن استخدام طريقتهم في مهام مختلفة ، بما في ذلك إنتاج الفيديو الشرطي والمحتوى المحدد و Video Instruct-Pix2Pix وتحرير الفيديو الموجه بالتعليمات والتوليف من النص إلى الفيديو. على الرغم من الحاجة إلى التدريب على بيانات فيديو إضافية ، فإن التجارب تثبت أن تقنيتها يمكن أن تنتج مخرجات فيديو عالية الجودة ومتسقة بشكل مثير للدهشة مع القليل من النفقات العامة.

يقدم باحثون من جامعة كارنيجي ميلون إطارًا قويًا وقابلًا للتكيف لإنشاء محتوى الفيديو وإدارته مع استخدام أقل قدر من الموارد من خلال الجمع بين مزايا Textto-Video Zero و ControlNet. يخلق هذا العمل فرصًا جديدة لإنشاء مقاطع فيديو فعالة وفعالة يمكن أن تخدم مجموعة متنوعة من مجالات التطبيق. ستتأثر مجموعة واسعة من الأعمال والتطبيقات بشكل كبير من خلال تطوير STF (رسم المستقبل). تمتلك STF القدرة على تغيير طريقة إنتاجها واستهلاكها لمحتوى الفيديو بشكل كبير كطريقة ثورية تمزج بين إنتاج نص إلى فيديو بدون لقطة مع ControlNet.

STF لها تأثيرات إيجابية وسلبية. يمكن أن يكون مفيدًا للمحترفين المبدعين في صناعة الأفلام والرسوم المتحركة والتصميم الجرافيكي. يمكن لطريقتهم تسريع العملية الإبداعية وتقليل الوقت والجهد اللازمين لإنتاج محتوى فيديو عالي الجودة من خلال تمكين تطوير محتوى الفيديو من الإطارات المرسومة والتعليمات المكتوبة. قد يكون من المفيد الحصول على مواد فيديو مخصصة بسرعة وفعالية للإعلان عن مبادرات التسويق. يمكن أن تساعد STF الشركات في تطوير مواد ترويجية مثيرة للاهتمام ومركزة ستساعدهم على التواصل مع عملائهم المستهدفين والوصول إليهم بشكل أفضل. يمكن استخدام STF لإنشاء موارد تعليمية تتوافق مع احتياجات التدريب أو أهداف التعلم. يمكن أن تؤدي طريقتهم إلى تجارب تعليمية أكثر كفاءة وإثارة للاهتمام من خلال إنتاج مواد فيديو تتوافق مع نتائج التعلم المستهدفة. إمكانية الوصول: يمكن لـ STF زيادة إمكانية الوصول إلى مواد الفيديو للأشخاص ذوي الإعاقات. يمكن أن تساعد طريقتهم في تطوير مواد الفيديو التي تحتوي على ترجمات أو وسائل مساعدة بصرية أخرى ، مما يجعل المعلومات والترفيه أكثر شمولاً ويمكن الوصول إليها لجمهور أوسع.

هناك مخاوف بشأن احتمال وجود معلومات مضللة ومقاطع فيديو مزيفة عميقة بسبب القدرة على إنتاج محتوى فيديو واقعي باستخدام مطالبات نصية وإطارات مخططة. قد تستخدم الجهات الخبيثة STF لإنشاء مواد فيديو مقنعة ولكنها مزيفة يمكن استخدامها لنقل معلومات مضللة أو التأثير على الرأي العام. من الممكن أن يؤدي استخدام STF لأغراض المراقبة أو المراقبة إلى انتهاك خصوصية الأشخاص. قد تطرح طريقتهم مشكلات أخلاقية وقانونية حول الإذن ويتم استخدام حماية البيانات لإنشاء مواد فيديو تحتوي على أشخاص أو مواقع يمكن التعرف عليها. تشريد الوظائف: قد يفقد بعض المتخصصين وظائفهم إذا تم استخدام STF على نطاق واسع في القطاعات التي تعتمد على التوليد اليدوي لمواد الفيديو. يمكن لطريقتهم تسريع إنتاج مقاطع الفيديو ، ولكنها يمكن أن تقلل أيضًا من الطلب على وظائف محددة في القطاعات الإبداعية ، بما في ذلك الرسوم المتحركة ومحرري الفيديو. إنها توفر حزمة موارد كاملة تتضمن فيلمًا تجريبيًا وموقعًا إلكترونيًا للمشروع ومستودعًا مفتوح المصدر GitHub وملعبًا Colab لتشجيع المزيد من الدراسة والاستخدام للاستراتيجية المقترحة.