الأخبار التكنولوجية والاستعراضات والنصائح!

تعرف على Tune-A-Video: إطار عمل AI لمعالجة مشكلة إنشاء تحويل النص إلى فيديو من خلال نماذج إنشاء تحويل النص إلى صورة الحالية

ستساعدك المقالة التالية: تعرف على Tune-A-Video: إطار عمل AI لمعالجة مشكلة إنشاء تحويل النص إلى فيديو من خلال نماذج إنشاء تحويل النص إلى صورة الحالية

دخلت تقنية الذكاء الاصطناعي (AI) في حقبة جديدة في علوم الكمبيوتر حيث يمكنها إنتاج صور غنية ونابضة بالحياة. تم تحسين إنشاء الوسائط المتعددة بشكل ملحوظ (على سبيل المثال ، إنشاء نص إلى نص ، ومن نص إلى صورة ، ومن صورة إلى صورة ، وتوليد صورة إلى نص). تم قبول النماذج التوليدية الحديثة مثل OpenAI’s Stable Diffusion و Dall-E (تحويل النص إلى صورة) ، ونتيجة لذلك ، تتطور هذه التقنيات بسرعة وتلفت انتباه الناس.

في حين أن الصور التي تنتجها هذه النماذج مذهلة ومفصلة بشكل لا يصدق ، وتشبه الصور الواقعية تقريبًا ، بدأ باحثو الذكاء الاصطناعي في التساؤل عما إذا كان بإمكاننا الحصول على نتائج مماثلة في مجال أكثر تحديًا ، مثل مجال الفيديو.

تأتي التحديات من التعقيد الزمني الذي تقدمه مقاطع الفيديو ، والتي لا تعدو كونها صورًا (في هذا السياق ، تسمى عادةً الإطارات) ملتصقة ببعضها البعض لمحاكاة الحركة. وبالتالي ، فإن فكرة الحركة ووهمها يتم تقديمها من خلال تسلسل متماسك مؤقتًا من الإطارات الموضوعة واحدة تلو الأخرى.

يتم تقديم التحدي الآخر من خلال المقارنة بين أبعاد مجموعات بيانات الصور النصية ومجموعات البيانات النصية والفيديو. مجموعات بيانات الصور النصية أكبر بكثير ومتنوعة من مجموعات نص الفيديو.

علاوة على ذلك ، لإعادة إنتاج نجاح توليد النص إلى صورة (T2I) ، تستخدم الأعمال الحديثة في إنشاء تحويل النص إلى فيديو (T2V) مجموعات بيانات نصية فيديو واسعة النطاق للضبط الدقيق.

ومع ذلك ، فإن مثل هذا النموذج مكلف من الناحية الحسابية. يتمتع البشر بقدرة مذهلة على تعلم مفاهيم بصرية جديدة من مثال واحد فقط.

مع هذا الافتراض ، تم اقتراح إطار عمل جديد يسمى Tune-A-Video.

يهدف الباحثون إلى دراسة مشكلة توليد T2V جديدة ، يشار إليها باسم One-Shot Video Generation ، حيث يتم تقديم زوج فيديو نصي واحد فقط لتدريب مولد T2V مفتوح المجال.

حدسيًا ، يمكن تكييف نموذج الانتشار T2I الذي تم اختباره مسبقًا على بيانات الصورة الضخمة لتوليد T2V.

تم تجهيز Tune-A-Video باهتمام سببي متفرق مصمم خصيصًا لتعلم الحركة المستمرة ، والتي تنشئ مقاطع فيديو من المطالبات النصية عبر ضبط فعال لطلقة واحدة لنماذج انتشار T2I المحددة مسبقًا.

تستند أسباب تكييف نماذج T2I مع T2V إلى ملاحظتين رئيسيتين.

أولاً ، يمكن لنماذج T2I إنشاء صور تتماشى جيدًا مع مصطلحات الفعل. على سبيل المثال ، بالنظر إلى المطالبة النصية “رجل يركض على الشاطئ” ، تنتج نماذج T2I اللقطة حيث يركض الرجل (لا يمشي أو يقفز) ، ولكن ليس بشكل مستمر (الصف الأول من الشكل 2). هذا بمثابة دليل على أن نماذج T2I يمكنها التعامل بشكل صحيح مع الأفعال من خلال الانتباه عبر الوسائط لتوليد الحركة الساكنة.

أخيرًا ، يؤدي توسيع نطاق الاهتمام الذاتي في نموذج T2I من صورة واحدة إلى صور متعددة إلى الحفاظ على تناسق المحتوى عبر الإطارات. بأخذ المثال المذكور من قبل ، يمكن ملاحظة نفس الرجل والشاطئ في التسلسل الناتج عندما نقوم بإنشاء إطارات متتالية بالتوازي مع الانتباه الممتد عبر الإطار إلى الإطار الأول. ومع ذلك ، فإن الحركة لا تزال غير مستمرة (الصف الثاني من الشكل 2).

هذا يعني أن أوجه التشابه المكانية بدلاً من مواضع البكسل تدفع فقط طبقات الانتباه الذاتي في نماذج T2I.

وفقًا لهذه الملاحظات والنتائج الوسيطة ، يبدو أن Tune-A-Video قادرة على إنتاج مقاطع فيديو متماسكة مؤقتًا بين التطبيقات المختلفة مثل تغيير الموضوع أو الخلفية وتحرير السمات ونقل النمط.

إذا كنت مهتمًا بالنتائج النهائية ، فسيتم تقديمها بالقرب من نهاية المقالة.

يتم عرض لمحة عامة عن Tuna-A-Video في الشكل أدناه.

يتم استخدام التفاف ثنائي الأبعاد على مدخلات الفيديو لاستخراج الاهتمام الذاتي الزمني بقناع للنمذجة الزمنية. لتحقيق تناسق زمني أفضل دون زيادة التعقيد الحسابي بشكل كبير ، يتم تقديم طبقة الانتباه السببي المتفرقة (SC-Attn).

مثل الاهتمام السببي ، يتم حساب إطار الفيديو الأول بشكل مستقل دون الالتفات إلى الإطارات الأخرى ، بينما يتم إنشاء الإطارات التالية من خلال زيارة الإطارات السابقة. يتعلق الإطار الأول بتماسك السياق ، بينما يستخدم الإطار الأول لتعلم الحركة المرغوبة.

تقوم طبقة SC-Attn بنماذج التعيين أحادي الاتجاه من إطار واحد إلى إطاراته السابقة ، وبسبب السببية ، فإن الميزات الرئيسية والقيمة المشتقة من الإطارات السابقة مستقلة عن إخراج الإطار المدروس.

لذلك ، يقوم المؤلفون بإصلاح مصفوفة إسقاط المفتاح والقيمة وتحديث مصفوفة الاستعلام فقط.

يتم أيضًا ضبط هذه المصفوفات بدقة في طبقات الانتباه الزمني (Temp-Attn) ، حيث تتم إضافتها حديثًا وتهيئتها بشكل عشوائي. علاوة على ذلك ، يتم تحديث إسقاط الاستعلام في الانتباه المتبادل (Cross-Attn) لتحسين محاذاة نص الفيديو.

يعد الضبط الدقيق لمجموعات الانتباه فعالاً من الناحية الحسابية ويحافظ على خصائص نماذج T2I القائمة على الانتشار دون تغيير.

يتم وصف بعض نتائج العينات ، الموضحة على شكل تسلسلات إطار ، أدناه كمقارنة بين Tune-A-Video وأحدث نهج.

كان هذا ملخصًا لـ Tune-A-Video ، وهو إطار عمل ذكاء اصطناعي جديد لمعالجة مشكلة إنشاء تحويل النص إلى فيديو. إذا كنت مهتمًا ، يمكنك العثور على مزيد من المعلومات في الروابط أدناه.

تفحص ال ورق و مشروع. يذهب كل الفضل في هذا البحث إلى الباحثين في هذا المشروع. أيضا ، لا تنسى الانضمام صفحة Reddit الخاصة بناو قناة الخلافو و النشرة البريد الإلكتروني، حيث نشارك آخر أخبار أبحاث الذكاء الاصطناعي ومشاريع الذكاء الاصطناعي الرائعة والمزيد.

تحقق من https://aitoolsclub.com للعثور على مئات من أدوات الذكاء الاصطناعي الرائعة