الأخبار التكنولوجية والاستعراضات والنصائح!

يمكن للمقاييس أن تخدع ، لكن العيون لا تستطيع: تقترح طريقة الذكاء الاصطناعي هذه مقياس جودة إدراكي لاستيفاء إطار الفيديو

ستساعدك المقالة التالية: يمكن للمقاييس أن تخدع ، لكن العيون لا تستطيع: تقترح طريقة الذكاء الاصطناعي هذه مقياس جودة إدراكي لاستيفاء إطار الفيديو

أدى التقدم في تقنية العرض إلى جعل تجربة المشاهدة لدينا أكثر كثافة وإمتاعًا. مشاهدة شيء ما بدقة 4K 60FPS مرضية للغاية من 1080P 30FPS. الأول يغمرك في المحتوى كما تشاهده. رغم ذلك ، لا يمكن للجميع الاستمتاع بهذا المحتوى لأنه ليس من السهل تقديمه. تكلف دقيقة فيديو 4K 60FPS حوالي 6 مرات أكثر من 1080P 30 إطارًا في الثانية من حيث البيانات ، والتي لا يمكن للعديد من المستخدمين الوصول إليها.

رغم ذلك ، من الممكن معالجة هذه المشكلة عن طريق زيادة دقة و / أو معدل الإطارات للفيديو الذي تم تسليمه. تعالج طرق الدقة الفائقة زيادة دقة الفيديو ، بينما تركز طرق الاستيفاء بالفيديو على زيادة عدد الإطارات داخل الفيديو.

يُستخدم الاستيفاء الداخلي لإطار الفيديو لإضافة إطارات جديدة في تسلسل فيديوي عن طريق تقدير الحركة بين الأرتال الموجودة. تم استخدام هذه التقنية على نطاق واسع في العديد من التطبيقات ، مثل الفيديو البطيء ، وتحويل معدل الإطارات ، وضغط الفيديو. عادةً ما يبدو الفيديو الناتج أكثر متعة.

في السنوات الأخيرة ، أحرزت الأبحاث حول استيفاء إطارات الفيديو تقدمًا كبيرًا. يمكنهم إنشاء إطارات وسيطة بدقة تامة وتوفير تجربة مشاهدة ممتعة.

ومع ذلك ، كان قياس جودة نتائج الاستيفاء مهمة صعبة لسنوات. تستخدم الأساليب الحالية في الغالب المقاييس الجاهزة لقياس جودة نتائج الاستيفاء. نظرًا لأن نتائج الاستيفاء في إطار الفيديو غالبًا ما تُظهر أعمالًا فريدة من نوعها ، فإن مقاييس الجودة الحالية لا تتوافق أحيانًا مع الإدراك البشري عند قياس نتائج الاستيفاء.

أجرت بعض الطرق اختبارات ذاتية للحصول على قياسات أكثر دقة ولكن القيام بذلك يستغرق وقتًا طويلاً ، باستثناء بعض الطرق التي تستخدم دراسات المستخدم. إذن ، كيف يمكننا قياس جودة طريقة الاستيفاء بالفيديو بدقة؟ حان الوقت للإجابة على هذا السؤال.

قدمت مجموعة من الباحثين مقياس جودة إدراكي مخصصًا لقياس نتائج الاستيفاء في إطار الفيديو. لقد صمموا بنية شبكة عصبية جديدة لتقييم جودة الفيديو الحسي بناءً على Swin Transformers.

تأخذ الشبكة كإدخال زوجًا من الإطارات ، أحدهما من تسلسل الفيديو الأصلي وإطار محرف واحد. ينتج درجة تمثل التشابه الإدراكي بين الإطارين. كانت الخطوة الأولى لتحقيق هذا النوع من الشبكات هي إعداد مجموعة بيانات ، ومن هنا بدأوا. قاموا ببناء مجموعة بيانات كبيرة لاستيفاء إطار الفيديو التشابه الإدراكي. تحتوي مجموعة البيانات هذه على أزواج من الإطارات من مقاطع فيديو مختلفة ، جنبًا إلى جنب مع الأحكام البشرية للتشابه الإدراكي. تُستخدم مجموعة البيانات هذه لتدريب الشبكة باستخدام مجموعة من المقاييس الموضوعية L1 و SSIM.

تقيس خسارة L1 الفرق المطلق بين النتيجة المتوقعة ودرجة الحقيقة الأرضية ، بينما يقيس فقدان SSIM التشابه الهيكلي بين صورتين. من خلال الجمع بين هاتين الخسارتين ، يتم تدريب الشبكة على التنبؤ بالدرجات الدقيقة والمتسقة مع الإدراك البشري. الميزة الرئيسية للطريقة المقترحة هي أنها لا تعتمد على الأطر المرجعية ؛ وبالتالي ، يمكن تشغيله على أجهزة العميل حيث لا تتوفر لدينا عادةً هذه المعلومات.