الأخبار التكنولوجية والاستعراضات والنصائح!

تقترح دراسة جديدة للذكاء الاصطناعي (AI) تقنية مزج مدركة ثلاثية الأبعاد مع NeRFs التوليدية

ستساعدك المقالة التالية: تقترح دراسة جديدة للذكاء الاصطناعي (AI) تقنية مزج مدركة ثلاثية الأبعاد مع NeRFs التوليدية

يعد مزج الصور طريقة أساسية في رؤية الكمبيوتر ، وهو أحد أكثر الفروع شهرة في مكون الذكاء الاصطناعي. الهدف هو مزج صورتين أو أكثر لإنتاج توليفة فريدة تتضمن أفضل جوانب كل صورة إدخال. تُستخدم هذه الطريقة على نطاق واسع في مجالات التطبيق المختلفة ، بما في ذلك تحرير الصور وصور الكمبيوتر والتصوير الطبي.

يتم استخدام مزج الصور بشكل متكرر في أنشطة الذكاء الاصطناعي مثل تجزئة الصورة وتحديد الكائنات والدقة الفائقة للصورة. إنه مهم في تحسين وضوح الصورة ، وهو أمر ضروري للعديد من الاستخدامات ، مثل الروبوتات والقيادة الآلية والمراقبة.

على مر السنين ، تم إنشاء العديد من تقنيات مزج الصور ، بالاعتماد بشكل أساسي على تزييف الصورة عبر التحويل الأفيني ثنائي الأبعاد. ومع ذلك ، لا تأخذ هذه الأساليب في الحسبان التناقض في الميزات الهندسية ثلاثية الأبعاد مثل الوضع أو الشكل. تعد المحاذاة ثلاثية الأبعاد أكثر صعوبة في تحقيقها ، حيث تتطلب استنتاج البنية ثلاثية الأبعاد من عرض واحد.

لمعالجة هذه المشكلة ، تم اقتراح طريقة مزج للصور ثلاثية الأبعاد تعتمد على حقول الإشعاع العصبية التوليدية (NeRFs).

الغرض من NeRFs التوليدي هو تعلم إستراتيجية لتجميع الصور ثلاثية الأبعاد باستخدام مجموعات فقط من الصور ثنائية الأبعاد أحادية العرض. لذلك ، يعرض المؤلفون الصور المدخلة على تمثيل كثافة الحجم لـ NeRFs التوليدية. لتقليل أبعاد وتعقيد البيانات والعمليات ، يتم بعد ذلك إجراء المزج المدرك للأبعاد الثلاثية على مساحات التمثيل الكامنة لـ NeRFs.

بشكل ملموس ، تراعي مشكلة التحسين المصاغة تأثير الشفرة الكامنة في تركيب الصورة الممزوجة. الهدف هو تحرير المقدمة بناءً على الصور المرجعية مع الحفاظ على خلفية الصورة الأصلية. على سبيل المثال ، إذا كانت الصورتان المعتبرتان عبارة عن وجوه ، فيجب أن يستبدل الإطار خصائص وميزات الوجه للصورة الأصلية بتلك الموجودة في الصورة المرجعية مع الحفاظ على الباقي دون تغيير (الشعر ، الرقبة ، السنوات ، المناطق المحيطة ، إلخ).

نظرة عامة على الهندسة المعمارية مقارنة بالاستراتيجيات السابقة مقترحة في الصورة أدناه.

تتكون الطريقة الأولى من المزج الوحيد ثنائي الأبعاد لصورتين ثنائي الأبعاد بدون محاذاة. يمكن العثور على تحسن من خلال دعم طريقة المزج ثنائية الأبعاد هذه مع المحاذاة المدركة للأبعاد الثلاثية مع NeRFs التوليدية. لمزيد من استغلال المعلومات ثلاثية الأبعاد ، تستنتج البنية النهائية صورتين في مساحات التمثيل الكامنة لـ NeRFs بدلاً من مساحة البكسل ثنائية الأبعاد.

يتم تحقيق المحاذاة ثلاثية الأبعاد عبر مشفر CNN ، الذي يستدل من وضع الكاميرا لكل صورة إدخال ، وعبر الكود الكامن للصورة نفسها. بمجرد تدوير الصورة المرجعية بشكل صحيح لتعكس الصورة الأصلية ، يتم حساب تمثيلات NeRF لكلتا الصورتين. أخيرًا ، يتم تقدير مصفوفة التحويل ثلاثية الأبعاد (المقياس والترجمة) من الصورة الأصلية وتطبيقها على الصورة المرجعية للحصول على مزيج دقيق لغويًا.

يتم الإبلاغ عن النتائج على الصور غير المحاذاة ذات الأوضاع والمقاييس المختلفة أدناه.

وفقًا للمؤلفين وتجاربهم ، فإن هذه الطريقة تتفوق في الأداء على كل من الأساليب الكلاسيكية والقائمة على التعلم فيما يتعلق بكل من الواقعية والاخلاص للصور المدخلة. بالإضافة إلى ذلك ، باستغلال تمثيلات الفضاء الكامن ، يمكن لهذه الطريقة فصل التغييرات اللونية والهندسية أثناء المزج وإنشاء نتائج متناسقة مع العرض.

كان هذا ملخصًا لإطار عمل ذكاء اصطناعي جديد للمزج الإدراكي ثلاثي الأبعاد مع حقول الإشعاع العصبي التوليدي (NeRFs).

إذا كنت مهتمًا أو ترغب في معرفة المزيد عن إطار العمل هذا ، فيمكنك العثور أدناه على رابط للورقة وصفحة المشروع.