الأخبار التكنولوجية والاستعراضات والنصائح!

يقترح باحثو أكسفورد Farm3D: إطار عمل للذكاء الاصطناعي يمكنه تعلم الحيوانات المفصلية ثلاثية الأبعاد عن طريق تقطير الانتشار ثنائي الأبعاد لتطبيقات الوقت الفعلي مثل ألعاب الفيديو

ستساعدك المقالة التالية: يقترح باحثو أكسفورد Farm3D: إطار عمل للذكاء الاصطناعي يمكنه تعلم الحيوانات المفصلية ثلاثية الأبعاد عن طريق تقطير الانتشار ثنائي الأبعاد لتطبيقات الوقت الفعلي مثل ألعاب الفيديو

أدى النمو الهائل للذكاء الاصطناعي التوليدي إلى تطورات رائعة في إنتاج الصور ، مع تقنيات مثل DALL-E و Imagen و Stable Diffusion التي تخلق صورًا ممتازة من الإشارات النصية. قد ينتشر هذا الإنجاز إلى ما بعد البيانات ثنائية الأبعاد. يمكن استخدام منشئ تحويل النص إلى صورة لإنشاء نماذج ثلاثية الأبعاد عالية الجودة ، كما هو موضح مؤخرًا بواسطة DreamFusion. على الرغم من افتقار المولد إلى تدريب ثلاثي الأبعاد ، إلا أن هناك بيانات كافية لإعادة بناء شكل ثلاثي الأبعاد. توضح هذه المقالة كيف يمكن للمرء أن يستفيد أكثر من منشئ تحويل النص إلى صورة والحصول على نماذج مفصلية للعديد من أنواع العناصر ثلاثية الأبعاد.

أي بدلاً من محاولة إنشاء أصل ثلاثي الأبعاد واحد (DreamFusion) ، فإنهم يريدون إنشاء نموذج إحصائي لفئة كاملة من الكائنات ثلاثية الأبعاد المفصلية (مثل الأبقار والأغنام والخيول) التي يمكن استخدامها لإنشاء رسوم متحركة ثلاثية الأبعاد أصل يمكن استخدامه في AR / VR والألعاب وإنشاء المحتوى من صورة واحدة ، سواء كانت حقيقية أو تم إنشاؤها رقميًا. إنهم يعالجون هذه المشكلة من خلال تدريب شبكة يمكنها التنبؤ بنموذج مفصلي ثلاثي الأبعاد لعنصر من صورة واحدة للشيء. لتقديم شبكات إعادة الإعمار هذه ، اعتمدت الجهود السابقة على بيانات حقيقية. ومع ذلك ، فقد اقترحوا استخدام البيانات التركيبية التي تم إنتاجها باستخدام نموذج انتشار ثنائي الأبعاد ، مثل الانتشار المستقر.

يقترح باحثون من Visual Geometry Group في جامعة أكسفورد Farm3D ، والتي تعد إضافة إلى المولدات ثلاثية الأبعاد مثل DreamFusion و RealFusion و Make-a-video-3D التي تنشئ أصلًا ثلاثي الأبعاد واحدًا ، ثابتًا أو ديناميكيًا ، عبر تحسين وقت الاختبار ، بدءًا من النص أو الصورة ، ويستغرق ساعات. هذا يوفر العديد من الفوائد. منشئ الصور ثنائي الأبعاد ، في المقام الأول ، لديه ميل لتوليد أمثلة دقيقة وأصلية لفئة الكائن ، وتنظيم بيانات التدريب بشكل ضمني وتبسيط التعلم. يتم توفير مزيد من الفهم التوضيحي من خلال التوفير الضمني للمولد ثنائي الأبعاد للآراء الافتراضية لكل مثيل كائن معين من خلال التقطير. ثالثًا ، يزيد من قدرة النهج على التكيف من خلال إلغاء شرط جمع (وربما فرض الرقابة) على بيانات حقيقية.

في وقت الاختبار ، تنفذ شبكتهم إعادة البناء من صورة واحدة بطريقة تلقيمية في غضون ثوانٍ ، مما ينتج نموذجًا ثلاثي الأبعاد مفصليًا يمكن معالجته (على سبيل المثال ، متحرك ، إعادة توجيه) بدلاً من قطعة أثرية ثلاثية الأبعاد أو رباعية الأبعاد ثابتة. طريقتهم مناسبة للتوليف والتحليل لأن شبكة إعادة البناء تعمم على الصور الفعلية أثناء التدريب على المدخلات الافتراضية فقط. يمكن تقديم طلبات لدراسة سلوكيات الحيوانات والحفاظ عليها. تعتمد Farm3D على ابتكارين تقنيين هامين. لتعلم النماذج ثلاثية الأبعاد المفصلية ، يوضحون أولاً كيف يمكن تحفيز الانتشار المستقر لإنتاج مجموعة تدريب كبيرة من الصور النظيفة بشكل عام لفئة كائن باستخدام الهندسة السريعة.

يوضحون كيف يمكن تشغيل MagicPony ، وهي تقنية متطورة لإعادة البناء الأحادي للأشياء المفصلية ، باستخدام هذه الصور. ثانيًا ، أظهروا أنه بدلاً من تركيب نموذج حقل إشعاع فردي ، يمكن تمديد خسارة أخذ عينات التقطير (SDS) لتحقيق إشراف تركيبي متعدد الرؤية لتدريب مشفر تلقائي للصور الهندسية ، في حالتهم MagicPony. لإنشاء مناظر اصطناعية جديدة لنفس الكائن ، يقسم المشفر التلقائي للصور الهندسية الكائن إلى جوانب مختلفة تساهم في تكوين الصورة (مثل الشكل المفصلي للكائن ، والمظهر ، ووجهة نظر الكاميرا ، والإضاءة).

للحصول على تحديث متدرج وانتشار عكسي للمعلمات القابلة للتعلم لجهاز التشفير التلقائي ، يتم تغذية هذه العروض التركيبية في فقد SDS. إنها تزود Farm3D بتقييم نوعي بناءً على قدرتها على الإنتاج والإصلاح ثلاثية الأبعاد. يمكنهم تقييم Farm3D من الناحية الكمية على المهام التحليلية مثل نقل النقطة الرئيسية الدلالية لأنها قادرة على إعادة البناء بالإضافة إلى الإنشاء. على الرغم من أن النموذج لا يستخدم أي صور حقيقية للتدريب وبالتالي يوفر وقتًا طويلاً في جمع البيانات وتنظيمها ، إلا أنها تُظهر أداءً مكافئًا أو أفضل لخطوط الأساس المختلفة.