الأخبار التكنولوجية والاستعراضات والنصائح!

تعرف على Make-it-3D: إطار عمل للذكاء الاصطناعي (AI) لإنشاء كائنات ثلاثية الأبعاد عالية الدقة من صورة واحدة

ستساعدك المقالة التالية: تعرف على Make-it-3D: إطار عمل للذكاء الاصطناعي (AI) لإنشاء كائنات ثلاثية الأبعاد عالية الدقة من صورة واحدة

الخيال آلية قوية للإنسانية. عند تقديم صورة واحدة ، يتمتع البشر بقدرة رائعة على تخيل كيف سيظهر الكائن المصور من منظور مختلف. في حين أن هذه العملية تبدو بسيطة لأدمغتنا ، إلا أنها تمثل تحديًا لرؤية الكمبيوتر ونماذج التعلم العميق. في الواقع ، يعد إنشاء كائنات ثلاثية الأبعاد من صورة واحدة مهمة معقدة نظرًا لمحدودية المعلومات المتاحة من وجهة نظر واحدة.

تم اقتراح طرق مختلفة بهذا القصد ، بما في ذلك تأثيرات الصور ثلاثية الأبعاد وإعادة الإعمار ثلاثية الأبعاد أحادية العرض مع العرض العصبي. ومع ذلك ، فإن هذه الأساليب لها قيود في إعادة بناء الهندسة الدقيقة وتقديم مناظر كبيرة. تتضمن التقنيات الأخرى إسقاط صورة الإدخال في المساحة الكامنة للشبكات التوليدية المدربة مسبقًا والمدركة ثلاثية الأبعاد. ومع ذلك ، غالبًا ما تقتصر هذه الشبكات على فئات كائنات محددة وغير قادرة على التعامل مع كائنات ثلاثية الأبعاد عامة. علاوة على ذلك ، فإن بناء مجموعة بيانات متنوعة لتقدير المشاهدات الجديدة أو نموذج أساسي ثلاثي الأبعاد قوي للأشياء العامة يعد حاليًا تحديًا لا يمكن التغلب عليه.

الصور متاحة على نطاق واسع ، في حين أن النماذج ثلاثية الأبعاد لا تزال نادرة. أحدثت التطورات الحديثة في نماذج الانتشار ، مثل Midjourney أو Stable Diffusion ، تقدمًا ملحوظًا في تركيب الصور ثنائية الأبعاد. ومن المثير للاهتمام أن نماذج نشر الصور المدربة جيدًا يمكنها إنشاء صور من وجهات نظر مختلفة ، مما يشير إلى أنها قد استوعبت بالفعل المعرفة ثلاثية الأبعاد.

بناءً على هذه الملاحظة ، تستكشف الورقة المقدمة في هذه المقالة إمكانية الاستفادة من هذه المعرفة الضمنية ثلاثية الأبعاد في نموذج نشر ثنائي الأبعاد لإعادة بناء كائنات ثلاثية الأبعاد. لهذا الغرض ، تم اقتراح نهج من مرحلتين ، يسمى Make-It-3D ، لإنشاء محتوى ثلاثي الأبعاد عالي الجودة من صورة واحدة عن طريق استخدام الانتشار المسبق.

يتم عرض نظرة عامة على العمارة أدناه.

خلال المرحلة الأولى ، يساعد الانتشار المسبق في تحسين مجال الإشعاع العصبي (NeRF) من خلال استخدام أخذ عينات التقطير المقطر (SDS). بالإضافة إلى ذلك ، يتم استخدام الإشراف على العرض المرجعي كقيد للتحسين. على عكس مناهج النص إلى ثلاثية الأبعاد السابقة التي تركز على الأوصاف النصية ، تعطي Make-it-3D الأولوية لدقة النموذج ثلاثي الأبعاد للصورة المرجعية نظرًا لأن الهدف هو إنشاء ثلاثي الأبعاد قائم على الصور. ومع ذلك ، في حين أن النماذج ثلاثية الأبعاد التي تم إنشاؤها باستخدام SDS تتوافق جيدًا مع الأوصاف النصية ، فإنها غالبًا لا تتماشى بدقة مع الصور المرجعية ، والتي لا تلتقط جميع تفاصيل الكائن. للتغلب على هذه المشكلة ، يُطلب من النموذج تعظيم التشابه بين المرجع وعرض العرض الجديد الذي تم تقليله بواسطة نموذج الانتشار. نظرًا لأن الصور تحتوي بطبيعتها على معلومات متعلقة بالهندسة أكثر من الأوصاف النصية ، يمكن إعطاء عمق الصورة المرجعية باعتباره هندسة إضافية قبل التخفيف من غموض تحسين NeRF فيما يتعلق بالشكل.

تنتج مرحلة عملية إنشاء النموذج ثلاثي الأبعاد الأولي نموذجًا تقريبيًا بهندسة معقولة. ومع ذلك ، غالبًا ما يفتقر مظهره إلى جودة الصورة المرجعية ، مع قوام مفرط النعومة وألوان مشبعة. نتيجة لذلك ، من الضروري زيادة تحسين واقعية النموذج عن طريق تقليل التباين بين النموذج التقريبي والصورة المرجعية. نظرًا لأن الملمس أكثر أهمية من الهندسة لتقديم جودة عالية ، تركز المرحلة الثانية على تحسين الملمس مع الحفاظ على الهندسة من المرحلة الأولى. يتضمن التحسين النهائي استخدام قوام الحقيقة الأرضية للمناطق المرئية في الصورة المرجعية التي تم الحصول عليها من رسم خرائط نموذج NeRF والقوام لتوجيه الغيوم و voxels.

تتم مقارنة نتائج هذا النهج مع أحدث التقنيات الأخرى. بعض العينات المأخوذة من العمل المذكور موضحة أدناه.

كان هذا ملخصًا لـ Make-it-3D ، وهو إطار عمل AI لإنشاء كائن ثلاثي الأبعاد عالي الدقة من صورة واحدة.

إذا كنت مهتمًا أو تريد معرفة المزيد عن هذا العمل ، فيمكنك العثور على رابط إلى الورقة وصفحة المشروع.