الأخبار التكنولوجية والاستعراضات والنصائح!

تبسيط تحرير الكائنات ثلاثية الأبعاد باستخدام Vox-E: إطار عمل للذكاء الاصطناعي (AI) لتحرير Voxel الموجه بالنص للكائنات ثلاثية الأبعاد

ستساعدك المقالة التالية: تبسيط تحرير الكائنات ثلاثية الأبعاد باستخدام Vox-E: إطار عمل للذكاء الاصطناعي (AI) لتحرير Voxel الموجه بالنص للكائنات ثلاثية الأبعاد

تُستخدم النماذج ثلاثية الأبعاد (3D) على نطاق واسع في مختلف المجالات ، مثل الرسوم المتحركة والألعاب والواقع الافتراضي وتصميم المنتجات. يعد إنشاء نماذج ثلاثية الأبعاد مهمة معقدة وتستغرق وقتًا طويلاً وتتطلب معرفة واسعة ومهارات برمجية متخصصة. على الرغم من أن النماذج المصممة مسبقًا يمكن الوصول إليها بسهولة من قواعد البيانات عبر الإنترنت ، فإن تخصيصها لتلائم رؤية فنية معينة يندرج تحت نفس العملية الصعبة لإنشاء النماذج ثلاثية الأبعاد ، والتي ، كما ذكرنا سابقًا ، تتطلب خبرة متخصصة في برامج التحرير ثلاثية الأبعاد. في الآونة الأخيرة ، أظهر البحث القوة التعبيرية للتمثيلات القائمة على المجال العصبي مثل NeRF لالتقاط التفاصيل الدقيقة وتمكين مخططات التحسين الفعالة من خلال العرض التفاضلي. ونتيجة لذلك ، توسعت إمكانية تطبيقها في مهام التحرير المختلفة.

ومع ذلك ، ركزت معظم الأبحاث في هذا المجال على التلاعب بالمظهر فقط ، والذي يغير نسيج الكائن ونمطه ، أو على التحرير الهندسي من خلال المراسلات بتمثيل شبكي واضح. لسوء الحظ ، لا تزال هذه الأساليب تتطلب من المستخدمين وضع نقاط تحكم على تمثيل الشبكة ، ولا تسمح بإضافة هياكل جديدة أو تعديل هندسة الكائن بشكل كبير.

لذلك ، تم تطوير نهج جديد لتحرير voxel ، يسمى Vox-E ، لمعالجة القضايا المذكورة أعلاه. نظرة عامة على العمارة موضحة في الشكل أدناه.

يركز إطار العمل هذا على تمكين المزيد من عمليات تحرير الكائنات المترجمة والمرنة الموجهة فقط من خلال المطالبات النصية ، والتي يمكن أن تشمل تعديلات المظهر والهندسة. لتحقيق ذلك ، يستغل المؤلفون نماذج الانتشار ثنائية الأبعاد المدربة مسبقًا لتعديل الصور ومطابقة الأوصاف النصية المحددة. تم تكييف خسارة تقطير النقاط (SDS) لتوليد ثلاثي الأبعاد غير مشروط يحركه النص واستخدامه جنبًا إلى جنب مع تقنيات التنظيم. يتم تنظيم عملية التحسين في الفضاء ثلاثي الأبعاد عن طريق اقتران حقلين حجميين. يمنح هذا الأسلوب النظام مزيدًا من المرونة للتوافق مع إرشادات النص مع الحفاظ على هندسة الإدخال ومظهره.

بدلاً من استخدام الحقول العصبية ، يعتمد Vox-E على ReLU Fields ، وهي أخف من الأساليب القائمة على NeRF ولا تعتمد على الشبكات العصبية. تمثل ReLU Fields المشهد على شكل شبكة فوكسل حيث يحتوي كل فوكسل على ميزات تم تعلمها. تتيح بنية الشبكة الواضحة هذه إعادة بناء أسرع وأوقات عرض ، بالإضافة إلى اقتران حجمي ضيق بين الحقول الحجمية التي تمثل الكائن ثلاثي الأبعاد قبل التحرير المطلوب وبعده. يحقق Vox-E هذا من خلال خسارة ارتباط حجمية جديدة على ميزات الكثافة.

لتحسين المدى المكاني لعمليات التحرير ، يستغل المؤلفون خرائط الانتباه المتبادل ثنائية الأبعاد لالتقاط المناطق المرتبطة بتعديل الهدف وتحويلها إلى شبكات حجمية. الفرضية الكامنة وراء هذا النهج هي أنه في حين أن الميزات الداخلية ثنائية الأبعاد المستقلة للنماذج التوليدية قد تكون صاخبة ، فإن توحيدها في تمثيل ثلاثي الأبعاد واحد يسمح بتقطير أفضل للمعرفة الدلالية. تعد شبكات الانتباه المتبادل ثلاثية الأبعاد هذه ضرورية لخوارزمية تجزئة حجمية ثنائية لتقسيم الحجم المعاد بناؤه إلى مناطق محررة وغير محررة. تسمح هذه العملية لإطار العمل بدمج ميزات الشبكات الحجمية والحفاظ على مناطق أفضل لا ينبغي أن تتأثر بالتحرير النصي.

تتم مقارنة نتائج هذا النهج مع أحدث التقنيات الأخرى. بعض العينات المأخوذة من العمل المذكور موضحة أدناه.

كان هذا ملخصًا لـ Vox-E ، إطار عمل AI لتحرير voxel الموجه بالنص للكائنات ثلاثية الأبعاد.

إذا كنت مهتمًا أو تريد معرفة المزيد عن هذا العمل ، فيمكنك العثور على رابط إلى الورقة وصفحة المشروع.