الأخبار التكنولوجية والاستعراضات والنصائح!

تعرف على ProlificDreamer: نهج ذكاء اصطناعي يوفر محتوى ثلاثي الأبعاد عالي الدقة وواقعي باستخدام تقطير متغير للنتيجة (VSD)

ستساعدك المقالة التالية: تعرف على ProlificDreamer: نهج ذكاء اصطناعي يوفر محتوى ثلاثي الأبعاد عالي الدقة وواقعي باستخدام تقطير متغير للنتيجة (VSD)

تحظى نماذج نشر النص إلى صورة بشعبية كبيرة مؤخرًا لقدرتها على إنشاء صور متنوعة عالية الجودة. مع قوة التقاط توزيعات البيانات المعقدة باستخدام الذكاء الاصطناعي التوليدي ، تستخدم العديد من الصناعات ، بما في ذلك الرسوم المتحركة والألعاب والواقع الافتراضي (VR) والواقع المعزز (AR) ، هذه النماذج. لقد خضعت هذه المجالات لتغيير جذري بسبب تطوير المحتوى والتقنيات ثلاثية الأبعاد من خلال الارتجال في إدراك الإعدادات المعقدة والأشياء التي تعكس مواقف العالم الواقعي والتفاعل معها وتصورها.

ظهرت نماذج تحويل النص إلى ثلاثي الأبعاد كنهج واعد لتبسيط عملية إنشاء المحتوى ثلاثي الأبعاد. من خلال أتمتة إنشاء مادة ثلاثية الأبعاد من الأوصاف النصية ، تساعد هذه النماذج المبتكرة في التخلص من الحاجة إلى التصميم والنمذجة اليدوية ، كل ذلك بفضل نماذج الانتشار. لتدريب نموذج الانتشار على التعرف على العلاقة بين النص وتمثيلات المشهد ثلاثي الأبعاد ذات الصلة ، يتم استخدام مجموعة بيانات ضخمة من أمثلة الصور المقترنة بنص إلى ثلاثي الأبعاد. يكتسب النموذج القدرة على تمثيل العلاقات الإحصائية بين النص وعناصر المشهد ثلاثي الأبعاد بدقة.

إن الأسلوب الذي أظهر قدرًا جيدًا من الإمكانات في إنتاج نماذج تحويل النص إلى ثلاثية الأبعاد باستخدام نماذج نشر نص إلى صورة مدربة مسبقًا على نطاق واسع هي أخذ عينات التقطير (SDS). نظرًا لقيودها ، بما في ذلك التشبع الزائد ، والإفراط في التنعيم ، وقضايا التنوع المنخفض ، فقد توصل فريق من الباحثين إلى نهج جديد يسمى التقطير المتغير (VSD).

يتغلب إطار العمل المتغير القائم على الجسيمات على المشكلات في إنشاء الصور من نص إلى ثلاثي الأبعاد مع الفكرة الرئيسية لنمذجة المعلمة ثلاثية الأبعاد كمتغير عشوائي بدلاً من ثابت ، على عكس SDS ، مما يساعد في تحسين توليد المشاهد ثلاثية الأبعاد . SDS هو مثال محدد لـ VSD حيث يكون التوزيع المتغير هو توزيع ديراك أحادي النقطة ، والذي يشرح التنوع المحدود ودقة المشاهد ثلاثية الأبعاد التي تنتجها SDS. ذكر الباحثون كيف يمكن لـ VSD تعلم نموذج تسجيل حدودي بجسيم واحد فقط ، والذي قد يكون له تعميم أفضل من SDS.

اقترح الفريق أيضًا ProlificDreamer ، وهو حل شامل يتضمن VSD وتحسينات مساحة التصميم المصممة لتوليد النص إلى ثلاثي الأبعاد. تم إجراء تحسينات على الجدول الزمني للتقطير وتهيئة الكثافة وهما منطقتان غير مكتشفتان ولكنهما متعامدتان مع خوارزمية التقطير.

مع هذه التحسينات التي تساهم في تحسين الأداء العام لعملية إنشاء النص إلى ثلاثي الأبعاد وإمكانيات VSD ، تنتج ProlificDreamer حقول الإشعاع العصبي (NeRF) بدقة عرض عالية وعالية الدقة ، لا سيما 512 × 512 ، بنية غنية ، و تأثيرات متطورة مثل الدخان وقطرات. ويمكنه أيضًا إنشاء مشاهد معقدة مع كائنات متعددة بنجاح في مناظر 360 درجة بناءً على المطالبات النصية. قام الفريق أيضًا بتحسين الشبكات التي تم إنشاؤها باستخدام VSD بعد التهيئة باستخدام NeRF ، مما أدى إلى إنتاج شبكات ثلاثية الأبعاد مفصلة بدقة وواقعية.

تمت مشاركة أمثلة على شبكات منسوجة تم إنشاؤها ، مثل تمثال على طراز مايكل أنجلو لكلب يقرأ الأخبار على هاتف خلوي ، وكرواسون لذيذ ، وجمجمة فيل ، وما إلى ذلك ، في ورقة البحث الصادرة. بصرف النظر عن ذلك ، تمت أيضًا مشاركة أمثلة على NeRFs التي تم إنشاؤها ، مثل صورة DSLR لهامبرغر داخل مطعم ومثلجات مثلجات داخل مركز تسوق.