الأخبار التكنولوجية والاستعراضات والنصائح!

إصدارات AI المفتوحة Shap · E: نموذج توليدي شرطي للأصول ثلاثية الأبعاد

ستساعدك المقالة التالية: إصدارات AI المفتوحة Shap · E: نموذج توليدي شرطي للأصول ثلاثية الأبعاد

في الأشهر القليلة الماضية ، أصبح الذكاء الاصطناعي التوليدي شائعًا بشكل متزايد. من منظمات متعددة إلى باحثي الذكاء الاصطناعي ، يكتشف الجميع الإمكانات الهائلة التي يحملها الذكاء الاصطناعي التوليفي لإنتاج محتوى فريد وأصلي. مع إدخال نماذج اللغات الكبيرة (LLMs) ، يتم تنفيذ عدد من المهام بسهولة. نماذج مثل DALL-E ، التي طورتها شركة OpenAI ، والتي تمكن المستخدمين من إنشاء صور واقعية من موجه نصي ، يتم استخدامها بالفعل من قبل أكثر من مليون مستخدم. يُنشئ نموذج إنشاء تحويل النص إلى صورة صورًا عالية الجودة بناءً على الوصف النصي الذي تم إدخاله.

لتوليد الصور ثلاثية الأبعاد ، تم إطلاق مشروع جديد مؤخرًا بواسطة OpenAI. تم تصميم هذا النموذج التوليدي الشرطي المسمى Shap · E لإنشاء أصول ثلاثية الأبعاد. على عكس النماذج التقليدية التي تنتج فقط تمثيل إخراج واحد ، فإن Shap · E يولد معلمات الوظائف الضمنية. يمكن تقديم هذه الوظائف على هيئة شبكات منسوجة أو حقول إشعاع عصبي (NeRF) ، مما يسمح بتوليد أصول ثلاثية الأبعاد واقعية ومتعددة الاستخدامات.

أثناء تدريب Shap · E ، قام الباحثون أولاً بتدريب جهاز تشفير. يأخذ المشفر الأصول ثلاثية الأبعاد كمدخلات ويضعها في معلمات وظيفة ضمنية. يسمح هذا التعيين للنموذج بمعرفة التمثيل الأساسي للأصول ثلاثية الأبعاد بدقة. تبعًا لذلك ، تم تدريب نموذج الانتشار الشرطي باستخدام مخرجات المشفر. يتعلم نموذج الانتشار الشرطي التوزيع المشروط لمعلمات الوظيفة الضمنية في ضوء بيانات الإدخال ، وبالتالي يولد أصولًا ثلاثية الأبعاد متنوعة ومعقدة عن طريق أخذ عينات من التوزيع الذي تم تعلمه. تم تدريب نموذج الانتشار باستخدام مجموعة بيانات كبيرة من الأصول ثلاثية الأبعاد المقترنة والأوصاف النصية المقابلة لها.

يتضمن Shap-E التمثيلات العصبية الضمنية (INRs) للتمثيلات ثلاثية الأبعاد. تقوم التمثيلات العصبية الضمنية بتشفير الأصول ثلاثية الأبعاد عن طريق تعيين إحداثيات ثلاثية الأبعاد لمعلومات خاصة بالموقع ، مثل الكثافة واللون ، لتمثيل أصل ثلاثي الأبعاد. أنها توفر إطارًا متعدد الاستخدامات ومرنًا من خلال التقاط الخصائص الهندسية التفصيلية للأصول ثلاثية الأبعاد. نوعان من INRs التي ناقشها الفريق هما –

  1. Neural Radiance Field (NeRF) – يمثل NeRF مشاهد ثلاثية الأبعاد من خلال تعيين الإحداثيات وعرض الاتجاهات للكثافات وألوان RGB. يمكن تقديم NeRF من وجهات نظر تعسفية ، مما يتيح عرضًا واقعيًا وعالي الدقة للمشهد ، ويمكن تدريبه لمطابقة تصورات الحقيقة الأرضية.
  1. DMTet وامتداده GET3D – تم استخدام INRs لتمثيل شبكة ثلاثية الأبعاد منسقة عن طريق تعيين الإحداثيات للألوان والمسافات الموقعة والإزاحات الرأسية. من خلال استخدام هذه الوظائف ، يمكن إنشاء شبكات مثلث ثلاثية الأبعاد بطريقة قابلة للتفاضل.

شارك الفريق بعض الأمثلة على نتائج Shap · E ، بما في ذلك النتائج ثلاثية الأبعاد للمطالبات النصية ، بما في ذلك وعاء من الطعام ، وبطريق ، وكلب مكشوف ، ونار المخيم ، وكرسي يشبه الأفوكادو ، وما إلى ذلك. أظهرت النماذج الناتجة التي تم تدريبها باستخدام Shap · E الأداء الرائع للنموذج. يمكنه إنتاج مخرجات عالية الجودة في ثوانٍ فقط. للتقييم ، تمت مقارنة Shap · E بنموذج توليدي آخر يسمى Point · E ، والذي يولد تمثيلات صريحة فوق السحب النقطية. على الرغم من نمذجة فضاء إخراج عالي الأبعاد ومتعدد التمثيل ، أظهر Shap · E عند المقارنة تقاربًا أسرع وحقق جودة عينة قابلة للمقارنة أو أفضل.

في الختام ، يعتبر Shap · E نموذجًا فعالًا وفعالًا للأصول ثلاثية الأبعاد. يبدو واعدًا وهو إضافة مهمة لمساهمات الذكاء الاصطناعي التوليدي.