الأخبار التكنولوجية والاستعراضات والنصائح!

اقترح باحثون من ETH Zurich و Microsoft X-Avatar: نموذج أفاتار ضمني للإنسان متحرك قادر على التقاط وضعية الجسم البشري وتعبيرات الوجه

ستساعدك المقالة التالية: اقترح باحثون من ETH Zurich و Microsoft X-Avatar: نموذج أفاتار ضمني للإنسان متحرك قادر على التقاط وضعية الجسم البشري وتعبيرات الوجه

كان الوضع ، والنظر ، وتعبيرات الوجه ، وإيماءات اليد ، وما إلى ذلك – تسمى مجتمعة “لغة الجسد” – موضوعًا للعديد من التحقيقات الأكاديمية. قد يؤدي تسجيل الإشارات غير اللفظية وتفسيرها وإنشاءها بدقة إلى تعزيز واقعية الصور الرمزية في إعدادات الحضور عن بُعد والواقع المعزز (AR) والواقع الافتراضي (VR).

يمكن لنماذج الأفاتار الحالية الحالية ، مثل تلك الموجودة في عائلة SMPL ، تصوير أشكال مختلفة من جسم الإنسان بشكل صحيح في أوضاع واقعية. ومع ذلك ، فهي مقيدة بالتمثيلات القائمة على الشبكة التي يستخدمونها وجودة الشبكة ثلاثية الأبعاد. علاوة على ذلك ، غالبًا ما تحاكي مثل هذه النماذج الأجساد العارية فقط ولا تصور الملابس أو الشعر ، مما يقلل من واقعية النتائج.

يقدمون X-Avatar ، وهو نموذج مبتكر يمكنه التقاط مجموعة كاملة من التعبير البشري في الصور الرمزية الرقمية لإنشاء تواجد واقعي عن بعد ، والواقع المعزز ، وبيئات الواقع الافتراضي. X-Avatar هو نموذج تعبيري بشري ضمني تم تطويره بواسطة ETH Zurich وباحثي Microsoft. يمكنه التقاط حركات الجسم واليد البشرية عالية الدقة وعواطف الوجه وسمات المظهر الأخرى. يمكن أن تتعلم هذه التقنية إما من عمليات المسح ثلاثية الأبعاد الكاملة أو بيانات RGB-D ، مما ينتج نماذج شاملة للأجساد واليدين وعواطف الوجه والمظهر.

يقترح الباحثون وحدة تعليم متقدمة مدركة جزئيًا يمكن أن تتحكم فيها مساحة معلمة SMPL-X ، مما يتيح الرسوم المتحركة التعبيرية لـ X-Avatars. يقدم الباحثون عينات فريدة مدركة جزئيًا وخوارزميات تهيئة لتدريب الشكل العصبي ومجالات التشوه بشكل فعال. يعمل الباحثون على زيادة مجالات الهندسة والتشوه بشبكة نسيج مكيفة حسب الموضع وتعبيرات الوجه والهندسة والقواعد الطبيعية للسطح المشوه لالتقاط مظهر الصورة الرمزية بتفاصيل عالية التردد. ينتج عن هذا نتائج دقة محسنة ، خاصة بالنسبة لأجزاء الجسم الأصغر ، مع الحفاظ على فعالية التدريب على الرغم من العدد المتزايد للعظام المفصلية. يوضح الباحثون بشكل تجريبي أن النهج يحقق نتائج كمية ونوعية متفوقة في مهمة الرسوم المتحركة مقارنة بخطوط الأساس القوية في كلا منطقتي البيانات.

قدم الباحثون مجموعة بيانات جديدة ، يطلق عليها اسم X-Humans ، مع 233 تسلسلًا من عمليات المسح عالية الجودة من 20 موضوعًا ، لـ 35500 إطار بيانات للمساعدة في البحث المستقبلي حول الصور الرمزية التعبيرية. يقترح X-Avatar نموذجًا بشريًا يتميز بأسطح ضمنية عصبية مفصلية تستوعب الطوبولوجيا المتنوعة للأفراد الذين يرتدون ملابس وتحقق دقة هندسية محسنة وإخلاصًا متزايدًا للمظهر العام. حدد مؤلفو الدراسة ثلاثة مجالات عصبية متميزة: أحدهما لنمذجة الهندسة باستخدام شبكة إشغال ضمنية ، والآخر لنمذجة التشوه باستخدام تقشير المزيج الخطي الأمامي المكتسب (LBS) مع أوزان السلخ المستمر ، والثالث لنمذجة المظهر باستخدام قيمة اللون RGB.

قد يأخذ الطراز X-Avatar إما مسحًا ضوئيًا ثلاثي الأبعاد أو صورة RGB-D للمعالجة. يشتمل جزء من تصميمه على شبكة تشكيل لنمذجة الهندسة في الفضاء الكنسي وشبكة تشوه تستخدم سلخ المزيج الخطي المكتسب (LBS) لبناء المراسلات بين المناطق الكنسية والمشوهة.

يبدأ الباحثون بمساحة المعلمة SMPL-X ، وهي امتداد SMPL الذي يلتقط شكل ومظهر وتشوهات الأشخاص من كامل الجسم ، مع إيلاء اهتمام خاص لمواقف اليد وعواطف الوجه لتوليد صور رمزية بشرية معبرة ويمكن التحكم فيها. يمثل النموذج البشري الموصوف بواسطة الأسطح الضمنية العصبية المفصلية الهيكلية المختلفة للأفراد الذين يرتدون ملابس. في الوقت نفسه ، تعمل طريقة التهيئة الفريدة الواعية للجزء على تحسين واقعية النتيجة بشكل كبير عن طريق رفع معدل العينة لأجزاء الجسم الأصغر.

أظهرت النتائج أن X-Avatar يمكنه تسجيل أوضاع جسم الإنسان واليد بدقة بالإضافة إلى مشاعر الوجه ومظهره ، مما يسمح بإنشاء صور رمزية أكثر تعبيرًا وواقعية. تُبقي المجموعة التي تقف وراء هذه المبادرة أصابع الاتهام في أن طريقتهم قد تلهم المزيد من الدراسات لمنح الذكاء الاصطناعي مزيدًا من الشخصية.

مجموعة البيانات المستخدمة

مسح ضوئي عالي الجودة و SMPL[-X] التسجيلات. 20 موضوعا ؛ 233 تسلسل 35427 إطارًا ؛ موقف الجسم + إيماءة اليد + تعبيرات الوجه ؛ مجموعة واسعة من خيارات الملابس وتصفيفة الشعر ؛ مجموعة واسعة من الأعمار

سمات

  • توجد عدة طرق لتدريس X-Avatars.
  • صورة من عمليات المسح ثلاثية الأبعاد المستخدمة في التدريب ، أعلى اليمين. في الأسفل: تجسدات تحركها وضعية الاختبار.
  • معلومات RGB-D للأغراض التعليمية ، أعلى. تعمل تجسيدات اختبار الوضع على مستوى أقل.
  • يستعيد هذا النهج قدرًا أكبر من التعبير اليدوي وتعبيرات الوجه مقارنة بالخطوط الأساسية الأخرى في اختبار الرسوم المتحركة. ينتج عن هذا X-Avatars متحرك باستخدام حركات استعادتها PyMAF-X من أفلام RGB أحادية العين.

محددات

يواجه X-Avatar صعوبة في تصميم قمصان أو سراويل بدون أكتاف (مثل التنانير). ومع ذلك ، غالبًا ما يقوم الباحثون بتدريب نموذج واحد فقط لكل موضوع ، لذا فإن قدرتهم على التعميم خارج نطاق فرد واحد لا تزال بحاجة إلى التوسع.

مساهمات

  • X-Avatar هو أول نموذج تعبيري بشري ضمني يلتقط بشكل شامل وضعية الجسم ، ووضعية اليد ، وعواطف الوجه ، والمظهر.
  • إجراءات التهيئة وأخذ العينات التي تأخذ في الاعتبار الهيكل الأساسي تعزز جودة المخرجات وتحافظ على كفاءة التدريب.
  • X-Humans هي مجموعة بيانات جديدة تمامًا تتكون من 233 تسلسلًا يبلغ مجموعها 35500 إطارًا من عمليات المسح عالية الجودة والمنسقة لـ 20 شخصًا يعرضون مجموعة واسعة من حركات الجسم واليدين وعواطف الوجه.

X-Avatar لا مثيل له عند التقاط وضعية الجسم ، ووضعية اليد ، وعواطف الوجه ، والمظهر العام. باستخدام مجموعة بيانات X-Humans التي تم إصدارها مؤخرًا ، أظهر الباحثون الطريقة