الأخبار التكنولوجية والاستعراضات والنصائح!

اقترح باحثون من إمبريال كوليدج لندن FitMe: نموذج ذكاء اصطناعي يحول صور الوجه التعسفية إلى صور رمزية للوجه يمكن إعادة إحساسها ، ويمكن استخدامها مباشرة في الألعاب المشتركة …

ستساعدك المقالة التالية: اقترح باحثون من إمبريال كوليدج لندن FitMe: نموذج ذكاء اصطناعي يحول صور الوجه التعسفية إلى صور رمزية للوجه يمكن إعادة إحساسها ، ويمكن استخدامها مباشرة في الألعاب المشتركة …

على الرغم من التطورات الهائلة في السنوات العشر الماضية ، لا تزال إعادة بناء الوجه ثلاثية الأبعاد من صورة واحدة غير مقيدة تمثل مشكلة بحثية مهمة مع مجتمع رؤية كمبيوتر نابض بالحياة. أصبحت استخداماته الآن عديدة ومتنوعة ، بما في ذلك على سبيل المثال لا الحصر الرقمنة البشرية للتطبيقات في الواقع الافتراضي والواقع المعزز ، والوسائط الاجتماعية والألعاب ، وتوليد مجموعات البيانات التركيبية ، والتطبيقات الصحية. ومع ذلك ، تحتاج الدراسات الحديثة في كثير من الأحيان إلى إنتاج مكونات يمكن استخدامها لتقديم الصورة الواقعية ولا ترقى إلى إعادة تكوين هويات مختلف الأشخاص بدقة.

تعد النماذج ثلاثية الأبعاد (3DMM) طريقة شائعة للحصول على شكل الوجه ومظهره من لقطة واحدة “في البرية”. يمكن أن يُعزى ذلك إلى عدة عوامل ، بما في ذلك الحاجة إلى مجموعات بيانات شاملة للهندسة البشرية والانعكاس البشري الممسوحين ، والمعلومات المحدودة والمشوشة الموجودة في صورة وجه واحدة ، والقيود المفروضة على الأساليب الإحصائية الحالية وطرق التعلم الآلي. لنمذجة شكل الوجه ومظهره بهوية وتعبير متغيرين ، والتي تم تعلمها من أكثر من 200 مشارك ، تم استخدام تحليل المكونات الرئيسية (PCA) في دراسة 3DMM الأولية.

منذ ذلك الحين ، تم تطوير نماذج أكثر تعقيدًا تضم ​​آلاف الأفراد ، مثل LSFM و Basel Face Model و Facescape. بالإضافة إلى ذلك ، تم تطوير نماذج ثلاثية الأبعاد لرأس الإنسان بالكامل أو ميزات الوجه الأخرى ، بما في ذلك الأذنين واللسان ، مؤخرًا. أخيرًا ، تضمنت المنشورات اللاحقة توسعات تتراوح من التراجع المباشر لمعلمات 3DMM إلى النماذج غير الخطية. ومع ذلك ، فإن مثل هذه النماذج غير قادرة على إنشاء مواد ذات واقعية واقعية. شهدت النماذج التوليدية العميقة تطورات كبيرة خلال السنوات العشر الماضية. أنتجت معماريات GAN التقدمية ، على وجه الخصوص ، نتائج باهرة في توزيعات التعلم للصور ثنائية الأبعاد عالية الدقة للوجوه البشرية باستخدام شبكات الخصومة التوليدية (GANs).

في الآونة الأخيرة ، تم تعلم المناطق الكامنة ذات المعنى التي يمكن اجتيازها لإعادة بناء والتحكم في جوانب مختلفة من العينات المنتجة باستخدام الشبكات التوليدية التقدمية القائمة على النمط. نجحت بعض التقنيات ، مثل رسم الخرائط فوق البنفسجية ، في الحصول على تمثيل ثنائي الأبعاد لميزات الوجه ثلاثية الأبعاد. لإنتاج صور ثنائية الأبعاد للوجه ، يمكن لوظائف التقديم استخدام نماذج وجه ثلاثية الأبعاد تم إنتاجها بواسطة 3DMMs. يستلزم التحسين التكراري أيضًا تمييز عملية العرض. أصبحت التطورات الأخيرة في العرض التفاضلي الواقعي لمثل هذه الأصول ممكنًا من خلال التنقيط المتباين ، وتظليل الوجه الواقعي ، وتقديم المكتبات.

لسوء الحظ ، فإن نموذج التظليل Lambertian المستخدم في أعمال 3DMM لا يمثل بدقة تعقيد انعكاس الوجه. المشكلة هي أن هناك حاجة إلى أكثر من نسيج RGB واحد لتمثيل الوجه النابض بالحياة ، والذي يتطلب عوامل انعكاس مختلفة للوجه. على الرغم من المحاولات الأخيرة لتبسيط مثل هذه الإعدادات ، إلا أن مجموعات البيانات هذه قليلة وصغيرة ويصعب الحصول عليها. أصبحت عمليات إعادة بناء انعكاس الوجه عالية الدقة والموثوقة ممكنة من خلال العديد من الطرق الحديثة ، بما في ذلك طرق الأشعة تحت الحمراء. ومع ذلك ، لا يزال يتعين اكتشاف عمليات إعادة البناء هذه. علاوة على ذلك ، فقد ثبت أن النماذج القوية يمكنها التقاط مظهر الوجه باستخدام نماذج عميقة ولكن لا يمكنها عرض إعادة بناء صورة واحدة أو متعددة.

في نموذج بديل معاصر يعتمد على التصيير العصبي المكتسب ، تلتقط التمثيلات الضمنية مظهر وشكل الأفاتار. على الرغم من أدائهم الممتاز ، لا يستطيع العارضون المعياريون استخدام مثل هذه التمثيلات الضمنية وعادة ما يكونون غير موثوقين. يستخدم أحدث نموذج Albedo Morphable (AlbedoMM) أيضًا نموذج PCA خطي لتسجيل انعكاس الوجه وشكله. ومع ذلك ، فإن اللون لكل رأس وإعادة البناء الطبيعي منخفضان للغاية بالنسبة للتصوير الواقعي. من صورة واحدة “في البرية” ، يمكن لبرنامج AvatarMe ++ إعادة بناء خرائط نسيج عالية الدقة لانعكاس الوجه. ومع ذلك ، لا يمكن تحسين الخطوات الثلاث للعملية – إعادة البناء ، والاختزال ، والانعكاس – بشكل مباشر مع صورة الإدخال.

قدم باحثون من إمبريال كوليدج لندن FitMe وهو عبارة عن 3DMM قابل للعرض بالكامل ويمكن تركيبه على صور مجانية للوجه باستخدام عروض دقيقة قابلة للتمييز بناءً على خرائط نسيج انعكاس للوجه عالية الدقة. ينشئ FitMe تشابهًا في الهوية وينتج عمليات إعادة بناء واقعية للغاية وقابلة للتقديم بالكامل والتي يمكن استخدامها على الفور من خلال عرض البرامج المتاحة على الرف. تم تصميم نموذج الملمس كمولد تقدمي متعدد الوسائط قائم على النمط والذي يخلق في نفس الوقت القواعد الطبيعية لسطح الوجه والبياض المرآوي والبياض المنتشر. يتيح أداة التمييز المتفرعة المصممة بعناية تدريبًا سهلاً باستخدام طرائق إحصائية متنوعة.

لقد قاموا بتحسين AvatarMe ++ على مجموعة بيانات MimicMe المتاحة للجمهور لبناء مجموعة بيانات انعكاسية للوجه بجودة الالتقاط تتكون من 5 آلاف شخص ، والتي يقومون بتعديلها بشكل أكبر لموازنة تمثيل لون البشرة. يتم استخدام نموذج PCA للوجه والرأس ، تم تدريبهما على مجموعات بيانات هندسية كبيرة ، بشكل تبادلي للنموذج. إنهم ينشئون إسقاطًا للمولد قائمًا على النمط ونهج تركيب فردي أو متعدد الصور قائم على تركيب ثلاثي الأبعاد. يجب أن تكون وظيفة العرض قابلة للتفاضل وسريعة للقيام بملاءمة تكرارية فعالة (في أقل من دقيقة واحدة) ، مما يجعل النماذج مثل تتبع المسار غير مجدية. اعتمدت الأبحاث السابقة على تحسين أبطأ أو نماذج تظليل أبسط (مثل لامبرتيان).

إنهم يحسنون العمل السابق عن طريق إضافة تظليل أكثر واقعية في المظهر وله عرض منتشر ومرآوي مقنع يمكن أن يكتسب الشكل والانعكاس للعرض الواقعي في محركات التقديم الشائعة (الشكل 1). يمكن لـ FitMe إعادة بناء انعكاس الوجه عالي الدقة وتحقيق تشابه ملحوظ في الهوية مع التقاط الميزات بدقة في البياض المنتشر والمرآوي والقياسات نظرًا لمرونة المساحة الكامنة الموسعة للمولد والتركيب الواقعي.

شكل 1: يستخدم FitMe نموذجًا للانعكاس وعرضًا قابلًا للتفاضل لإعادة بناء خرائط الانعكاس والشكل القابل للإحياء لأفاتار الوجه من صورة وجه واحدة (يسار) أو عدة صور (يمين) غير مقيدة. في المحركات النموذجية ، يمكن عرض النتائج بتفاصيل واقعية.

بشكل عام ، في هذا العمل ، يقدمون ما يلي:

• أول 3DMM قادر على إنتاج انعكاس وشكل عالي الدقة للوجه ، مع مستوى متزايد من التفاصيل ، يمكن تقديمه بطريقة واقعية

• أسلوب الاقتناء والزيادة

• أول مولد تقدمي متفرّع قائم على النمط متعدد الوسائط لأصول الوجه ثلاثية الأبعاد عالية الدقة (البياض المنتشر ، البياض المرآوي ، والأعراف) ، بالإضافة إلى أداة تمييز متفرعة مناسبة متعددة الوسائط