▷تركيب نص لوجه متعدد السمات ومنظم - نحو الذكاء الاصطناعي ✅

ستساعدك المقالة التالية: تركيب نص لوجه متعدد السمات ومنظم – نحو الذكاء الاصطناعي

نُشر في الأصل على نحو AI ، الشركة الرائدة في العالم في مجال الذكاء الاصطناعي والأخبار التقنية والإعلام. إذا كنت تقوم ببناء منتج أو خدمة متعلقة بالذكاء الاصطناعي ، فنحن ندعوك للتفكير في أن تصبح راعيًا للذكاء الاصطناعي. في نحو الذكاء الاصطناعي ، نساعد في توسيع نطاق الشركات الناشئة في مجال الذكاء الاصطناعي والتكنولوجيا. دعنا نساعدك على إطلاق التكنولوجيا الخاصة بك للجماهير.

معلومات بحجم البايت للمضغ

عنوان: توليف النص إلى الوجه متعدد السمات والمنظم (2020)

المؤلفون: روهان وادهاوان ، تانوج درال ، شوبهام سينغ ، شامبا شاكرافيرتي

رابط المنشور: https://ieeexplore.ieee.org/abstract/document/9557583

رابط ما قبل الطباعة: https://arxiv.org/abs/2108.11100

الكلمات الدالة: شبكات الخصومة التوليدية ، تجميع الصور ، توليف النص لوجه ، مجموعة بيانات MAST ، التعلم متعدد الوسائط ، مسافة بداية البداية

ملخص

ويتمحور المادة على النحو التالي:

تحليل مفصل لموضوعات مثل شبكة الخصومة التوليدية (GAN) [1] وتوليف الصور خارج نطاق هذه المقالة. لكنني قدمت روابط إلى الموارد ذات الصلة ، والتي ستكون مفيدة أثناء قراءة الورقة. علاوة على ذلك ، فإن التصورات المشتركة هنا مأخوذة من المخطوطة الأصلية.

عرض المشكلة

طور تقنية لتوليد وجوه عالية الدقة والتنوع باستخدام الوصف النصي كمدخل.

مساهمة ورقية

اقترح استخدام شبكة الخصومة التوليفية لتجميع الوجوه من أوصاف نصية منظمة.
تم إثبات أن زيادة عدد سمات الوجه في التعليقات التوضيحية النصية يعزز تنوع ودقة الوجوه التي تم إنشاؤها.
الموحدة أ نص لوجه متعدد السمات ومنظم (MAST)[2] مجموعة البيانات عن طريق المكمل 1993 صور الوجه مأخوذة من CelebA-HQ [3] مجموعة البيانات مع التعليقات التوضيحية النصية.

نظرة عامة على المنهجية

يتكون كل تعليق توضيحي في مجموعة بيانات MAST من 15 سمة أو أكثر للوجه من بين 30 سمة ممكنة. من بينها ، تم الحصول على العناصر السبعة التالية: شكل الوجه ، وحجم الحاجبين ، وشكل الحاجبين ، ولون العين ، وحجم العينين ، وشكل العينين ، وبشرة البشرة ، من خلال التعهيد الجماعي للبيانات التي أجراها المؤلفون [4]. بالإضافة إلى ذلك ، تم أخذ ثماني سمات أو أكثر مثل شعر الوجه والعمر والجنس والملحقات من CelebA-HQ و Microsoft API [5]، من إجمالي 23 احتمالًا.
تتكون الأوصاف النصية المنظمة فقط من سمات الوجه وهي خالية من علامات الترقيم وحروف الجر والأفعال المساعدة. يُنشئ المؤلفون خمسة أوصاف لكل صورة عن طريق ربط هذه السمات عشوائيًا لمحاكاة النص المتدفق الحر الذي تمت معالجته ، كما هو موضح أدناه.

وصف التدفق الحر –
رجل عجوز بشعر رمادي وعيون زرقاء. إنه يبتسم
وصف تمت معالجته يشبه الوصف في مجموعة البيانات MAST –
الرجل العجوز الشعر الرمادي العيون الزرقاء تبتسم

أتنجان [6] تم استخدامه لإنشاء الوجه الشرطي من بيانات نصية منظمة. استبدل المؤلفون متجهات GLoVe التي تم تدريبها مسبقًا على ترميز النص والمستخدمة في التقنية الأصلية [7] في طبقة التضمين. تغطي هذه المتجهات مفردات واسعة وتقدم العلاقات الدلالية بين الكلمات. يتم عرض بنية GAN أدناه.

تساعد عمليات دمج GloVe أيضًا في أخذ عينات من قيم السمات غير المرئية من مجموعة الكلمات في مساحة التضمين. على سبيل المثال ، نموذج تم تدريبه على قيم السمات العمرية مثل “كبار السن” و “كبار السن” سيكون قادرًا على فهم قيمة جديدة مماثلة مثل “ناضجة” ، كما هو موضح أدناه.

أثناء تدريب GAN ، تجانس ملصق جانب واحد [8] وقد تم استخدام تحديث الوزن البديل للعصر للمميز لمعالجة مشكلة تناقص التدرج الناجم عن تعلم المميّز بشكل أسرع من المولد.
مسافة بداية فريتشيت (FID) [9] تم استخدامه لقياس جودة الوجوه التي تم إنشاؤها ، والمسافة الدلالية للوجه (FSD) والتشابه الدلالي للوجه (FSS) [10] تم استخدامها لقياس تشابه الوجوه التي تم إنشاؤها مع الوجوه الحقيقية.

الاستنتاجات

يثبت المؤلفون ويوضحون بشكل تجريبي أن زيادة عدد سمات الوجه في الوصف النصي ، 15 أو أكثر من 30 سمة ممكنة ، يساعد على تحسين دقة وتنوع الوجوه التي تم إنشاؤها باستخدام هذا النص.

لقد أثبتوا أن حساب مقياس FID يعتمد على حجم مجموعة البيانات ، وينصح باستخدام مجموعة اختبار كبيرة للإبلاغ عن قيم دقيقة.

محددات

تتعلم شبكة GAN ربط السمات النصية بصور الوجه في مجموعة التدريب. يمكن أن تكون مجموعة التدريب الأصغر مصدرًا للتحيز المحتمل وتحد من تنوع الوجوه التي يمكن أن يولدها النموذج.

العمل المستقبلي

بنى GAN الجديدة لتوليف النص لوجه.
مقياس لقياس التوليد عبر الوسائط مباشرة.
مجموعة بيانات أكبر وأكثر تنوعًا لزيادة تحسين تكوين الوجه.

التطبيقات

تكوين وجه قوي ومفصل للمشتبه بهم من روايات شهود العيان.
تعزيز تجربة القراءة بالإشارات المرئية.

مراجع

جودفيلو ، ج. بوجيت-أبادي ، إم ميرزا ، ب. زو ، دي وارد-فارلي ، إس. أوزير ، إيه كورفيل ، وإي.بنجيو ، “شبكات الخصومة التوليدية” ، في التطورات في أنظمة معالجة المعلومات العصبية ، 2014 ، ص 2672-2680.
مجموعة بيانات MAST
T. Karras ، T. Aila ، S. Laine ، and J.Lehtinen ، “النمو التدريجي للجان لتحسين الجودة والاستقرار والتنوع” ، arXiv preprint arXiv: 1710.10196 ، 2017.
موقع التعهيد الجماعي لمجموعة البيانات MAST
واجهة برمجة تطبيقات Microsoft Azure Face
T. Xu ، و P. Zhang ، و Q. Huang ، و H. Zhang ، و Z. Gan ، و X. Huang ، و X. He ، “Attngan: نص دقيق لتوليد الصور باستخدام شبكات الخصومة التوليدية المتعمدة ،” في وقائع مؤتمر IEEE حول رؤية الكمبيوتر والتعرف على الأنماط ، 2018 ، ص 1316-1324.
GloVe: المتجهات العالمية لتمثيل الكلمات
T. Salimans، I. Goodfellow، W. Zaremba، V. Cheung، A. Radford، and X. Chen، “Enhanced Technologies for training gans،” Advances in neural information Processing Systems، vol. 29 ، ص 2234-2242 ، 2016.
هوسل ، إتش رامساور ، تي أونترثينر ، بي نيسلر ، إس هوكريتر ، “تتلاقى القواعد المدربة من قبل قاعدة تحديث ذات نطاق زمني اثنين إلى توازن ناش محلي” ، في التطورات في أنظمة معالجة المعلومات العصبية ، 2017 ، ص 6626 – 6637.
X. Chen ، L. Qing ، X. He ، X. Luo ، and Y. Xu ، “Ftgan: شبكات خصومة مُدرَّبة بالكامل لتوليد النص لوجه” ، arXiv preprint arXiv: 1904.05729 ، 2019.

مصادر إضافية

الملخص: نُشر النص إلى الوجه متعدد السمات والمنظم في الأصل في Towards AI on Medium ، حيث يواصل الأشخاص المحادثة من خلال تسليط الضوء على هذه القصة والرد عليها.

تم النشر عبر نحو الذكاء الاصطناعي

تركيب نص لوجه متعدد السمات ومنظم – نحو الذكاء الاصطناعي