الأخبار التكنولوجية والاستعراضات والنصائح!

يقدم الذكاء الاصطناعي من Google Muse: نموذج إنشاء / تحرير النص إلى صورة عبر محولات التوليد المقنعة

ستساعدك المقالة التالية: يقدم الذكاء الاصطناعي من Google Muse: نموذج إنشاء / تحرير النص إلى صورة عبر محولات التوليد المقنعة

في السنوات الأخيرة ، كان هناك تقدم كبير في تطوير نماذج الصور التوليدية التي تنتج صورًا عالية الجودة بناءً على المطالبات النصية. أصبح هذا ممكنًا من خلال التقدم في هندسة التعلم العميق ، وتقنيات التدريب الجديدة مثل النمذجة المقنعة لمهام اللغة والرؤية ، وعائلات النماذج التوليدية الجديدة مثل الجيل القائم على الانتشار والإخفاء. في هذا العمل ، يقدمون نموذجًا جديدًا لتوليف النص إلى صورة يستخدم نهجًا لنمذجة الصور المقنعة استنادًا إلى بنية المحولات. يتكون نموذجهم من عدة نماذج فرعية ، بما في ذلك نماذج VQGAN “tokenizer” التي يمكنها تشفير الصور وفك تشفيرها كتسلسلات من الرموز المميزة المنفصلة ، ونموذج الصورة المقنع الأساسي الذي يتنبأ بالتوزيع الهامشي للرموز المميزة المقنعة بناءً على الرموز المميزة غير المقنعة ، و T5- تضمين نص بحجم XXL ، ونموذج محول “superres” الذي يترجم الرموز المميزة منخفضة الدقة إلى رموز مميزة عالية الدقة باستخدام دمج نص T5-XXL. لقد قاموا بتدريب سلسلة من نماذج Muse بأحجام مختلفة ، تتراوح من 632 مليون إلى 3 مليارات معلمة. لقد وجدوا أن التكييف على نموذج لغوي كبير تم تدريبه مسبقًا أمر بالغ الأهمية لتوليد صور واقعية عالية الجودة.

استنادًا إلى نماذج انتشار مساحة البكسل المتتالية ، يعد Muse أكثر فعالية بكثير من Imagen أو Dall-E2 ؛ يمكن تشبيهه بعملية انتشار منفصلة مع حالة الامتصاص. نظرًا لأن Muse يستخدم فك التشفير المتوازي ، فإنه يعمل بشكل أفضل من Parti ، وهو نموذج انحدار تلقائي متطور. بناءً على التجارب التي أجريت على أجهزة قابلة للمقارنة ، فقد قدروا أن Muse أسرع بعشر مرات في وقت الاستدلال من طرازي Imagen-3B أو Parti-3B وثلاث مرات أسرع من Stable Diffusion v1.4. تتم هذه المقارنات باستخدام صور متطابقة الحجم إما 256 × 256 أو 512 × 512. على الرغم من أن كلا الطرازين يعملان في مساحة كامنة لـ VQGAN ، إلا أن Muse أسرع أيضًا من Stable Diffusion. يظنون أن هذا يرجع إلى أن Stable Diffusion v1.4 يستخدم نموذج انتشار ، مما يتطلب المزيد من التكرارات أثناء الاستدلال. ومع ذلك ، فإن كفاءة Muse المتزايدة لا تأتي على حساب جودة الصور التي تم إنشاؤها أو الدقة الدلالية.

يقومون بتقييم عملهم باستخدام عوامل مثل درجات FID و CLIP. الأول هو قياس مدى تطابق الصور والنصوص ، والأخير هو قياس تنوع وجودة الصور. يتفوق نموذج المعلمة 3B الخاص بهم على النماذج السابقة واسعة النطاق لتحويل النص إلى صورة مع درجة CLIP تبلغ 0.32 ودرجة FID تبلغ 7.88 في اختبار التحقق من عدم إطلاق النار COCO. عند تدريبه واختباره على مجموعة بيانات CC3M ، يحصل نموذج المعلمة 632M + 268M على درجة FID الحديثة 6.06 ، وهي أقل بكثير من أي نتائج أخرى تم الإبلاغ عنها في الأدبيات.

ينشئ Muse صورًا تتطابق بشكل أفضل مع موجه النص الخاص به بمعدل 2.7 مرة أكثر من Stable Diffusion v1.4 ، وفقًا لتقييم أجيالهم التي أجراها المقيمون البشريون باستخدام مجموعة تقييم PartiPrompts. ينشئ Muse رسومات تتضمن الأسماء والأفعال والصفات ومكونات أخرى للكلام من التعليقات التوضيحية المدخلة. كما أنهم يُظهرون وعيًا بالتكوين ، والعلاقة الأساسية ، والصفات الأخرى متعددة الكائنات وفهم الأسلوب البصري. يسمح تدريب Muse القائم على القناع بمجموعة متنوعة من ميزات تغيير الصورة بدون لقطة. يوضح الشكل أدناه هذه التقنيات ، بما في ذلك التحرير بدون قناع ، والرسومات الموجهة بالنص ، والطلاء الخارجي ، والطلاء الصفري.