ستساعدك المقالة التالية: تطلق منظمة العفو الدولية الاستقرار DeepFloyd IF: نموذج تحويل نص إلى صورة عالي الأداء مع قدرات تكامل متقدمة
عقدت شركة Stability AI شراكة مع مختبر أبحاث الذكاء الاصطناعي DeepFloyd لتقديم نسخة بحثية من أحدث تقنياتها ، والتي تسمى DeepFloyd IF. تم تصميم نموذج نشر البكسل المتتالي من نص إلى صورة لإنشاء صور عالية الجودة من مدخلات النص. النموذج متاح بترخيص غير تجاري ومسموح به للبحث ، مما يمكّن مختبرات الأبحاث من استكشاف طرق إنشاء النص إلى صورة المتقدمة وتجربتها. يتوافق إصدار هذا النموذج مع التزام منظمة Stability AI بمشاركة التقنيات المبتكرة مع مجتمع البحث الأوسع. تخطط الشركة لإطلاق نموذج DeepFloyd IF مفتوح المصدر بالكامل في النهاية.
يتميز طراز DeepFloyd IF الذي تم إصداره حديثًا بالعديد من الميزات الرائعة. أولاً ، يستخدم ملف T5-XXL-1.1 نموذج اللغة كمشفّر نص للمساعدة في فهم مطالبات النص. يستخدم النموذج أيضًا طبقات الانتباه المتبادل لمحاذاة موجه النص والصورة التي تم إنشاؤها بشكل أفضل. تتمثل إحدى الميزات البارزة لنموذج DeepFloyd IF في قدرته على تطبيق الأوصاف النصية بدقة لإنشاء صور مع كائنات مختلفة تظهر في علاقات مكانية مختلفة. كانت هذه في السابق مهمة صعبة لنماذج تحويل النص إلى صورة أخرى. ميزة أخرى جديرة بالملاحظة هي الدرجة العالية من الصورة الواقعية في الصور التي تم إنشاؤها ، والتي تنعكس في درجة FID المثيرة للإعجاب ذات اللقطة الصفرية البالغة 6.66 في النموذج. مجموعة بيانات COCO. يمكن لنموذج DeepFloyd IF أيضًا إنشاء صور ذات نسب عرض إلى ارتفاع غير قياسية ، بما في ذلك الاتجاهات الرأسية أو الأفقية والجانب المربع القياسي.
بالإضافة إلى إنشاء النص إلى صورة ، يقدم نموذج DeepFloyd IF ترجمات من صورة إلى صورة بدون لقطة. يتم تحقيق ذلك عن طريق تغيير حجم الصورة الأصلية إلى 64 بكسل ، وإضافة التشويش من خلال الانتشار الأمامي ، واستخدام الانتشار العكسي مع موجه جديد لتقليل التشويش على الصورة. يمكن تعديل النمط من خلال وحدات فائقة الدقة عبر وصف نصي سريع. يسمح هذا الأسلوب بتعديل النمط والأنماط والتفاصيل في صورة الإخراج مع الحفاظ على الشكل الأساسي للصورة المصدر دون الحاجة إلى الضبط الدقيق.
يعمل نموذج DeepFloyd IF على ثلاث مراحل لإنشاء صور عالية الجودة من المطالبات النصية. يحول نموذج اللغة المجمدة T5-XXL موجه النص إلى تمثيل نوعي في المرحلة الأولى. بعد ذلك ، في المرحلة الثانية ، يتم تطبيق نموذج الانتشار الأساسي لتحويل النص النوعي إلى صورة 64 × 64 ، والتي يتم تصعيدها بعد ذلك إلى 256 × 256 باستخدام نموذجين فائق الدقة مشروط للنص. خلال المرحلة الثالثة من العملية ، يتم استخدام نموذج نهائي لتحسين الصورة إلى دقة وضوح تبلغ 1024 × 1024. يشتمل نموذج IF على إصدارات مختلفة من النماذج الأساسية ونماذج الدقة الفائقة ، والتي لها معلمات أخرى. على الرغم من أن نموذج المرحلة الثالثة لم يكن متاحًا بعد ، إلا أنه يمكن استخدام نماذج عالية المستوى بديلة مثل Stable Diffusion x4 Upscaler.
تم تدريب نموذج DeepFloyd IF على مجموعة بيانات مخصصة عالية الجودة تسمى LAION-A ، والتي تحتوي على مليار زوج (صورة ، نص). مجموعة البيانات هي مجموعة فرعية جمالية من الجزء الإنجليزي من لايون -5 ب مجموعة البيانات ، وتم تصفية البيانات باستخدام عوامل تصفية مخصصة لإزالة المحتوى غير المناسب. تم إصدار النموذج في البداية بموجب ترخيص بحث ، ويرحب المنشئون بالتعليقات لتحسين أداء النموذج وقابلية التوسع. يمكن استخدام النموذج في مجالات مختلفة ، مثل الفن والتصميم ورواية القصص والواقع الافتراضي وإمكانية الوصول. يطرح المبدعون العديد من الأسئلة البحثية المتعلقة بالجوانب الفنية والأكاديمية والأخلاقية للنموذج. الوصول إلى أوزان النموذج متاح في Deep Floyd’s تعانق مساحة الوجه، والبطاقة النموذجية والرمز متاحان أيضًا على جيثب. أ عرض Gradio للجميع ، والمبدعون يدعون الناس للانضمام المناقشات العامة.