الأخبار التكنولوجية والاستعراضات والنصائح!

تقترح أبحاث علي بابا للذكاء الاصطناعي المؤلف: نموذج انتشار كبير (5 مليارات معلمة) يمكن التحكم فيه تم تدريبه على مليارات من أزواج (النص والصورة)

ستساعدك المقالة التالية: تقترح أبحاث علي بابا للذكاء الاصطناعي المؤلف: نموذج انتشار كبير (5 مليارات معلمة) يمكن التحكم فيه تم تدريبه على مليارات من أزواج (النص والصورة)

في الوقت الحاضر ، يمكن لنماذج الصور التوليدية المستندة إلى النص إنشاء مجموعة واسعة من الصور الواقعية. عملت العديد من الجهود الأخيرة على توسيع نماذج تحويل النص إلى صورة لتحقيق مزيد من الإنجاز المخصص عن طريق إضافة شروط مثل خرائط التجزئة والرسوم البيانية للمشهد والرسومات وخرائط العمق وأقنعة الطلاء أو ضبط النماذج المحددة مسبقًا على كمية صغيرة من البيانات الخاصة بالموضوع . عندما يتعلق الأمر بتطبيق هذه النماذج في تطبيقات العالم الحقيقي ، لا يزال المصممون بحاجة إلى مزيد من التحكم فيها. على سبيل المثال ، من المعتاد في مشاريع التصميم في العالم الحقيقي أن تحتاج النماذج التوليفية إلى مساعدة لإنتاج صور موثوقة مع متطلبات متزامنة للدلالات والشكل والأسلوب واللون.

باحثون من علي بابا الصين يقدمون الملحن. إنه نموذج انتشار كبير (5 مليارات معلمة) يمكن التحكم فيه تم تدريبه على مليارات من أزواج (نص ، صورة). وهم يؤكدون أن التركيب – وليس مجرد تكييف – هو سر التحكم في تكوين الصورة. يقدم الأخير العديد من التركيبات الممكنة ، والتي يمكن أن تزيد مساحة التحكم بشكل كبير. يتم التحقيق في أفكار مماثلة في تخصصات اللغة وفهم المشهد. في هذه الحقول ، يُطلق على التركيب اسم التعميم التركيبي ، أي القدرة على التعرف على أو إنشاء عدد محدود من التركيبات الفريدة من عدد محدود من المكونات المتاحة. استنادًا إلى المفهوم المذكور سابقًا ، يزودون الملحن في هذا العمل بتنفيذ النماذج التوليدية التركيبية. يشيرون إلى النماذج التوليدية التي يمكنها إعادة تجميع العناصر المرئية بسلاسة لإنشاء صور جديدة كنماذج توليدية تركيبية. يستخدمون نموذج انتشار متعدد الشروط مع العمود الفقري UNet لتنفيذ Composer. يحتوي كل تكرار لتدريب Composer على مرحلتين: مرحلة التحلل ، حيث يتم استخدام خوارزميات رؤية الكمبيوتر أو النماذج المحددة مسبقًا لتقسيم مجموعات الصور إلى تمثيلات فردية ، ومرحلة التكوين ، حيث يتم تحسين Composer لإعادة بناء الصور من مجموعات التمثيل الفرعية.

يمكن للملحنين فك تشفير الصور الفريدة من مجموعات التمثيلات غير المرئية التي قد تأتي من مصادر متعددة وقد تكون غير متوافقة مع بعضها البعض أثناء تدريبهم فقط لغرض إعادة البناء. يعد Composer فعالًا بشكل مدهش على الرغم من بساطته المفاهيمية وسهولة استخدامه ، مما يتيح تشجيع الأداء في مهام إنشاء الصور ومعالجتها التقليدية وغير المكتشفة سابقًا ، مثل على سبيل المثال لا الحصر إنشاء نص إلى صورة ، وإنشاء صورة مشروطة متعددة الوسائط ، ونقل النمط ، ونقل الوضع ، وترجمة الصور ، والتجربة الافتراضية ، والاستيفاء وتغير الصورة من اتجاهات مختلفة ، وإعادة تكوين الصورة عن طريق تعديل الرسومات ، وترجمة الصور التابعة ، وترجمة الصور.

بالإضافة إلى ذلك ، يمكن أن يقصر Composer المنطقة القابلة للتحرير على منطقة محددة بواسطة المستخدم لجميع العمليات المذكورة أعلاه ، والتي تعد أكثر مرونة من عملية الطلاء التقليدية ، مع منع تعديل البكسل خارج هذه المنطقة عن طريق تقديم تمثيل متعامد للقناع. على الرغم من خضوعه لتدريب متعدد المهام ، حصل Composer على FID بدون طلقة قدره 9.2 في توليف تحويل النص إلى صورة في مجموعة بيانات COCO أثناء استخدام التسمية التوضيحية كمعيار ، مما يدل على قدرته على تقديم نتائج ممتازة. يشير نموذج التحلل والتكوين الخاص بهم إلى أن مساحة التحكم في النماذج التوليدية قد تزداد بشكل كبير عندما تكون الظروف قابلة للتكوين بدلاً من الأفراد العاملين. وبالتالي ، يمكن إعادة صياغة مجموعة واسعة من المهام التوليدية التقليدية باستخدام هندسة Composer الخاصة بهم ، وقد تم الكشف عن قدرات توليدية غير معترف بها حتى الآن ، مما يلهم المزيد من الدراسة في تقنيات التحلل المختلفة التي قد تحقق قدرة أعلى على التحكم. أيضًا ، استنادًا إلى الإرشادات ثنائية الاتجاه والخالية من المصنف ، فإنها توضح العديد من الأساليب لتوظيف Composer في مهام مختلفة لإنتاج الصور وتعديلها ، مما يوفر مراجع مفيدة للدراسات اللاحقة. قبل إتاحة العمل للجمهور ، يخططون لفحص كيف يمكن لـ Composer تقليل مخاطر إساءة الاستخدام وربما توفير نسخة مصفاة.