الأخبار التكنولوجية والاستعراضات والنصائح!

تعرف على ImageReward: نموذج ثوري لتحويل النص إلى صورة يسد الفجوة بين القدرات التوليدية للذكاء الاصطناعي والقيم الإنسانية

ستساعدك المقالة التالية: تعرف على ImageReward: نموذج ثوري لتحويل النص إلى صورة يسد الفجوة بين القدرات التوليدية للذكاء الاصطناعي والقيم الإنسانية

في التعلم الآلي ، حققت النماذج التوليدية التي يمكنها إنتاج صور استنادًا إلى مدخلات النص تقدمًا كبيرًا في السنوات الأخيرة ، مع وجود مناهج مختلفة تظهر نتائج واعدة. على الرغم من أن هذه النماذج قد جذبت اهتمامًا كبيرًا وتطبيقات محتملة ، إلا أن مواءمتها مع التفضيلات البشرية لا تزال تمثل تحديًا أساسيًا بسبب الاختلافات بين التدريب المسبق والتوزيع الفوري للمستخدم ، مما يؤدي إلى مشكلات معروفة في الصور التي تم إنشاؤها.

تظهر العديد من التحديات عند إنشاء صور من المطالبات النصية. وتشمل هذه الصعوبات في محاذاة النص والصور بدقة ، وتصوير جسم الإنسان بدقة ، والالتزام بالتفضيلات الجمالية للإنسان ، وتجنب السمية المحتملة والتحيزات في المحتوى الناتج. تتطلب معالجة هذه التحديات أكثر من مجرد تحسين بنية النموذج وبيانات ما قبل التدريب. أحد الأساليب التي تم استكشافها في معالجة اللغة الطبيعية هو التعلم المعزز من ردود الفعل البشرية ، حيث يتم إنشاء نموذج المكافأة من خلال مقارنات مشروحة من الخبراء لتوجيه النموذج نحو التفضيلات والقيم البشرية. ومع ذلك ، قد تستغرق عملية التعليقات التوضيحية هذه وقتًا وجهدًا.

للتعامل مع هذه التحديات ، قدم فريق بحثي من الصين حلاً جديدًا لتوليد الصور من الرسائل النصية. لقد قدموا ImageReward ، أول نموذج لمكافأة التفضيل البشري لتحويل النص إلى صورة للأغراض العامة ، تم تدريبه على 137 ألف زوج من مقارنات الخبراء بناءً على مطالبات المستخدم في العالم الحقيقي ومخرجات النموذج.

لإنشاء ImageReward ، استخدم المؤلفون خوارزمية قائمة على الرسم البياني لتحديد المطالبات المختلفة وزودوا المعلقين بنظام يتألف من التعليقات التوضيحية السريعة ، وتصنيف الصور النصية ، وترتيب الصور. كما قاموا بتجنيد المعلقين الحاصلين على تعليم على مستوى الكلية على الأقل لضمان توافق في الآراء في تصنيفات وتصنيفات الصور التي تم إنشاؤها. حلل المؤلفون أداء نموذج نص إلى صورة على أنواع مختلفة من المطالبات. لقد جمعوا مجموعة بيانات من 8878 مطالبة مفيدة وسجلوا الصور التي تم إنشاؤها بناءً على ثلاثة أبعاد. حددوا أيضًا المشكلات الشائعة في الصور التي تم إنشاؤها ووجدوا أن مشاكل الجسم والولادة المتكررة كانت الأكثر خطورة. درسوا تأثير الكلمات “الوظيفية” في المحفزات على أداء النموذج ووجدوا أن عبارات الوظيفة المناسبة تعمل على تحسين محاذاة النص مع الصورة.

تضمنت الخطوة التجريبية تدريب ImageReward ، وهو نموذج تفضيل للصور التي تم إنشاؤها ، باستخدام التعليقات التوضيحية لنمذجة التفضيلات البشرية. تم استخدام BLIP كعمود فقري ، وتم تجميد بعض طبقات المحولات لمنع فرط التجهيز. تم تحديد المعلمات التشعبية المثلى من خلال بحث الشبكة باستخدام مجموعة التحقق من الصحة. تمت صياغة وظيفة الخسارة بناءً على الصور المرتبة لكل موجه ، وكان الهدف هو تحديد الصور التي يفضلها البشر تلقائيًا.

في خطوة التجربة ، يتم تدريب النموذج على مجموعة بيانات تضم أكثر من 136000 زوج من مقارنات الصور ومقارنتها مع النماذج الأخرى باستخدام دقة التفضيل والتذكر ودرجات التصفية. تتفوق ImageReward على النماذج الأخرى ، حيث تبلغ دقة التفضيل 65.14٪. تتضمن الورقة أيضًا تحليلًا للاتفاق بين المعلقين والباحثين ومجموعة التعليقات التوضيحية والنماذج. يظهر أن النموذج يعمل بشكل أفضل من النماذج الأخرى من حيث دقة الصورة ، وهو أكثر تعقيدًا من الجماليات ، ويزيد من الفرق بين الصور المتفوقة والدنيا. بالإضافة إلى ذلك ، تم إجراء دراسة الاجتثاث لتحليل تأثير إزالة مكونات أو ميزات معينة من نموذج ImageReward المقترح. النتيجة الرئيسية لدراسة الاجتثاث هي أن إزالة أي من الفروع الثلاثة ، بما في ذلك العمود الفقري للمحول ، ومشفّر الصور ، ومشفّر النص ، سيؤدي إلى انخفاض كبير في دقة تفضيل النموذج. على وجه الخصوص ، قد تتسبب إزالة العمود الفقري للمحول في انخفاض الأداء الأكثر أهمية ، مما يشير إلى الدور الحاسم للمحول في النموذج.

في هذه المقالة ، قدمنا ​​تحقيقًا جديدًا أجراه فريق صيني قدم برنامج ImageReward. يعالج نموذج مكافأة التفضيل البشري لتحويل النص إلى صورة للأغراض العامة المشكلات في النماذج التوليدية من خلال التوافق مع القيم الإنسانية. قاموا بإنشاء خط أنابيب للتعليقات التوضيحية ومجموعة بيانات مكونة من 137 ألف مقارنات و 8878 مطالبة. أظهرت التجارب تفوق ImageReward في الأداء على الأساليب الحالية ويمكن أن تكون مقياس تقييم مثاليًا. قام الفريق بتحليل التقييمات البشرية وخطط لتنقيح عملية التعليقات التوضيحية وتوسيع النموذج ليشمل المزيد من الفئات واستكشاف التعلم المعزز لدفع حدود تركيب النص إلى الصورة.