الأخبار التكنولوجية والاستعراضات والنصائح!

يقترح باحثو CMU GILL: طريقة ذكاء اصطناعي لدمج LLMs مع نماذج التشفير وفك التشفير

ستساعدك المقالة التالية: يقترح باحثو CMU GILL: طريقة ذكاء اصطناعي لدمج LLMs مع نماذج التشفير وفك التشفير

مع إصدار GPT 4 الجديد من OpenAI ، تم تقديم الوسائط المتعددة في نماذج اللغات الكبيرة. بخلاف الإصدار السابق ، GPT 3.5 ، الذي يستخدم فقط للسماح لـ ChatGPT المشهور بأخذ مدخلات نصية ، يقبل أحدث GPT-4 النص بالإضافة إلى الصور كمدخلات. في الآونة الأخيرة ، اقترح فريق من الباحثين من جامعة كارنيجي ميلون نهجًا يسمى توليد الصور بنماذج اللغة الكبيرة (GILL) ، والذي يركز على توسيع نماذج اللغة متعددة الوسائط لإنشاء بعض الصور الفريدة الرائعة.

تتيح طريقة GILL معالجة المدخلات الممزوجة بالصور والنص لإنتاج نص واسترداد الصور وإنشاء صور جديدة. يحقق GILL هذا على الرغم من النماذج التي تستخدم ترميزات نصية مميزة عن طريق نقل مساحة تضمين الإخراج الخاصة بـ LLM المجمدة للنص فقط إلى نموذج إنشاء الصور المجمدة. على عكس الطرق الأخرى التي تستدعي بيانات نصية مشذرة ، يتم إجراء التعيين عن طريق ضبط عدد صغير من المعلمات باستخدام أزواج التسمية التوضيحية للصورة.

ذكر الفريق أن هذه الطريقة تجمع بين نماذج لغة كبيرة للنص المجمد مع نماذج لتشفير الصور وفك تشفيرها تم تدريبها بالفعل. يمكن أن يوفر نطاقًا واسعًا من الإمكانات متعددة الوسائط ، مثل استرجاع الصور وإنتاج الصور الفريدة والحوار متعدد الوسائط. وقد تم ذلك عن طريق رسم خرائط لمساحات تضمين الطرائق من أجل دمجها. يعمل GILL مع تكييف مدخلات النص والصورة المختلطة وينتج مخرجات متماسكة وقابلة للقراءة.

توفر هذه الطريقة شبكة خرائط فعالة تؤسس LLM لنموذج إنشاء نص إلى صورة من أجل الحصول على أداء رائع في إنشاء الصورة. تقوم شبكة الخرائط هذه بتحويل تمثيلات النص المخفية إلى مساحة تضمين النماذج المرئية. عند القيام بذلك ، فإنه يستخدم تمثيلات نصية قوية لـ LLM لإنتاج مخرجات متسقة من الناحية الجمالية.

باستخدام هذا النهج ، يمكن للنموذج استرداد الصور من مجموعة بيانات محددة بالإضافة إلى إنشاء صور جديدة. يختار النموذج ما إذا كان سيتم إنتاج أو الحصول على صورة في وقت الاستدلال. يتم استخدام وحدة القرار المكتسبة المشروطة على التمثيلات المخفية لـ LLM لاتخاذ هذا الاختيار. هذا النهج فعال حسابيًا لأنه يعمل دون الحاجة إلى تشغيل نموذج إنشاء الصور في وقت التدريب.

تؤدي هذه الطريقة أداءً أفضل من نماذج الجيل الأساسي ، خاصةً للمهام التي تتطلب لغة أطول وأكثر تعقيدًا. بالمقارنة ، يتفوق GILL على طريقة Stable Diffusion في معالجة النص الأطول شكلًا ، بما في ذلك الحوار والخطاب. تؤدي GILL أداءً أكبر في إنشاء الصور المكيفة بالحوار مقارنة بنماذج الجيل غير القائمة على LLM ، حيث تستفيد من السياق متعدد الوسائط وتنتج صورًا تتطابق بشكل أفضل مع النص المحدد. بخلاف نماذج تحويل النص إلى صورة التقليدية التي تعالج الإدخال النصي فقط ، يمكن لـ GILL أيضًا معالجة مدخلات نص الصورة المشذرة بشكل تعسفي.

في الختام ، يبدو GILL (توليد الصور بنماذج اللغات الكبيرة) واعدًا لأنه يصور نطاقًا أوسع من القدرات مقارنةً بنماذج اللغات متعددة الوسائط السابقة. قدرتها على التفوق على نماذج التوليد التي لا تعتمد على LLM في مهام تحويل النص إلى الصورة المختلفة التي تقيس الاعتماد على السياق تجعلها حلاً فعالاً للمهام متعددة الوسائط.