ستساعدك المقالة التالية: يقدم Microsoft Research ChatGPT المرئي الذي يشتمل على نماذج مؤسسة مرئية مختلفة تمكن المستخدمين من التفاعل مع ChatGPT
شهدت السنوات الأخيرة تطورات ملحوظة في تطوير نماذج اللغات الكبيرة (LLMs) ، بما في ذلك T5 و BLOOM و GPT-3. يعد ChatGPT ، استنادًا إلى InstructGPT ، تقدمًا كبيرًا لأنه يتم تعليمه التمسك بسياق المحادثة ، والاستجابة بشكل مناسب لاستفسارات المتابعة ، وإنشاء ردود دقيقة. على الرغم من أن ChatGPT مثير للإعجاب ، إلا أنه يتم تدريبه باستخدام لغة واحدة فقط ، مما يحد من قدرته على التعامل مع المعلومات المرئية.
أظهرت نماذج الأساس المرئي (VFMs) إمكانات هائلة في رؤية الكمبيوتر بفضل قدرتها على فهم وبناء المرئيات المعقدة. ومع ذلك ، فإن VFMs أقل قابلية للتكيف من نماذج لغة المحادثة في التفاعل بين الإنسان والآلة بسبب القيود التي تفرضها طبيعة طبيعة تعريف المهمة وتنسيقات المدخلات والمخرجات المحددة مسبقًا.
يعد تدريب نموذج محادثة متعدد الوسائط حلاً طبيعيًا يمكنه إنشاء نظام مشابه لـ ChatGPT ولكن مع القدرة على فهم وإنشاء محتوى مرئي. ومع ذلك ، فإن بناء مثل هذا النظام يتطلب كمية كبيرة من المعلومات وقوة المعالجة.
تقترح دراسة جديدة لشركة Microsoft حلاً لهذه المشكلة باستخدام Visible ChatGPT الذي يتفاعل مع نماذج الرؤية عبر النص والتسلسل الفوري. طور الباحثون Visual ChatGPT أعلى ChatGPT وأضفوا العديد من VFMs كبديل لتدريب ChatGPT متعدد الوسائط جديد تمامًا من البداية. يقدمون مديرًا موجهًا يسد الفجوة بين ChatGPT و VFMs مع الميزات التالية:
- يحدد تنسيقات الإدخال والإخراج ويبلغ ChatGPT بإمكانيات كل VFM
- يتعامل مع التواريخ والأولويات والصراعات الخاصة بنماذج الأساس المرئي المختلفة
- يحول المعلومات المرئية المتنوعة ، مثل صور png والصور العميقة ومصفوفة القناع ، إلى تنسيق لغة لمساعدة ChatGPT في الفهم.
من خلال دمج Prompt Manager ، قد يستخدم ChatGPT بشكل متكرر هذه VFMs ويتعلم من ردودهم حتى يلبي احتياجات المستخدمين أو يصل إلى الحالة النهائية.
على سبيل المثال ، لنفترض أن مستخدمًا قام بتحميل صورة زهرة صفراء وأضف تعليمات لغوية صعبة مثل “الرجاء إنشاء زهرة حمراء مشروطة بالعمق المتوقع لهذه الصورة ، ثم قم ببنائها مثل رسم كاريكاتوري ، خطوة بخطوة”. يبدأ Visual ChatGPT في تنفيذ نماذج Visual Foundation المرتبطة باستخدام Prompt Manager. على وجه التحديد ، يستخدم أولاً نموذج تقدير العمق لتحديد معلومات العمق ، ثم نموذج العمق إلى الصورة لإنشاء شكل زهرة حمراء باستخدام معلومات العمق ، وأخيراً أسلوب نقل VFM استنادًا إلى نموذج الانتشار المستقر للتحويل جماليات هذه الصورة في رسم كاريكاتوري. في سلسلة المعالجة المذكورة أعلاه ، يعمل Prompt Manager كمرسل لـ ChatGPT من خلال توفير التمثيلات المرئية وتتبع تحويل المعلومات. بعد جمع تلميحات “الرسوم المتحركة” من Prompt Manager ، سيوقف Visual ChatGPT تنفيذ خط الأنابيب ويعرض الإخراج النهائي.
عند تشغيل المصدر من خلال Pyreverse ، سيكون من الممكن تحقيق تعدد الوسائط باستخدام “نموذج god” للاختيار من بين العديد من النماذج الصغيرة ، مع النص كواجهة عالمية.
ذكر الباحثون في ورقتهم البحثية أن فشل VFMs وعدم تناسق المحفز الفوري هما سببان للقلق لأنهما يؤديان إلى نتائج توليد أقل من مرضية. لهذا السبب ، يلزم وجود وحدة واحدة للتصحيح الذاتي للتحقق من أن نتائج التنفيذ متوافقة مع النوايا البشرية ولإجراء التعديلات المطلوبة. من الممكن أن يتضخم وقت الاستدلال في النموذج بسبب ميله إلى تصحيح مساره باستمرار. يخطط الفريق لمعالجة هذه المشكلة في دراستهم المستقبلية.