الأخبار التكنولوجية والاستعراضات والنصائح!

تقترح Microsoft AI MM-REACT: نموذج نظام يجمع بين ChatGPT وخبراء الرؤية من أجل التفكير والإجراء المتقدم متعدد الوسائط

ستساعدك المقالة التالية: تقترح Microsoft AI MM-REACT: نموذج نظام يجمع بين ChatGPT وخبراء الرؤية من أجل التفكير والإجراء المتقدم متعدد الوسائط

تتقدم نماذج اللغات الكبيرة (LLMs) بسرعة وتساهم في التحولات الاقتصادية والاجتماعية الملحوظة. مع إطلاق العديد من أدوات الذكاء الاصطناعي (AI) على الإنترنت ، فإن إحدى هذه الأدوات التي أصبحت شائعة للغاية في الأشهر القليلة الماضية هي ChatGPT. ChatGPT هو نموذج معالجة لغة طبيعية يسمح للمستخدمين بإنشاء نص ذي معنى مثل البشر. يعتمد ChatGPT من OpenAI على بنية محول GPT ، مع كون GPT-4 هو أحدث نموذج لغة يقوم بتشغيله.

مع أحدث تطورات الذكاء الاصطناعي والتعلم الآلي ، تطورت رؤية الكمبيوتر بشكل كبير ، مع تحسين بنية الشبكة والتدريب على النماذج على نطاق واسع. في الآونة الأخيرة ، أدخل بعض الباحثين MM-REACT ، وهو نموذج نظام يتكون من العديد من خبراء الرؤية باستخدام ChatGPT للاستدلال والوسائل المتعددة. تجمع MM-REACT بين نماذج الرؤية الفردية ونموذج اللغة بطريقة أكثر مرونة للتغلب على تحديات الفهم البصري المعقدة.

تم تطوير MM-REACT بهدف رعاية مجموعة واسعة من المهام المرئية المعقدة التي تعاني منها نماذج الرؤية والرؤية واللغة الحالية. لهذا الغرض ، يستخدم MM-REACT تصميمًا سريعًا لتمثيل أنواع مختلفة من المعلومات ، مثل الأوصاف النصية والإحداثيات المكانية النصية والإشارات المرئية الكثيفة ، مثل الصور ومقاطع الفيديو ، ممثلة بأسماء ملفات متوائمة. يتيح هذا التصميم لـ ChatGPT قبول أنواع مختلفة من المعلومات ومعالجتها مع الإدخال المرئي ، مما يؤدي إلى فهم أكثر دقة وشمولية.

MM-REACT هو نظام يجمع بين قدرات ChatGPT ومجموعة من خبراء الرؤية لإضافة وظائف متعددة الوسائط. يتم استخدام مسار الملف كعنصر نائب ويتم إدخاله في ChatGPT لتمكين النظام من قبول الصور كمدخلات. عندما يتطلب النظام معلومات محددة من الصورة ، مثل تحديد اسم أحد المشاهير أو إحداثيات الصندوق ، تطلب ChatGPT المساعدة من خبير رؤية محدد. يتم بعد ذلك تسلسل إخراج الخبير كنص ودمجها مع الإدخال لتنشيط ChatGPT بشكل أكبر. يتم إرجاع الرد مباشرة إلى المستخدم إذا لم تكن هناك حاجة لخبراء خارجيين.

تم تصميم ChatGPT لفهم معرفة استخدامات خبراء الرؤية من خلال إضافة تعليمات معينة إلى مطالبات ChatGPT التي تتعلق بقدرة كل خبير ، ونوع وسيطة الإدخال ، ونوع الإخراج ، إلى جانب بعض الأمثلة في السياق لكل خبير. علاوة على ذلك ، يتم توجيه كلمة مرور خاصة لاستخدام مطابقة تعبير regex لاستدعاء الخبير وفقًا لذلك.

عند التجريب ، أظهرت تجارب Zero-shot كيف تتناول MM-REACT بفعالية قدراتها الخاصة ذات الأهمية. لقد أثبتت فعاليتها في حل مجموعة واسعة من المهام المرئية المتقدمة التي تتطلب فهمًا بصريًا معقدًا. شارك المؤلفون بعض الأمثلة حيث يكون MM-REACT قادرًا على تقديم حلول للمعادلات الخطية المعروضة على الصورة. أيضًا ، إنه قادر على أداء فهم المفهوم من خلال تسمية المنتجات في الصورة ومكوناتها وما إلى ذلك. في الختام ، يجمع نموذج النظام هذا بشكل كبير بين الخبرة اللغوية والرؤية وهو قادر على تحقيق ذكاء بصري متقدم.