الأخبار التكنولوجية والاستعراضات والنصائح!

قابل LLaVA: نموذج متعدد الوسائط للغات كبير ومساعد رؤية يربط بين مشفر الرؤية و Vicuna من أجل فهم بصري ولغوي للأغراض العامة

ستساعدك المقالة التالية: قابل LLaVA: نموذج متعدد الوسائط للغات كبير ومساعد رؤية يربط بين مشفر الرؤية و Vicuna من أجل فهم بصري ولغوي للأغراض العامة

بدأ البشر في التفاعل مع العالم من خلال أفضل ركيزتين للغة والرؤية. هذا كله بسبب القدرات الجيدة الفائقة لنماذج اللغات الكبيرة المشهورة مؤخرًا (LLMs). اقتحمت LLM العالم بأدائها المتزايد بشكل ملحوظ. بدأت LLMs مثل GPT-3 و T5 و PaLM وما إلى ذلك في تقليد البشر من خلال تعلم قراءة وتلخيص وإنشاء البيانات النصية.

طور الباحثون في مجال الذكاء الاصطناعي مساعدًا للأغراض العامة يمكنه اتباع تعليمات الرؤية واللغة متعددة الوسائط بشكل فعال والتي تتماشى مع نية الإنسان لإكمال مهام العالم الحقيقي بسهولة. لهذا الغرض ، يتم تطوير نماذج الرؤية التأسيسية المعززة باللغة في الفهم البصري للعالم المفتوح لأداء مهام مثل التصنيف والكشف والتجزئة والتعليق والتوليد المرئي والتحرير. مع إصدار GPT-4 بواسطة OpenAI ، أثبت نموذج المحول وراء chatbot الشهير ، ChatGPT ، وقدراته المتعددة الوسائط أنه إضافة جيدة إلى قائمة LLMs.

في ورقة بحثية حديثة ، قدم المؤلفون المحاولة الأولى لاستخدام GPT-4 لتوليد بيانات تتبع تعليمات اللغة والصورة متعددة الوسائط. قدم الفريق LLaVA ، وهو مساعد كبير للغة والرؤية ، وهو نموذج كبير متعدد الوسائط مدرب من طرف إلى طرف يربط بين مشفر الرؤية و Vicuna من أجل الفهم البصري واللغوي للأغراض العامة. Vicuna عبارة عن روبوت محادثة مفتوح المصدر مزود بمعلمات 13B تم تدريبه عن طريق ضبط LLaMA على المحادثات التي يشاركها المستخدم.

LLaVa هي محاولة لتوسيع ضبط التعليمات إلى الفضاء متعدد الوسائط. الهدف الرئيسي هو تمكين المستخدمين من إكمال مهامهم في الوقت الفعلي بمساعدة مساعد مرئي يمكنه اتباع تعليمات الرؤية واللغة متعددة الوسائط بشكل فعال والتي تتماشى مع نوايا الإنسان. المساهمات الكبيرة التي قدمها الفريق هي كما يلي –

  1. بيانات تتبع التعليمات متعددة الوسائط – قدم الفريق منظورًا لإعادة صياغة البيانات وخط أنابيب لتحويل أزواج الصور والنصوص إلى تنسيق متابعة التعليمات بمساعدة نموذج GPT-4.
  2. نماذج كبيرة متعددة الوسائط – طور الفريق نموذجًا كبيرًا متعدد الوسائط من خلال توصيل المشفر البصري المفتوح لـ CLIP مع وحدة فك ترميز اللغة LLaMA وضبطها من طرف إلى طرف على بيانات لغة الرؤية التعليمية التي تم إنشاؤها.
  3. تحاول الدراسة التجريبية التحقق من فعالية البيانات التي ينشئها المستخدم لضبط تعليمات LMM. حتى أنه يقترح نصائح عملية لبناء عامل مرئي للأغراض العامة يتبع التعليمات.
  4. تم تحقيق أداء SOTA بمساعدة GPT-4 في مجموعة بيانات المنطق متعدد الوسائط Science QA.
  5. طبيعة مفتوحة المصدر – المشروع مفتوح المصدر ، وبيانات التعليمات متعددة الوسائط التي تم إنشاؤها ، وقاعدة الكود لتوليد البيانات وتدريب النموذج ، ونقطة التفتيش النموذجية ، وعروض الدردشة المرئية مفتوحة للجمهور للوصول ويمكن الوصول إليها من خلال https://github.com/haotian-liu/LLaVA.

أثبتت LLaVA قدرات محادثة متعددة الوسائط رائعة وحققت درجة نسبية 85.1٪ مقارنةً بـ GPT-4 على مجموعة بيانات تركيبية تتبع التعليمات متعددة الوسائط. عند ضبطه بدقة على Science QA ، حقق تآزر LLaVA و GPT-4 دقة SOTA جديدة بنسبة 92.53٪. النتائج تجعل من LLaVA نهجًا واعدًا ومساهمة كبيرة في نماذج اللغة التي تم إصدارها.