الأخبار التكنولوجية والاستعراضات والنصائح!

تعرف على MiniGPT-4: نموذج ذكاء اصطناعي مفتوح المصدر يؤدي مهام لغة رؤية معقدة مثل GPT-4

ستساعدك المقالة التالية: تعرف على MiniGPT-4: نموذج ذكاء اصطناعي مفتوح المصدر يؤدي مهام لغة رؤية معقدة مثل GPT-4

GPT-4 هو أحدث نموذج لغة كبير أصدرته OpenAI. طبيعتها متعددة الوسائط تميزها عن جميع LLMs المقدمة سابقًا. هندسة المحولات الخاصة بـ GPT هي التقنية الكامنة وراء ChatGPT المعروفة التي تجعلها قادرة على تقليد البشر من خلال فهم اللغة الطبيعية الفائق الجودة. أظهر GPT-4 أداءً هائلاً في حل المهام مثل إنتاج أوصاف صور مفصلة ودقيقة ، وشرح الظواهر المرئية غير العادية ، وتطوير مواقع الويب باستخدام تعليمات نصية مكتوبة بخط اليد ، وما إلى ذلك. حتى أن بعض المستخدمين استخدموه لإنشاء ألعاب فيديو وإضافات Chrome وشرح أسئلة التفكير المعقدة.

السبب وراء الأداء الاستثنائي لـ GPT-4 غير مفهوم تمامًا. يعتقد مؤلفو ورقة بحثية صدرت مؤخرًا أن القدرات المتقدمة لـ GPT-4 قد تكون بسبب استخدام نموذج لغة كبير أكثر تقدمًا. أظهرت الأبحاث السابقة كيف تتكون LLM من إمكانات كبيرة ، والتي لا توجد في الغالب في النماذج الأصغر. لذلك اقترح المؤلفون نموذجًا جديدًا يسمى MiniGPT-4 لاستكشاف الفرضية بالتفصيل. MiniGPT-4 هو نموذج مفتوح المصدر قادر على أداء مهام لغة الرؤية المعقدة تمامًا مثل GPT-4.

تم تطويره بواسطة فريق من دكتوراه. طلاب من جامعة الملك عبد الله للعلوم والتكنولوجيا ، المملكة العربية السعودية ، يتكون برنامج MiniGPT-4 من قدرات مماثلة لتلك التي تصورها GPT-4 ، مثل إنشاء وصف تفصيلي للصور وإنشاء مواقع الويب من المسودات المكتوبة بخط اليد. يستخدم MiniGPT-4 LLM متقدمًا يسمى Vicuna باعتباره وحدة فك ترميز اللغة ، والذي تم بناؤه على LLaMA ويُقال إنه يحقق 90 ٪ من جودة ChatGPT كما تم تقييمها بواسطة GPT-4. استخدم MiniGPT-4 مكون الرؤية المحجوزة مسبقًا لـ BLIP-2 (التدريب المسبق على لغة التمهيد والصورة) وأضف طبقة عرض واحدة لمحاذاة الميزات المرئية المشفرة مع نموذج لغة Vicuna عن طريق تجميد جميع مكونات الرؤية واللغة الأخرى.

أظهر MiniGPT-4 نتائج رائعة عندما طُلب منه تحديد المشكلات من إدخال الصورة. لقد قدمت حلاً بناءً على إدخال الصورة المقدمة لنبات مريض من قبل المستخدم مع موجه يسأل عن الخطأ في المصنع. حتى أنها اكتشفت محتوى غير عادي في صورة ما ، وكتبت إعلانات عن منتجات ، وأنتجت وصفات مفصلة من خلال مراقبة صور طعام لذيذة ، وابتكرت أغاني راب مستوحاة من الصور ، واستردت حقائق عن الأشخاص ، أو الأفلام ، أو الفن مباشرة من الصور.

وفقًا لدراستهم ، ذكر الفريق أن تدريب طبقة إسقاط واحدة يمكن أن يحاذي بكفاءة الميزات المرئية مع LLM. يتطلب MiniGPT-4 تدريبًا لمدة 10 ساعات فقط تقريبًا على 4 وحدات معالجة رسومات A100. أيضًا ، شارك الفريق في مدى صعوبة تطوير نموذج MiniGPT-4 عالي الأداء من خلال محاذاة الميزات المرئية مع LLMs باستخدام أزواج الصور والنص الخام من مجموعات البيانات العامة ، حيث يمكن أن يؤدي ذلك إلى عبارات متكررة أو جمل مجزأة. للتغلب على هذا القيد ، يحتاج MiniGPT-4 إلى التدريب باستخدام مجموعة بيانات عالية الجودة ومتوافقة جيدًا ، وبالتالي تعزيز قابلية استخدام النموذج من خلال توليد مخرجات لغوية أكثر طبيعية ومتماسكة.

يبدو MiniGPT-4 تطورًا واعدًا نظرًا لقدراته الرائعة على التوليد متعدد الوسائط. تتمثل إحدى أهم الميزات في كفاءتها الحسابية العالية وحقيقة أنها لا تتطلب سوى ما يقرب من 5 ملايين زوج من الصور والنصوص المحاذاة لتدريب طبقة الإسقاط. يتوفر الرمز والنموذج المدرب مسبقًا ومجموعة البيانات المجمعة