الأخبار التكنولوجية والاستعراضات والنصائح!

تقترح ورقة الذكاء الاصطناعي هذه CaFo: سلسلة من النماذج التأسيسية التي تتضمن معرفة مسبقة متنوعة لنماذج ما قبل التدريب المختلفة لتعلم أفضل بلقطات قليلة

ستساعدك المقالة التالية: تقترح ورقة الذكاء الاصطناعي هذه CaFo: سلسلة من النماذج التأسيسية التي تتضمن معرفة مسبقة متنوعة لنماذج ما قبل التدريب المختلفة لتعلم أفضل بلقطات قليلة

حققت العديد من مجموعات البيانات والشبكات العصبية التلافيفية والمحولات نجاحًا ملحوظًا في مهام الرؤية المختلفة. بدلاً من ذلك ، يصبح التعلم بلقطات قليلة ، حيث تقتصر الشبكات على التعلم من الصور المقيدة مع التعليقات التوضيحية ، أيضًا نقطة ساخنة للبحث لمختلف السيناريوهات التي تفتقر إلى البيانات ومحدودة الموارد. اقترحت العديد من المنشورات السابقة استخدام التعلم التلوي ، والتعلم المتري ، وزيادة البيانات لتحسين قدرة التعميم للنموذج. تظهر النتائج الأخيرة قدرة جيدة على نقل اللقطة الصفرية للتعرف البصري على المفردات المفتوحة باستخدام CLIP المدربة مسبقًا من خلال أزواج واسعة النطاق بين اللغة والصورة.

تم تمديده أيضًا لتصنيف عدد قليل من اللقطات من خلال CoOp للمتابعة و CLIP-Adapter و Tip-Adapter ، والذي يحقق أيضًا أداءً محسنًا على مجموعات البيانات المختلفة. يوضح هذا أن الشبكة تتمتع بقدرات تمثيلية قوية حتى عندما تكون مواد التدريب قليلة اللقطات غير كافية ، مما يساعد بشكل كبير في التعلم القليل اللقطات في المجالات النهائية. مع ظهور نماذج أخرى للإشراف الذاتي غير CLIP ، فهل يمكنهم التعاون ودمج معرفتهم السابقة بشكل تكيفي ليصبحوا متعلمين أفضل قليلًا؟ يقترح باحثون صينيون CaFo ، نموذج Cascade of Foundation ، لمعالجة هذه المشكلة من خلال دمج المعلومات من عدة نماذج ما قبل التدريب مع خط أنابيب “موجه ، ثم إنتاج ، ثم ذاكرة تخزين مؤقت”.

فهي تجمع بين CLIP و DINO و DALL-E و GPT3 لإعطاء CaFo أربعة أشكال من المعرفة السابقة ، كما هو موضح في الشكل 1. تم تدريب CLIP مسبقًا لتوفير ميزات مقترنة لكل صورة ونص الوصف المقابل لها في مساحة التضمين. من خلال المعرفة المتباينة للغة والنصوص ذات معاني الفئات المختلفة ، يمكن لـ CLIP تصنيف الصور بنجاح. يستخدم DINO التعلم المتباين تحت الإشراف الذاتي لمطابقة التمثيلات بين تحولين من نفس الصورة. DINO هي خبيرة في التمييز بين الصور المختلفة باستخدام المعرفة المتباينة للرؤية. تم تدريب DALL-E مسبقًا على استخدام أزواج نص الصورة ، تمامًا مثل CLIP ، إلا أنها تتعلم توقع الرموز المميزة للصورة المشفرة استنادًا إلى الرموز النصية المتوفرة. اعتمادًا على النص المقدم ، قد تستخدم DALLE المعرفة المولدة للرؤية لإنشاء صور تركيبية عالية الجودة بطريقة بدون لقطة.

عند إعطاء عدد قليل من القوالب المكتوبة بخط اليد كمدخلات ، فإن GPT-3 واسع النطاق المدرب على مجموعة اللغات يقوم تلقائيًا بإنشاء جمل تبدو مثل الكلام البشري وغنية بالمعرفة اللغوية التوليدية. لذلك ، فإن النماذج الأربعة لها أهداف مختلفة قبل التدريب وقد تعرض استكمال المعلومات للمساعدة في التعرف البصري على عدد قليل من اللقطات. يتسلسلون في ثلاث مراحل ، على وجه التحديد:

1) سريع: استنادًا إلى عدد قليل من القوالب المكتوبة بخط اليد ، يستخدمون GPT-3 لإنشاء مطالبات نصية لـ CLIP. يتلقى المشفر النصي في CLIP هذه التعليمات بفهم لغوي أكثر تعقيدًا.

2) ينتج: يستخدمون DALL-E ، الذي يوسع بيانات التدريب ذات اللقطات القليلة مع عدم الحاجة إلى مزيد من العمل للتجميع والتعليق ، لإنتاج صور تدريب إضافية لمختلف الفئات بناءً على النصوص الخاصة بالمجال.

3) مخبأ: لدمج التنبؤات من CLIP و DINO بشكل تكيفي ، يستخدمون نموذج التخزين المؤقت. يقومون بإنشاء نموذج ذاكرة التخزين المؤقت بنوعين من المفاتيح بواسطة النموذجين المدربين مسبقًا باستخدام محول تلميح. إنها تجمع بشكل تكيفي تنبؤات اثنين من المفاتيح المخبأة كإخراج ، باستخدام CLIP بدون طلقة كخط أساسي للتوزيع. يمكن لـ CaFo تحسين التعرف البصري على عدد قليل من اللقطات من خلال تعلم الجمع بين المعرفة السابقة واستخدام خصائصها التكميلية من خلال ضبط نموذج ذاكرة التخزين المؤقت خفيف الوزن عبر زيادة بيانات التدريب.

يلخص ما يلي مساهماتهم الرئيسية:

• من أجل التعلم المحسن قليلًا ، يقترحون استخدام CaFo لدمج المعلومات السابقة من نماذج متنوعة قبل التدريب.

• يجرون تجارب شاملة على 11 مجموعة بيانات لتصنيف عدد قليل من اللقطات ، حيث يحقق CaFo أحدث ما توصلت إليه التكنولوجيا دون استخدام بيانات مشروحة إضافية.

• يتعاونون مع CLIP و DINO و GPT-3 و DALL-E لاستخدام المزيد من المطالبات الدلالية وإثراء بيانات التدريب محدودة اللقطات وتجميع تنبؤات متنوعة بشكل تكيفي عبر نموذج ذاكرة التخزين المؤقت.

تفحص ال ورق و شفرة. يذهب كل الفضل في هذا البحث إلى الباحثين في هذا المشروع. أيضا ، لا تنسى الانضمام 15k + ML SubRedditو قناة الخلاف، و النشرة البريد الإلكتروني، حيث نشارك آخر أخبار أبحاث الذكاء الاصطناعي ومشاريع الذكاء الاصطناعي الرائعة والمزيد.

تحقق من https://aitoolsclub.com للعثور على مئات من أدوات الذكاء الاصطناعي الرائعة