ستساعدك المقالة التالية: قابل الانتشار الفوري: إطار عمل للذكاء الاصطناعي لتمكين التعلم في السياق في النماذج التوليدية القائمة على الانتشار
تم تطوير أحدث نماذج اللغات الكبيرة (LLMs) ، بما في ذلك BERT و GPT-2 و BART و T5 و GPT-3 و GPT-4 ، كنتيجة للتطورات الأخيرة في التعلم الآلي ، ولا سيما في مجال معالجة اللغة الطبيعية (NLP). تم استخدام هذه النماذج بفعالية في مهام مختلفة ، بما في ذلك إنتاج النصوص والترجمة الآلية وتحليل المشاعر والإجابة على الأسئلة. تعد قدرتهم على التعلم من السياق ، والتي تُعرف غالبًا باسم التعلم في السياق ، أحد السلوكيات الناشئة لهذه LLM. بدون تحسين أي معلمات نموذج ، يمكن لـ LLM مع إمكانات التعلم في السياق ، مثل GPT-3 ، إكمال مهمة عن طريق التكييف على عينات المدخلات والمخرجات ومدخلات الاستعلام الجديدة.
يمكن الجمع بين التدريب المسبق للعديد من المهام اللغوية مع التعلم في السياق وهيكل سريع مصمم جيدًا ، مما يسمح لـ LLM بالتعميم بنجاح على الأنشطة التي لم يواجهوها من قبل. على الرغم من أن التعلم في السياق قد تم التحقيق فيه على نطاق واسع في البرمجة اللغوية العصبية ، إلا أن هناك القليل من التطبيقات في رؤية الكمبيوتر. هناك نوعان من الصعوبات المهمة لإظهار التطبيق العملي والوعد بالتعلم في السياق باعتباره أسلوبًا قياسيًا لتطبيقات الرؤية العظيمة: أزواج الإخراج كأمثلة والبحث عن الصور كمعايير. 2) في رؤية الكمبيوتر ، غالبًا ما يتم تدريب النماذج الكبيرة على مهام متخصصة ، بما في ذلك إنشاء نص إلى صورة ، والإنشاء المشروط للفئة ، والتجزئة ، والكشف ، والتصنيف.
يجب أن تكون نماذج الرؤية الضخمة هذه أكثر مرونة للتكيف مع المهام الجديدة وليست مصممة للتعلم في السياق. عدة محاولات حديثة لمعالجة هذه المشكلات باستخدام إجابات البرمجة اللغوية العصبية. على وجه التحديد ، عندما يتم عمل تلميح مرئي أساسي عن طريق دمج صور فوتوغرافية نموذجية ، والاستعلام عن الصور ، وإخراج الصور في نموذج واحد ضخم ، يتم تدريب نموذج الرسم المعتمد على المحولات على توقع صور الإخراج المقنعة. ومع ذلك ، فإن خياطة الصور الضخمة ستزيد بشكل كبير من النفقات الحسابية ، لا سيما في السيناريوهات عالية الدقة. يتناول هذا العمل إمكانات التعلم في السياق للنماذج التوليدية القائمة على النشر الموجهة بالنص من خلال معالجة هاتين المسألتين.
لتنفيذ التعلم في السياق في ظل موجه لغة الرؤية الذي يمكنه التعامل مع مجموعة واسعة من أنشطة لغة الرؤية ، يقدم باحثون من Microsoft و UT Austin بنية نموذجية جديدة تسمى Prompt Diffusion. يتم وضع الانتشار الفوري من خلال ست مهام منفصلة للرؤية واللغة جنبًا إلى جنب. على وجه التحديد ، يستخدمون موجه لغة الرؤية لديهم لوصف مهمة لغة الرؤية العامة. بعد ذلك ، باستخدام تصميمات Stable Diffusion و ControlNet كمصدر إلهام ، يقومون ببناء الانتشار الفوري ، والذي قد يستخدم موجه لغة الرؤية كمدخلات. يقترحون الانتشار الفوري كخطوة أولى نحو تمكين قدرة نماذج الانتشار الموجهة بالنص على التعلم في السياق. قد يستخدم بعد ذلك هذه المعرفة لإنشاء صورة الإخراج عن طريق إعادة تعيين الاتصال على صورة الاستعلام وتضمين تعليمات اللغة. والأهم من ذلك ، أن التعلم عبر العديد من المهام يمنح النموذج القدرة على التعلم في السياق. قد يُعمم الانتشار الفوري بنجاح على العديد من الوظائف الجديدة التي لم تتم ملاحظتها بعد. هذا بالإضافة إلى الأداء الجيد في المهام الست التي شهدها أثناء التدريب.
من الناحية التجريبية ، يؤدي الانتشار الفوري أداءً جيدًا في المهام المألوفة والجديدة وغير المرئية فيما يتعلق بالتعلم في السياق. من المتوقع أن تلهم فعالية الانتشار الفوري وتحفز المزيد من الدراسة في التعلم المرئي في السياق القائم على الانتشار. فيما يلي ملخص لإسهاماتهم الرئيسية:
• تصميم متطور لموجهات الرؤية واللغة التي تمكن بشكل فعال من دمج أنشطة لغة الرؤية المتعددة.
• توليد عالي الجودة في السياق في المهام المكتسبة والجديدة وغير المرئية باستخدام نموذج الانتشار الفوري ، وهو أول نموذج أساسي قائم على الرؤية واللغة قابل للتكيف وقادر على التعلم في السياق.
• يمكن العثور على تنفيذ كود Pytorch على GitHub.