ستساعدك المقالة التالية: قابل الحرباء: إطار التفكير التركيبي للتوصيل والتشغيل الذي يسخر قدرات نماذج اللغة الكبيرة
حققت نماذج اللغات الكبيرة الحديثة (LLMs) لمهام البرمجة اللغوية العصبية المتنوعة خطوات ملحوظة ، مع أمثلة بارزة مثل GPT-3 و PaLM و LLaMA و ChatGPT و GPT-4 المقترح مؤخرًا. تتمتع هذه النماذج بوعود هائلة للتخطيط واتخاذ قرارات مماثلة للبشر حيث يمكنها حل المهام المختلفة في المواقف التي لا يمكن إطلاقها أو بمساعدة حالات قليلة. تظهر المهارات الناشئة ، بما في ذلك التعلم في السياق ، والتفكير الرياضي ، والتفكير المنطقي ، بواسطة LLM. ومع ذلك ، فإن LLM لها قيود داخلية ، مثل عدم القدرة على استخدام الأدوات الخارجية ، أو الوصول إلى المعلومات الحالية ، أو السبب الرياضي بدقة.
يركز مجال البحث الجاري على تعزيز نماذج اللغة من خلال الوصول إلى الأدوات والموارد الخارجية والتحقيق في تكامل الأدوات الخارجية والاستراتيجيات المعيارية للتوصيل والتشغيل لحل هذه القيود الخاصة بـ LLM. تستخدم الأبحاث الحديثة LLMs لإنشاء برامج معقدة تكمل بشكل أكثر كفاءة مشاكل التفكير المنطقي وتستفيد من موارد الكمبيوتر القوية لتحسين قدرات التفكير الرياضي. على سبيل المثال ، بمساعدة مصادر المعرفة الخارجية ومحركات البحث عبر الإنترنت ، يمكن لـ LLM الحصول على معلومات في الوقت الفعلي واستخدام المعرفة الخاصة بالمجال. يدمج خط بحث حالي آخر ، بما في ذلك ViperGPT و Visual ChatGPT و VisProg و HuggingGPT ، العديد من نماذج رؤية الكمبيوتر الأساسية لمنح LLM المهارات اللازمة للتعامل مع مشاكل التفكير البصري.
على الرغم من التطورات الجوهرية ، لا تزال LLMs المزودة بأدوات اليوم تواجه عقبات كبيرة أثناء الاستجابة لاستفسارات العالم الحقيقي. تقتصر معظم التقنيات الحالية على مجموعة محدودة من الأدوات أو تعتمد على أجهزة معينة لمجال معين ، مما يجعل من الصعب تعميمها على استفسارات مختلفة. يوضح الشكل 1 هذا: “ما هو الطلب الرئيسي المقنع المستخدم في هذا الإعلان؟” 1) افترض أن صورة الإعلان لها سياق نصي واستدع وحدة فك ترميز النص لفهم الدلالات للرد على هذا الاستعلام ؛ 2) العثور على معلومات أساسية لشرح ما هو “الاستئناف المقنع” وكيف تختلف الأنواع المختلفة ؛ 3) التوصل إلى حل باستخدام التلميحات من سؤال الإدخال والنتائج المؤقتة من المراحل السابقة ؛ و 4) أخيرًا ، قدم الرد بطريقة محددة المهمة.
من ناحية أخرى ، أثناء الرد على السؤال “ما هو جلد الحيوان الذي تم تكييفه للبقاء في الأماكن الباردة” ، قد يحتاج المرء إلى الاتصال بوحدات إضافية ، مثل أداة التعليق على الصور لتحليل معلومات الصورة ومحرك بحث على الويب لجمع معرفة المجال من أجل فهم المصطلحات العلمية. يوفر باحثون من UCLA و Microsoft Research نظام Chameleon ، وهو إطار عمل منطقي تركيبي للتوصيل والتشغيل يستخدم نماذج لغوية ضخمة لحل هذه المشكلات. يستطيع كاميليون تجميع البرامج لإنشاء أدوات متنوعة للإجابة على أسئلة متعددة.
Chameleon هو مخطط لغة طبيعي يعتمد على LLM. على عكس الأساليب التقليدية ، فإنه يستخدم أدوات مختلفة ، مثل LLMs ، ونماذج رؤية الكمبيوتر سابقة الإنشاء ، ومحركات البحث عبر الإنترنت ، ووظائف Python ، والوحدات النمطية المستندة إلى القواعد المصممة لهدف معين. تقوم كاميليون بإنشاء هذه البرامج باستخدام قدرات التعلم في السياق الخاصة بـ LLMs ولا تحتاج إلى أي تدريب. يمكن للمخطط أن يستنتج الترتيب الصحيح للأدوات التي يجب تكوينها وتشغيلها لتوفير الاستجابة النهائية لاستعلام المستخدم ، بناءً على وصف كل أداة وأمثلة على استخدام الأداة.
ينشئ Chameleon برامج تشبه اللغة الطبيعية ، على عكس الجهود السابقة التي صنعت برامج خاصة بالمجال. هذه البرامج أقل عرضة للخطأ ، وأبسط في التصحيح ، وأكثر سهولة في الاستخدام للأفراد الذين لديهم القليل من المعرفة بالبرمجة ، وقابلة للتوسيع لتشمل وحدات جديدة. تقوم كل وحدة نمطية في البرنامج بتنفيذ ومعالجة وتخزين الاستعلام والسياق مؤقتًا ، وإرجاع استجابة تم اختيارها بواسطة الوحدة النمطية ، وتعديل الاستعلام والسياق المخزن لعمليات تنفيذ الوحدة النمطية القادمة. من خلال تكوين الوحدات النمطية كبرنامج تسلسلي ، يمكن استخدام الاستعلامات المحدثة والسياق المخزن مؤقتًا خلال تنفيذ الوحدات التالية. في مهمتين – ScienceQA و TabMWP – أظهروا مرونة وفعالية Chameleon.
يعد TabMWP معيارًا رياضيًا يتضمن العديد من السياقات المجدولة ، في حين أن ScienceQA عبارة عن معيار متعدد الوسائط للإجابة على الأسئلة يشمل العديد من تنسيقات السياق والمواضيع العلمية. يمكن اختبار فعالية قدرة Chameleon على تنسيق الأدوات المختلفة عبر أنواع ومجالات مختلفة باستخدام هذين المعيارين. والجدير بالذكر أن Chameleon مع GPT-4 تحصل على دقة تبلغ 86.54٪ في ScienceQA ، متفوقةً على أفضل نموذج تم الإبلاغ عنه قليل اللقطات بعامل قدره 11.37٪. يقدم Chameleon تحسينًا بنسبة 7.97٪ مقارنة بـ CoT GPT-4 وزيادة بنسبة 17.8٪ عن أحدث طراز على TabMWP باستخدام GPT-4 باعتباره LLM الأساسي ، مما أدى إلى دقة إجمالية تبلغ 98.78٪.
مقارنةً بـ LLMs السابقة مثل ChatGPT ، تشير المزيد من الأبحاث إلى أن استخدام GPT-4 كمخطط يوضح اختيار أداة أكثر اتساقًا ومنطقية ويمكن أن يستنتج قيودًا محتملة وفقًا للتعليمات. مساهماتهم الموجزة هي كما يلي: (1) قاموا بإنشاء Chameleon ، إطار التفكير التركيبي للتوصيل والتشغيل ، لحل القيود المتأصلة في نماذج اللغة الضخمة واتخاذ مهام التفكير المختلفة. (2) فهي تجمع بشكل فعال بين العديد من التقنيات ، بما في ذلك LLMs ونماذج الرؤية التجارية ومحركات البحث عبر الإنترنت ووظائف Python والوحدات النمطية المستندة إلى القواعد ، لإنشاء نظام ذكاء اصطناعي مرن وقابل للتكيف للرد على استفسارات العالم الحقيقي. (3) تعمل على تطوير حالة الفن بشكل كبير من خلال إظهار مرونة الإطار وفعاليته على اثنين من العلامات المرجعية ، ScienceQA و TabMWP. قاعدة الرموز متاحة للجمهور على GitHub.