الأخبار التكنولوجية والاستعراضات والنصائح!

يقدم باحثو CMU Unlimiformer: طريقة ذكاء اصطناعي لزيادة وحدات فك التشفير المبرمجة مسبقًا مع مخزن بيانات خارجي للسماح بإدخال غير محدود الطول

ستساعدك المقالة التالية: يقدم باحثو CMU Unlimiformer: طريقة ذكاء اصطناعي لزيادة وحدات فك التشفير المبرمجة مسبقًا مع مخزن بيانات خارجي للسماح بإدخال غير محدود الطول

سيطرت النماذج المستندة إلى المحولات على مجال معالجة اللغة الطبيعية (NLP) منذ تقديمها في عام 2017. يتم إنشاء الرموز المميزة للكلمات والأشكال وعلامات الترقيم وما إلى ذلك من إدخال النص بواسطة المحول. ومع ذلك ، نظرًا لأنه يتعين على المحولات الانتباه إلى كل رمز مميز في الإدخال ، وسياقها windows يجب أن تكون أكبر للتعامل مع الوظائف طويلة الشكل مثل ملخصات الكتب وما إلى ذلك ، حيث قد يتجاوز عدد الرموز المميزة في الإدخال بسهولة مائة ألف. للتعامل مع المدخلات ذات الطول التعسفي ، تقدم مجموعة من الباحثين من جامعة كارنيجي ميلون استراتيجية واسعة لتحسين أداء النموذج من خلال استكمال محولات وحدة فك التشفير المشفرة مسبقًا بمخزن بيانات خارجي.

Unlimiformer هي إستراتيجية جديدة قائمة على الاسترجاع تعمل على توسيع تفاوت طول الإدخال لنماذج اللغة التي تم تدريبها مسبقًا أثناء الاختبار. يمكن زيادة أي محول موجود مسبقًا في وحدة فك التشفير باستخدام Unlimiformer لقبول مدخلات غير محدودة. يُنشئ Unlimiformer مخزن بيانات فوق الحالات المخفية لجميع الرموز المميزة للإدخال في ظل تسلسل إدخال طويل. بعد ذلك ، يستخدم مفكك الشفرة انتباهه المتبادل الافتراضي للوصول إلى قاعدة البيانات والتركيز على الرموز المميزة للإدخال k الأعلى. يدعم مخزن البيانات عمليات البحث الفرعية ويمكن الاحتفاظ بها في ذاكرة وحدة معالجة الرسومات أو وحدة المعالجة المركزية. يمكن تحسين نقطة التفتيش الخاصة بالنموذج المدرَّب بواسطة Unlimiformer دون مزيد من التدريب. يمكن زيادة فعالية Unlimiformer عن طريق الضبط.

الحد الأقصى لطول المدخلات في المحول مقيد بحجم نافذة سياق المشفر. ومع ذلك ، قد تكون المعلومات المختلفة ذات مغزى أثناء مراحل فك التشفير ، وقد تركز مراكز الاهتمام المختلفة على جوانب متعددة من البيانات. نتيجة لذلك ، قد تكون نافذة السياق الثابتة غير فعالة لأنها تركز على الرموز المميزة التي يحتاجها رأس الانتباه لتحديد أولوياتها. في كل مرحلة من مراحل فك التشفير ، يمنح Unlimiformer كل رأس خيار تحديد نافذة السياق الفريدة الخاصة به من الإدخال بأكمله. لإضفاء الطابع الرسمي على هذا ، نقوم بحقن بحث Unlimiformer في وحدة فك التشفير قبل تطبيق الانتباه المتبادل. يؤدي هذا إلى قيام النموذج بإجراء بحث k-القريب المجاور (kNN) في مخزن بيانات خارجي ، وتحديد مجموعة من الرموز المميزة للتركيز عليها لكل طبقة من طبقات وحدة فك التشفير ورأس الانتباه.

لزيادة فعالية Unlimiformer ، يركز الباحثون الآن على مناهج التدريب. كخطوة أولية ، يفكرون في طرق تدريب بديلة لا تتطلب سوى طاقة معالجة أقل من نظام الضبط التقليدي. كما يبحثون أيضًا في الخيار الحسابي المكلف للتدريب المباشر على Unlimiformer.

يتوفر رمز الدراسة ونماذجها للتنزيل من جيثب.

من الناحية التجريبية ، اختبر الفريق Unlimiformer على مستندات طويلة ومهام تلخيص متعددة المستندات ، موضحًا أنه يمكن تلخيص المستندات بما يصل إلى 350 ألف رمز دون اقتطاع المدخلات. تم أيضًا ضبط النماذج سابقة التدريب الحالية باستخدام Unlimiformer ، مما يتيح لها التعامل مع مدخلات غير محدودة دون الحاجة إلى أي أوزان مكتسبة حديثًا أو تعديلات على الكود المصدري. إضافة بنية إلى مخزن البيانات أو استعادة عمليات التضمين في أجزاء ، قد يؤدي Unlimiformer إلى زيادة مكاسب الأداء في نماذج اللغة الكبيرة المعززة بالاسترداد ، والتي أظهرت نتائج مشجعة في مهام إنشاء التسلسل إلى التسلسل. يعد دمج البنية في مخزن البيانات أو استرداد حفلات الزفاف على شكل قطع طريقتين يعتقد الباحثون أن العمل المستقبلي يمكن أن يعزز السرعة. لزيادة تحسين أداء LLMs المعزز بالاسترداد في المهام النهائية الصعبة ، طور مجتمع استرجاع المعلومات مجموعة واسعة من الأساليب لتحسين الاسترجاع. هذا هو السبب في أن الباحثين وراء مكتبة HuggingFace Transformers قد أصدروا نصًا يسمح بحقن Unlimiformer في أي نموذج بنقرة واحدة.