الأخبار التكنولوجية والاستعراضات والنصائح!

تقدم ورقة AI هذه تطبيق ذاكرة متكررة لتوسيع طول سياق النموذج إلى مليوني رمز غير مسبوق

ستساعدك المقالة التالية: تقدم ورقة AI هذه تطبيق ذاكرة متكررة لتوسيع طول سياق النموذج إلى مليوني رمز غير مسبوق

تم تبني مفهوم المحولات وتطبيقه على نطاق واسع في العديد من مجالات الدراسة والأعمال. يتمثل العيب الأكثر أهمية في النموذج في التعقيد التربيعي لعملية الانتباه ، مما يجعل من الصعب تطبيق النماذج الكبيرة على المدخلات الأطول. توضح هذه الدراسة كيف يمكن لوحدة معالجة رسومات Nvidia GTX 1080Ti واحدة معالجة تسلسلات أطول من مليون رمز باستخدام مخطط ذاكرة مباشر قائم على الرمز المميز مقترن بنماذج المحولات سابقة التدريب مثل BERT.

تتمثل الخطوة الأولى في تمكين الذاكرة المتكررة (RMT) من التعميم على المشكلات ذات السمات غير المعروفة ، مثل نمذجة اللغة ، في دراسة المهام التركيبية. منذ أن اكتسب هذا التصميم شعبية ، تم إجراء قدر كبير من الدراسة حول مسألة المدخلات المطولة في Transformers. تظهر هذه الدراسة أن كميات كبيرة من الذاكرة تكون ضرورية في بعض الأحيان فقط عند استخدام المحولات لتحليل النصوص الطويلة. قد تؤدي الاستراتيجية والذاكرة المتكررة إلى تحويل التعقيد التربيعي إلى تعقيد خطي. بالإضافة إلى ذلك ، قد تعمم النماذج المدربة على مدخلات كبيرة بما فيه الكفاية للقراء ذوي الطلبات الأطول من حيث الحجم. إنهم يخططون لتعديل تقنية الذاكرة المتكررة في مزيد من العمل لزيادة حجم السياق الفعال للمحولات الأكثر استخدامًا.

يقدم باحثون من DeepPavlov ومعهد أبحاث الذكاء الاصطناعي ومعهد لندن للعلوم الرياضية المساهمات التالية

1. لتحسين النظام الحالي ، تمت إضافة تخزين الذاكرة المستند إلى الرمز المميز والتكرار على مستوى المقطع مع الذاكرة المتكررة (RMT) إلى BERT.

2. لقد أظهروا أنه يمكن تعليم BERT المعزز بالذاكرة للتعامل مع المهام على تسلسلات تصل إلى سبع مرات أطول من طول الإدخال المقصود 512 رمز مميز.

3. وجدوا أن RMT المدربة قد تستنبط المهام ذات الفترات المختلفة ، بما في ذلك تلك التي تتطلب تحجيمًا خطيًا للحسابات وتجاوز المليون رمز ، بشكل فعال.

4. باستخدام تحليل نمط الانتباه ، اكتشفوا أن عمليات الذاكرة التي تستخدمها RMT للتعامل مع التسلسلات الطويلة للغاية بنجاح.

قدم المؤلفون استخدام الذاكرة المتكررة في BERT ، وهو أحد أكثر النماذج المعتمدة على المحولات نجاحًا في معالجة اللغة الطبيعية ، كاستنتاج. لقد قاموا بشكل فعال بتمديد طول السياق الفعال للنموذج إلى مليوني رمز مميز غير مسبوق مع الحفاظ على دقة استرجاع الذاكرة الجيدة باستخدام بنية محول الذاكرة المتكررة. نهجهم يسمح بتدفق المعلومات عبر أجزاء من تسلسل الإدخال باستخدام التكرار ويتيح تخزين ومعالجة المعلومات المحلية والعالمية. تُظهر اختباراتهم فعالية طريقتهم ، والتي لديها إمكانات كبيرة لتحسين التعامل مع التبعيات طويلة المدى في المهام التي تتضمن إنشاء اللغة الطبيعية وفهمها ، وكذلك لتمكين معالجة السياق على نطاق واسع للتطبيقات التي تتطلب ذاكرة مكثفة.