الأخبار التكنولوجية والاستعراضات والنصائح!

يقترح باحثو ستانفورد وميلا الضبع: بديل خالي من الانتباه إلى اللبنة الأساسية للعديد من النماذج اللغوية واسعة النطاق

ستساعدك المقالة التالية: يقترح باحثو ستانفورد وميلا الضبع: بديل خالي من الانتباه إلى اللبنة الأساسية للعديد من النماذج اللغوية واسعة النطاق

كما نعلم جميعًا أن السباق نحو التطوير والتوصل إلى نماذج Generative مذهلة مثل ChatGPT و Bard ، والتقنيات الأساسية الخاصة بها مثل GPT3 و GPT4 ، قد اتخذت عالم الذكاء الاصطناعي بقوة هائلة ، فلا يزال هناك العديد من التحديات عندما يتعلق الأمر إمكانية الوصول والتدريب والجدوى الفعلية لهذه النماذج في الكثير من حالات الاستخدام التي تتعلق بمشاكلنا اليومية.

إذا كان أي شخص قد لعب مع أي من نماذج التسلسل هذه ، فهناك مشكلة واحدة مؤكدة ربما تكون قد دمرت حماسته. أي طول المدخلات التي يمكنهم إرسالها لدفع النموذج.

إذا كانوا من المتحمسين الذين يرغبون في المشاركة في جوهر هذه التقنيات وتدريب نموذجهم المخصص ، فإن عملية التحسين بأكملها تجعلها مهمة مستحيلة تمامًا.

في قلب هذه المشاكل تكمن الطبيعة التربيعية لتحسين نماذج الانتباه التي تستخدمها نماذج التسلسل. أحد أكبر الأسباب هو تكلفة حساب هذه الخوارزميات والموارد اللازمة لحل هذه المشكلة. يمكن أن يكون حلاً مكلفًا للغاية ، خاصةً إذا أراد شخص ما توسيع نطاقه ، مما يؤدي إلى وجود عدد قليل فقط من المؤسسات المركزة التي لديها إحساس قوي بالفهم والتحكم الحقيقي في مثل هذه الخوارزميات.

ببساطة ، الانتباه يعرض التكلفة التربيعية في طول التسلسل. الحد من مقدار السياق الذي يمكن الوصول إليه وتوسيع نطاقه يعد أمرًا مكلفًا.

ومع ذلك ، لا تقلق ؛ هناك بنية جديدة تسمى الضبع ، والتي تعمل الآن على إحداث موجات في مجتمع البرمجة اللغوية العصبية ، ويضعها الناس على أنها المنقذ الذي نحتاجه جميعًا. إنه يتحدى هيمنة آليات الانتباه الحالية ، وتوضح الورقة البحثية قدرتها على إسقاط النظام الحالي.

تم تطوير Hyena بواسطة فريق من الباحثين في إحدى الجامعات الرائدة ، ويتميز بأداء مثير للإعجاب في مجموعة من مهام البرمجة اللغوية العصبية تحت التربيعية من حيث التحسين. في هذه المقالة ، سوف ننظر عن كثب في ادعاءات الضبع.

تقترح هذه الورقة أن المشغلين التربيعيين يمكنهم مطابقة جودة نماذج الانتباه على نطاق واسع دون أن تكون باهظة التكلفة من حيث المعلمات وتكلفة التحسين. استنادًا إلى مهام الاستدلال المستهدفة ، يستخلص المؤلفون أهم ثلاث خصائص تساهم في أدائه.

  1. التحكم في البيانات
  2. تحجيم المعلمة دون الخطية
  3. سياق غير مقيد.

بهدف وضع هذه النقاط في الاعتبار ، يقومون بعد ذلك بتقديم التسلسل الهرمي للضبع. يجمع هذا المشغل الجديد بين الالتفافات الطويلة والبوابات المضاعفة من حيث العناصر لمطابقة جودة الانتباه على نطاق واسع مع تقليل التكلفة الحسابية.

التجارب التي أجريت تكشف عن نتائج مذهلة.

  1. نمذجة اللغة.

تم اختبار مقياس الضبع على نمذجة لغة الانحدار الذاتي ، والتي ، عند تقييمها على أساس الارتباك في مجموعة البيانات المعيارية WikiText103 و The Pile ، كشفت أن الضبع هو أول بنية التفاف خالية من الانتباه تلائم جودة GPT مع انخفاض بنسبة 20٪ في إجمالي FLOPS.

الارتباك في WikiText103 (نفس الرمز المميز). ∗ نتائج من (Dao et al.، 2022c). نماذج أعمق وأرق (Hyena-slim) تحقق قدرًا أقل من الارتباك

الارتباك في The Pile للنماذج التي تم تدريبها حتى إجمالي عدد الرموز ، على سبيل المثال ، 5 مليارات (عمليات تشغيل مختلفة لكل إجمالي رمزي). تستخدم جميع الطرز نفس الرمز المميز (GPT2). عدد FLOP مخصص لتشغيل الرمز المميز البالغ 15 مليارًا

  1. تصنيف الصورة على نطاق واسع

توضح الورقة إمكانات الضبع كمشغل عام للتعلم العميق لتصنيف الصور. عند ترجمة الصور ، يقومون باستبدال طبقات الانتباه في Vision Transformer (ViT) بعامل Hyena ومطابقة الأداء مع ViT.

في CIFAR-2D ، قمنا باختبار نسخة ثنائية الأبعاد من مرشحات Hyena طويلة الالتواء في بنية تلافيفية قياسية ، والتي تعمل على تحسين النموذج التلافيفي طويل الأبعاد S4ND (Nguyen et al. ، 2022) بدقة مع تسريع 8٪ ومعلمات أقل بنسبة 25٪ .

تشير النتائج الواعدة على مقياس المتغير دون المليار إلى أن الاهتمام قد لا يكون كل ما نحتاجه وأن التصميمات الفرعية التربيعية الأبسط مثل الضبع ، المستنيرة بمبادئ توجيهية بسيطة وتقييم لمعايير التفسير الآلي ، تشكل الأساس لنماذج كبيرة فعالة.

مع الموجات التي تخلقها هذه البنية في المجتمع ، سيكون من المثير للاهتمام معرفة ما إذا كان الضبع سيضحك أخيرًا.