الأخبار التكنولوجية والاستعراضات والنصائح!

إحداث ثورة في كفاءة الذكاء الاصطناعي: نهج Meta AI الجديد ، القراءة ، يقلل استهلاك الذاكرة بنسبة 56٪ واستخدام وحدة معالجة الرسومات بنسبة 84٪

ستساعدك المقالة التالية: إحداث ثورة في كفاءة الذكاء الاصطناعي: نهج Meta AI الجديد ، القراءة ، يقلل استهلاك الذاكرة بنسبة 56٪ واستخدام وحدة معالجة الرسومات بنسبة 84٪

تم إكمال مهام معالجة اللغات الطبيعية المتعددة (NLP) باستخدام بنية محولات واسعة النطاق مع أحدث النتائج. عادةً ما يتم تدريب النماذج واسعة النطاق مسبقًا على بيانات عامة على نطاق الويب ثم يتم ضبطها لتلائم أهداف المصب المحددة. ارتبطت المكاسب المتعددة ، بما في ذلك أداء تنبؤ أفضل للنموذج وكفاءة العينة ، بزيادة حجم هذه النماذج. ومع ذلك ، فإن تكلفة صقل هذه النماذج أصبحت الآن بعيدة المنال بالنسبة لمعظم الناس. منذ عام 2018 ، أصبحت تكلفة تطوير تقنية الذكاء الاصطناعي غير مجدية بسبب النمو الهائل لحجم النموذج مقارنة بذاكرة وحدة معالجة الرسومات.

للتغلب على صعوبات الضبط الدقيق لجميع المعلمات ، ظهر تعلم النقل بكفاءة المعلمات (PETL) كخيار قابل للتطبيق. تحاول تقنيات تعلم النقل الفعالة للمعلمات ضبط معلمات النموذج المدربة مسبقًا بشكل فعال على المهمة المستهدفة من خلال استخدام نماذج أصغر وأكثر تحديدًا للمهمة. ومع ذلك ، فإن هذه الأساليب إما تزيد من تأخير الاستدلال أو توفر قدرًا ضئيلًا من الذاكرة أثناء التدريب.

تتناول دراسة Meta AI جديدة هذه المشكلات من خلال تقديم التكيف المتكرر (READ).

يضيف READ شبكة عصبية صغيرة متكررة (RNN) إلى نموذج العمود الفقري وشبكة “مرافقة” تجمع المعلومات من مصادر عديدة لتوفير مدخلات لـ RNN للتغلب على قيود PETL. يتطلب القليل من المعلمات ومقدارًا صغيرًا من الذاكرة.

قبل استخدام القراءة ، تقوم الطريقة بتمرير أمامي عبر العمود الفقري للمحول ، حيث يتم تخزين النتائج الوسيطة مؤقتًا في كل طبقة محول. ثم تُحسب حالات RNN المخفية بشكل تكراري في مرحلتي التشفير ومفكك التشفير. يتم حساب الحالة النهائية الجديدة عن طريق جمع مخرجات RNN والعمود الفقري.

نظرًا لأن القراءة متكررة ، فإن المعلمات القابلة للتدريب لن تنمو بشكل أكبر مع طبقات العمود الفقري الأعمق ، مما يؤدي إلى متطلبات معالجة أقل. ونتيجة لذلك ، يعتمد إجراء الضبط الدقيق المقترح فقط على شبكات RNN وشبكات التغذية الأمامية (FFNs) بدلاً من آلية الانتباه. من خلال حذف التدريب المسبق والتقليم ، يتم تحسين كل من قابلية الاستخدام وكفاءة التدريب.

يقارن الباحثون READ بأساليب PETL الأساسية ، بما في ذلك BitFit ، و Prompt-tuning ، و LoRA on the GLUE وغيرها من معايير معالجة اللغة الطبيعية المتعددة ، ونهج التوليف الكامل. يتفوق READ على طرق الضبط المختلفة على مقياس GLUE من حيث الدقة مع تقليل استهلاك ذاكرة التدريب النموذجي بنسبة 56٪ واستخدام طاقة وحدة معالجة الرسومات بنسبة 84٪ مقارنةً بالتوليف الكامل. تشير النتائج أيضًا إلى أن READ هو نهج محايد من حيث حجم العمود الفقري وقابل للتطوير بدرجة كبيرة لضبط المحولات الضخمة.

كما هو مذكور في ورقتهم ، لم يتمكن الفريق من توسيع العمود الفقري بسبب القيود المفروضة على قوة المعالجة الخاصة بهم. يخطط الباحثون لإجراء مزيد من الضبط الدقيق لـ READ على Llama-7B وربما تغييرات أكبر في المستقبل. وفقًا للباحثين ، تتمثل إحدى عيوب برنامج READ في أنه غالبًا ما يستغرق الأمر فترات أكثر من خوارزميات PETL المنافسة لتتقارب في مجموعات بيانات صغيرة. هذا يعني أنه عندما يكون هناك عدد قليل من نقاط البيانات للعمل معها ، حتى عندما يكون READ أكثر كفاءة في العمليات الحسابية لكل وحدة في الوقت ، فإنه قد يحقق القليل من مكاسب الاستهلاك الإجمالية. إنهم يخططون للتحقيق في READ بشأن نظام البيانات المنخفضة. يعتقد الفريق أن READ ستفتح عملية ضبط النماذج الضخمة لجمهور أوسع من العلماء والمطورين.

تفحص ال ورق. لا تنسى الانضمام 22k + ML SubRedditو قناة الخلافو و النشرة البريد الإلكتروني، حيث نشارك آخر أخبار أبحاث الذكاء الاصطناعي ومشاريع الذكاء الاصطناعي الرائعة والمزيد. إذا كانت لديك أي أسئلة بخصوص المقالة أعلاه أو إذا فاتنا أي شيء ، فلا تتردد في مراسلتنا عبر البريد الإلكتروني على

🚀 تحقق من 100’s AI Tools في AI Tools Club

تحقق من https://aitoolsclub.com للعثور على مئات من أدوات الذكاء الاصطناعي الرائعة