الأخبار التكنولوجية والاستعراضات والنصائح!

كيف تحافظ على تحجيم نماذج اللغات الكبيرة عند نفاد البيانات؟ بحث جديد للذكاء الاصطناعي يدرب 400 نموذج مع ما يصل إلى 9B معلمات و …

ستساعدك المقالة التالية: كيف تحافظ على تحجيم نماذج اللغات الكبيرة عند نفاد البيانات؟ بحث جديد للذكاء الاصطناعي يدرب 400 نموذج مع ما يصل إلى 9B معلمات و …

نماذج اللغات الكبيرة (LLMs) ، النماذج عالية الكفاءة القائمة على التعلم العميق ، هي الاتجاه الحالي في مجتمع الذكاء الاصطناعي. يعتمد برنامج chatbot المعروف الذي طورته OpenAI ، ChatGPT ، على بنية GPT ولديه ملايين المستخدمين الذين يستخدمون قدراته لإنشاء المحتوى. يؤدي أدائه المذهل في تقليد البشر من خلال إنشاء المحتوى وتلخيص الفقرات الطويلة وترجمة اللغات وما إلى ذلك إلى تضمينه في كل مجال تقريبًا.

كانت الطريقة الأكثر شيوعًا لتوسيع نطاق نموذج لغة كبير هي زيادة عدد المعلمات وحجم مجموعة بيانات التدريب. ولكن بالنظر إلى حجم البيانات النصية على الإنترنت ، قد تؤدي هذه الطريقة في النهاية إلى تقييد هذا التقدم. لمعالجة هذا الأمر ، درس الباحثون مناهج معينة لمقياس نماذج اللغة في البيئات المقيدة بالبيانات ، وبالتالي وجدوا إجابة لكيفية الحفاظ على توسيع نطاق LLM عند نفاد البيانات.

أجرى الباحثون تجارب مختلفة بكميات مختلفة من تكرار البيانات وحساب الميزانية أثناء تدريب النماذج في التجارب باستخدام ما يصل إلى 900 مليار رمز تدريب و 9 مليارات معلمة. أظهرت النتائج أن التدريب مع ما يصل إلى 4 فترات من البيانات المتكررة كان له تأثير أقل على الخسارة مقارنة بالتدريب باستخدام البيانات الفريدة عندما كانت البيانات مقيدة ، وتم إصلاح الميزانية الحسابية. ومع ذلك ، انخفضت قيمة إضافة المزيد من موارد الحوسبة إلى الصفر مع زيادة كمية البيانات المتكررة.

ابتكر الباحثون واختبروا بشكل تجريبي قانون تحجيم من أجل الحوسبة المثلى وحل مشكلة ندرة البيانات ، والتي تأخذ في الاعتبار كيف تفقد الرموز المميزة والمعلمات الإضافية قيمتها بمرور الوقت. يقدم إرشادات حول كيفية تخصيص موارد الحوسبة عند العمل مع القليل من البيانات على النحو الأمثل. أسفرت الدراسة عن طريقتين لتقليل ندرة البيانات: إضافة بيانات الكود إلى مجموعة بيانات التدريب وإزالة عوامل التصفية الشائعة. قام الباحثون بدمج بيانات الترميز مع بيانات اللغة الطبيعية لتعظيم عدد الرموز المميزة المتاحة للتدريب. اكتشفوا أن تضمين بيانات الشفرة يزيد بشكل كبير من عدد الرموز المميزة الفعالة ، حتى عند تقييم مشاكل اللغة الطبيعية فقط.

لاحظ الباحثون أنه يمكن الحصول على أداء محسن من خلال تدريب نماذج أصغر على المزيد من البيانات بدلاً من تدريب نماذج أكبر بكمية محددة من موارد الحوسبة. وقد تجلى ذلك من خلال مقارنة أداء نموذجين: نموذج شينشيلا ، الذي يحتوي على 70 مليار معلمة ، ونموذج غوفر ، الذي يحتوي على 280 مليار معلمة. تفوق نموذج Chinchilla على نموذج Gopher أثناء استخدام نفس ميزانية الحوسبة حيث تم تدريبه على أربعة أضعاف البيانات. وفقًا لـ “ قوانين تحجيم شينشيلا ” ، التي تم تطويرها نتيجة لهذه الملاحظة ، حتى النماذج الأكبر ، مثل نموذج MT-NLG الذي يبلغ حجمه 530 مليار متغير ، تتطلب 11 تريليون رمز من بيانات التدريب.

اختبر الفريق أيضًا العديد من تقنيات تصفية البيانات. لقد نظروا في عواقب إزالة المرشحات الشائعة واكتشفوا أن تصفية البيانات كانت مفيدة بشكل خاص لمجموعات البيانات الصاخبة ، مما يزيد من الدقة في المراحل الأولى. في الختام ، هذه دراسة رائعة حول توسيع نطاق نماذج اللغات الكبيرة عند نفاد البيانات.