الأخبار التكنولوجية والاستعراضات والنصائح!

تعرف على OpenLLaMA: استنساخ مفتوح المصدر لنموذج اللغة الكبيرة LLaMA الخاص بـ Meta AI

ستساعدك المقالة التالية: تعرف على OpenLLaMA: استنساخ مفتوح المصدر لنموذج اللغة الكبيرة LLaMA الخاص بـ Meta AI

ظهر تطور جديد في نماذج اللغات الكبيرة مع إصدار OpenLLaMA ، وهو نسخة مفتوحة المصدر من Meta AI’s LLaMA نموذج. قام منشئو OpenLLaMA بإتاحة النموذج المرخص بشكل مسموح به للجمهور كنموذج 7B OpenLLaMA تم تدريبه باستخدام 200 مليار رمز مميز. يتضمن الإصدار أوزان PyTorch و Jax لنماذج OpenLLaMA المدربة مسبقًا ونتائج التقييم ومقارنة مع نماذج LLaMA الأصلية. هذا التطور له آثار كبيرة على التعلم الآلي ، خاصة بالنسبة للباحثين الذين يحتاجون إلى نماذج لغوية كبيرة ولكنهم يواجهون تحديات في الوصول إلى النماذج الاحتكارية.

شارك منشئو OpenLLaMA تفاصيل حول كيفية تدريبهم لنماذجهم على مجموعة بيانات RedPajama ، وهي نسخة من مجموعة بيانات التدريب LLaMA التي تحتوي على أكثر من 1.2 تريليون رمز مميز. لقد اتبعوا نفس المعلمات الفائقة للمعالجة المسبقة والتدريب مثل ورقة LLaMA الأصلية ، بما في ذلك بنية النموذج وطول السياق وخطوات التدريب وجدول معدل التعلم والمحسن. الاختلاف الوحيد بين نهجهم والطريقة الأصلية هو مجموعة البيانات المستخدمة: يستخدم OpenLLaMA مجموعة بيانات RedPajama بدلاً من تلك المستخدمة بواسطة LLaMA الأصلي.

تم تدريب النماذج على سحابة TPU-v4s باستخدام EasyLM، وهو خط أنابيب تدريب قائم على JAX تم تطويره للتدريب وصقل نماذج اللغة. لقد استخدموا مزيجًا من التوازي الطبيعي للبيانات وتوازي البيانات المجزأة بالكامل (المعروف أيضًا باسم ZeRO المرحلة 3) لتحقيق التوازن بين إنتاجية التدريب واستخدام الذاكرة. بشكل عام ، حقق تشغيلهم التدريبي إنتاجية تزيد عن 1900 رمز / ثانية / رقاقة TPU-v4.

تم تقييم أداء OpenLLaMA في عدة مهام باستخدام أداة تقييم lm. تمت مقارنة النتائج مع نموذج LLaMA الأصلي و GPT-J ، نموذج معلمة 6B تم تدريبه على مجموعة بيانات Pile بواسطة EleutherAI. تم إنشاء مقاييس التقييم لنموذج LLaMA الأصلي من خلال تشغيله على نفس المهام. اختلفت نتائج نموذج LLaMA اختلافًا طفيفًا عن تلك التي تم الإبلاغ عنها في ورقة LLaMA الأصلية ، والتي قد تكون بسبب الاختلافات في بروتوكولات التقييم. ومع ذلك ، أظهر OpenLLaMA أداءً مشابهًا أو أفضل من LLaMA الأصلي و GPT-J في معظم المهام ، وفقًا للنتائج المقدمة. على الرغم من تدريب OpenLLaMA على 200 مليار رمز بدلاً من 1 تريليون رمز مستخدم لـ LLaMA الأصلي و 500 مليار رمز مستخدم لـ GPT-J ، فمن المتوقع أن يتحسن أداءه بشكل أكبر عند إكمال تدريبه على 1 تريليون رمز.

لتشجيع التعليقات والتعاون من المجتمع ، أصدر الفريق الذي يقف وراء OpenLLaMA نقطة تفتيش معاينة لأوزانهم. تتوفر هذه الأوزان بتنسيقين: تنسيق EasyLM للاستخدام مع إطار عمل EasyLM الخاص بهم وتنسيق PyTorch للاستخدام مع مكتبة محولات Huggingface. على عكس نموذج LLaMA الأصلي ، يتم تدريب برنامج OpenLLaMA المميز والأوزان بالكامل من البداية ، لذا لم يعد الحصول على رمز LLaMA الأصلي والأوزان ضروريًا. ومع ذلك ، من الضروري ملاحظة أن OpenLLaMA يستخدم رمز BOS (بداية الجملة) (المعرف = 1) أثناء التدريب ، لذلك يجب تقديم هذا الرمز المميز مسبقًا للحصول على الأداء الأمثل خلال تقييم قليل اللقطات. يُسمح بأوزان نقاط فحص المعاينة وإطار عمل EasyLM بموجب ترخيص Apache 2.0. يركز الفريق حاليًا على إكمال عملية التدريب على مجموعة بيانات RedPajama بأكملها للسماح بإجراء مقارنة من apple إلى apple بين LLaMA الأصلي و OpenLLaMA. بالإضافة إلى ذلك ، فإنهم يعملون على تدريب نموذج 3B أصغر لحالات الاستخدام منخفضة الموارد. يخطط الفريق لإصدار المزيد من التحديثات قريبًا.