الأخبار التكنولوجية والاستعراضات والنصائح!

تعرف على Phoenix: LLM جديد متعدد اللغات يحقق أداء تنافسيًا بين النماذج المفتوحة المصدر الإنجليزية والصينية

ستساعدك المقالة التالية: تعرف على Phoenix: LLM جديد متعدد اللغات يحقق أداء تنافسيًا بين النماذج المفتوحة المصدر الإنجليزية والصينية

لقد اقتحمت نماذج اللغات الكبيرة (LLMs) العالم بقدراتها وميزاتها الشبيهة بالبشر. أحدث إضافة إلى القائمة الطويلة من LLMs ، نموذج GPT-4 ، زاد بشكل كبير من فائدة ChatGPT بسبب طبيعته متعددة الوسائط. يأخذ هذا الإصدار الأخير مدخلات في شكل نصوص وصور ويتم استخدامه بالفعل لإنشاء مواقع ويب وروبوتات محادثة عالية الجودة. في الآونة الأخيرة ، تم تقديم نموذج جديد لإضفاء الطابع الديمقراطي على ChatGPT ، أي لجعله أكثر سهولة ومتاحًا لجمهور أوسع ، بغض النظر عن اللغة أو القيود الجغرافية.

يهدف هذا النموذج الأخير ، المسمى Phoenix ، إلى تحقيق أداء تنافسي ليس فقط في اللغة الإنجليزية والصينية ولكن أيضًا في اللغات ذات الموارد المحدودة ، مثل اللغات اللاتينية وغير اللاتينية. تم إصدار Phoenix ، LLM متعدد اللغات الذي يحقق أداءً رائعًا بين النماذج المفتوحة المصدر الإنجليزية والصينية ، لإتاحة ChatGPT في الأماكن مع القيود التي تفرضها OpenAI أو الحكومات المحلية.

وصف المؤلف أهمية العنقاء على النحو التالي –

  1. تم تقديم Phoenix كأول نموذج ChatGPT مفتوح المصدر ومتعدد اللغات وديمقراطي. وقد تم تحقيق ذلك باستخدام بيانات غنية متعددة اللغات في مرحلتي التدريب الأولي والتعليمي النهائي.
  2. أجرى الفريق تكييفًا يتبع التعليمات بلغات متعددة ، مع التركيز على اللغات غير اللاتينية. تم استخدام كل من التعليمات وبيانات المحادثة لتدريب النموذج. يسمح هذا الأسلوب لـ Phoenix بالاستفادة من كليهما ، مما يمكّنه من إنشاء استجابات مترابطة وملائمة للسياق في إعدادات لغة مختلفة.
  3. Phoenix هو نموذج صيني كبير للغة من الدرجة الأولى حقق أداءً قريبًا من ChatGPT. نسختها اللاتينية Chimera تنافسية في اللغة الإنجليزية.
  4. ادعى المؤلفون أن Phoenix هو نموذج اللغة الكبيرة مفتوح المصدر SOTA للعديد من اللغات غير الصينية والإنجليزية.
  5. تعد Phoenix من بين الأوائل في تقييم LLM واسع النطاق بشكل منهجي ، وذلك باستخدام التقييمات التلقائية والبشرية وتقييم جوانب متعددة من الأجيال اللغوية.

أظهرت Phoenix أداءً فائقًا مقارنةً بـ LLMs مفتوحة المصدر حاليًا باللغة الصينية ، بما في ذلك نماذج مثل BELLE و Chinese-LLaMA-Alpaca. في اللغات الأخرى غير اللاتينية مثل العربية واليابانية والكورية ، يتفوق فينيكس إلى حد كبير على النماذج الحالية. لم تحقق Phoenix نتائج SOTA لـ Vicuna ، وهي عبارة عن روبوت محادثة مفتوح المصدر مع معلمات 13B تم تدريبها عن طريق ضبط LLaMA على المحادثات التي يشاركها المستخدم.

هذا لأن فينيكس كان عليه أن يدفع ضريبة متعددة اللغات عند التعامل مع اللغات غير اللاتينية أو غير السيريلية. تشير “الضريبة متعددة اللغات” إلى تدهور الأداء الذي قد يواجهه نموذج متعدد اللغات عند إنشاء نص بلغات غير لغته الأساسية. لقد اعتبر الفريق أن دفع الضريبة أمرًا يستحق التحول إلى الديمقراطية باعتباره وسيلة لتلبية احتياجات المجموعات الصغيرة التي تتحدث لغات منخفضة الموارد نسبيًا. اقترح الفريق حل Phoenix المعفى من الضرائب: Chimera لتخفيف الضريبة متعددة اللغات باللغات اللاتينية والسيريلية. يتضمن هذا استبدال العمود الفقري لـ Phoenix بـ LLaMA. في اللغة الإنجليزية ، أعجبت Chimera GPT-4 بجودة ChatGPT بنسبة 96.6٪.

تبدو فينيكس واعدة بسبب إمكاناتها متعددة اللغات وقدرتها على تمكين الأشخاص من خلفيات لغوية متنوعة للاستفادة من قوة النماذج اللغوية لتلبية احتياجاتهم الخاصة.