الأخبار التكنولوجية والاستعراضات والنصائح!

تعرف على BLOOMChat: نموذج لغة كبير للمحادثة متعددة اللغات ومتعدد اللغات مفتوح المصدر (LLM) مبني على قمة نموذج BLOOM

ستساعدك المقالة التالية: تعرف على BLOOMChat: نموذج لغة كبير للمحادثة متعددة اللغات ومتعدد اللغات مفتوح المصدر (LLM) مبني على قمة نموذج BLOOM

مع بعض التقدم الكبير الذي تم إحرازه في مجال الذكاء الاصطناعي ، تتقدم أنظمة اللغة الطبيعية بسرعة. أصبحت نماذج اللغات الكبيرة (LLMs) أفضل بشكل ملحوظ وأكثر شيوعًا مع كل ترقية وابتكار. تتم إضافة ميزة أو تعديل جديد يوميًا تقريبًا ، مما يتيح لـ LLM العمل في تطبيقات مختلفة في كل مجال تقريبًا. LLM في كل مكان ، من الترجمة الآلية وتلخيص النص إلى تحليل المشاعر والإجابة على الأسئلة.

حقق مجتمع المصادر المفتوحة بعض التقدم الملحوظ في تطوير LLM القائم على الدردشة ، ولكن في الغالب باللغة الإنجليزية. تم التركيز بشكل أقل على تطوير نوع مماثل من إمكانية الدردشة متعددة اللغات في LLM. لمعالجة ذلك ، قدمت SambaNova ، وهي شركة برمجيات تركز على حلول الذكاء الاصطناعي التوليدية ، محادثة LLM مفتوحة المصدر ومتعددة اللغات تسمى BLOOMChat. تم تطويره بالتعاون مع Together ، وهي سحابة مفتوحة وقابلة للتطوير ولامركزية للذكاء الاصطناعي ، BLOOMChat عبارة عن دردشة LLM متعددة اللغات تبلغ 176 مليار معلمة مبنية على نموذج BLOOM.

نموذج BLOOM لديه القدرة على إنشاء نص بـ 46 لغة طبيعية و 13 لغة برمجة. بالنسبة للغات مثل الإسبانية والفرنسية والعربية ، يمثل BLOOM نموذج اللغة الأول الذي تم إنشاؤه على الإطلاق بأكثر من 100 مليار معلمة. تم تطوير BLOOM بواسطة منظمة BigScience ، وهي عبارة عن تعاون دولي يضم أكثر من 1000 باحث. من خلال ضبط BLOOM على المحادثة المفتوحة ومجموعات بيانات المحاذاة من مشاريع مثل OpenChatKit و Dolly 2.0 و OASST1 ، تم توسيع القدرات الأساسية لـ BLOOM إلى مجال الدردشة.

لتطوير الدردشة متعددة اللغات ، استخدم LLM و BLOOMChat و SambaNova و Together أنظمة SambaNova DataScale التي تستخدم هندسة تدفق البيانات الفريدة القابلة لإعادة التكوين من SambaNova لعملية التدريب. تم دمج بيانات المحادثة التركيبية والعينات المكتوبة من قبل الإنسان لإنشاء BLOOMChat. تم استخدام مجموعة بيانات تركيبية كبيرة تسمى OpenChatKit كأساس لوظيفة الدردشة ، وقد تم استخدام مجموعات البيانات عالية الجودة التي أنشأها الإنسان مثل Dolly 2.0 و OASST1 لتحسين الأداء بشكل كبير. تم توفير الكود والنصوص المستخدمة في ضبط التعليمات على مجموعات بيانات OpenChatKit و Dolly-v2 على SambaNova’s GitHub.

في التقييمات البشرية التي أجريت عبر ست لغات ، تم تفضيل استجابات BLOOMChat على استجابات GPT-4 بنسبة 45.25٪ من الوقت. مقارنة بأربعة نماذج أخرى محاذاة للدردشة مفتوحة المصدر بنفس اللغات الست ، صنفت استجابات BLOOMChat كأفضل 65.92٪ من الوقت. نجح هذا الإنجاز في سد فجوة القدرة على الدردشة متعددة اللغات في سوق المصادر المفتوحة. في اختبار ترجمة WMT ، كان أداء BLOOMChat أفضل من التكرارات الإضافية لنموذج BLOOM بالإضافة إلى نماذج المحادثة مفتوحة المصدر الشائعة.

BLOOMChat ، مثله مثل LLMs الأخرى ، له حدود. قد ينتج عنه معلومات غير صحيحة أو غير ذات صلة من الناحية الواقعية أو قد يغير اللغات عن طريق الخطأ. يمكنه حتى تكرار العبارات ، ولديه قدرات محدودة في الترميز أو الرياضيات ، وفي بعض الأحيان ينتج عنه محتوى سام. تعمل المزيد من الأبحاث على معالجة هذه التحديات وضمان استخدام أفضل.

في الختام ، يعتمد BLOOMChat على العمل المكثف لمجتمع المصدر المفتوح وهو إضافة رائعة إلى قائمة بعض LLMs المفيدة للغاية والمتعددة اللغات. من خلال إصدارها بموجب ترخيص مفتوح المصدر ، تهدف SambaNova و Together إلى توسيع الوصول إلى إمكانات الدردشة متعددة اللغات المتقدمة وتشجيع المزيد من الابتكار في مجتمع أبحاث الذكاء الاصطناعي.