الأخبار التكنولوجية والاستعراضات والنصائح!

التتبع من خلال الحاويات والسدادات في البرية- تعرف على TCOW: نموذج ذكاء اصطناعي يمكنه تقسيم الكائنات في مقاطع الفيديو مع فكرة الكائن …

ستساعدك المقالة التالية: التتبع من خلال الحاويات والسدادات في البرية- تعرف على TCOW: نموذج ذكاء اصطناعي يمكنه تقسيم الكائنات في مقاطع الفيديو مع فكرة الكائن …

طورت العديد من المشاريع مفتوحة المصدر نماذج لغوية شاملة يمكن تدريبها على تنفيذ مهام محددة. يمكن أن توفر هذه النماذج إجابات مفيدة على الأسئلة والأوامر من المستخدمين. تشمل الأمثلة البارزة Alpaca و Vicuna المستندة إلى LLaMA و OpenAssistant و Dolly المستندة إلى Pythia.

على الرغم من إطلاق طرز جديدة كل أسبوع ، لا يزال المجتمع يكافح من أجل قياسها بشكل صحيح. نظرًا لأن مخاوف مساعدي LLM غالبًا ما تكون غامضة ، فإن إنشاء نظام معياري يمكنه تلقائيًا تقييم جودة إجاباتهم أمر صعب. غالبًا ما يكون التقييم البشري عبر المقارنة الزوجية مطلوبًا هنا. يعتبر نظام القياس القابل للتطوير والتراكم والمميز القائم على المقارنة الزوجية مثاليًا.

قليل من أنظمة قياس الأداء الحالية في LLM تفي بكل هذه المتطلبات. توفر أطر معايير LLM الكلاسيكية مثل HELM و lm-Evaluation-harness مقاييس متعددة المقاييس لمهام معايير البحث. ومع ذلك ، فهم لا يقومون بتقييم الأسئلة ذات الشكل الحر جيدًا لأنها لا تستند إلى مقارنات زوجية.

LMSYS ORG هي منظمة تقوم بتطوير نماذج وأنظمة كبيرة مفتوحة وقابلة للتطوير ويمكن الوصول إليها. يقدم عملهم الجديد Chatbot Arena ، وهو عبارة عن منصة مرجعية LLM ذات مصادر جماعية مع معارك عشوائية ومجهولة الهوية. كما هو الحال مع الشطرنج والألعاب التنافسية الأخرى ، يتم استخدام نظام تصنيف Elo في Chatbot Arena. يُظهر نظام تصنيف Elo وعدًا بتقديم الجودة المرغوبة المذكورة أعلاه.

لقد بدأوا في جمع المعلومات منذ أسبوع عندما فتحوا الساحة مع العديد من LLMs مفتوحة المصدر معروفة. يمكن رؤية بعض الأمثلة على تطبيقات العالم الحقيقي لـ LLM في طريقة جمع بيانات التعهيد الجماعي. يمكن للمستخدم مقارنة ومقارنة نموذجين مجهولين أثناء الدردشة معهم في نفس الوقت في الساحة.

استضاف FastChat ، نظام الخدمة متعدد النماذج ، الساحة على https://arena.lmsys.org. سيواجه الشخص الذي يدخل الساحة محادثة مع نموذجين غير معروفين. عندما يتلقى المستهلكون تعليقات من كلا الطرازين ، يمكنهم متابعة المحادثة أو التصويت على النموذج الذي يفضلونه. بعد التصويت ، سيتم الكشف عن هويات العارضات. يمكن للمستخدمين متابعة التحدث مع نفس النموذجين المجهولين أو بدء معركة جديدة مع طرازين جديدين. يسجل النظام جميع أنشطة المستخدم. فقط عندما تحجب أسماء النماذج الأصوات في التحليل المستخدم. تم فرز حوالي 7000 صوت شرعي ومجهول منذ بدء تشغيل الساحة قبل أسبوع.

في المستقبل ، يريدون تنفيذ خوارزميات أخذ العينات المحسّنة وإجراءات البطولة وأنظمة الخدمة لاستيعاب مجموعة أكبر من النماذج وتوفير الرتب الدقيقة لمختلف المهام.