الأخبار التكنولوجية والاستعراضات والنصائح!

يقترح بحث جديد للذكاء الاصطناعي Pythia: مجموعة من نماذج لغة الانحدار التلقائي لوحدة فك التشفير فقط والتي تتراوح من 70 مترًا إلى 12B معلمات

ستساعدك المقالة التالية: يقترح بحث جديد للذكاء الاصطناعي Pythia: مجموعة من نماذج لغة الانحدار التلقائي لوحدة فك التشفير فقط والتي تتراوح من 70 مترًا إلى 12B معلمات

تعد النماذج القائمة على المحولات واحدة من أكثر فئات النماذج تقدمًا وتطورًا الموجودة في الوقت الحالي. من المعقول أن نستنتج أن هذه النماذج قادرة على إحداث نقلة نوعية في مجال التطور السريع للذكاء الاصطناعي نظرًا لمجموعة واسعة من حالات الاستخدام ، مثل مهام التوليد في معالجة اللغة الطبيعية (NLP) ، والمهام القائمة على النص إلى الصورة ، تنبؤ بنية البروتين ثلاثية الأبعاد ، إلخ. بالإضافة إلى ذلك ، أثبتت نماذج اللغات الكبيرة (LLMs) أنها التطبيق الأكثر نجاحًا وفعالية للنماذج القائمة على المحولات. كما زاد استخدامها بشكل كبير خلال السنوات القليلة الماضية حيث يواصل الباحثون الغوص بشكل أعمق في أبنية أكبر وأكثر تعقيدًا. ومع ذلك ، على الرغم من اعتماد هذه النماذج على نطاق واسع ، إلا أن هناك القليل من المعرفة حول كيف ولماذا تعمل هذه النماذج بشكل جيد. هذا هو المكان الذي يلعب فيه فهم كيفية تطور LLM على مدار التدريب. علاوة على ذلك ، أظهرت الأبحاث السابقة أن بعض الأنماط المنتظمة التقريبية تكون مرئية عند قياس نموذج اللغة ، ولكن ربط هذه الأنماط بطريقة تراعي كيف أن مقاييس النموذج المدرب لا تزال منطقة مجهولة. أحد الأسباب الرئيسية وراء ذلك هو عدم الوصول إلى LLMs المتاحة للجمهور والتي تلبي جميع متطلبات الباحثين.

من أجل اقتراح حل لبيان المشكلة هذا ، كشفت مجموعة أبحاث الذكاء الاصطناعي غير الهادفة للربح ، Eleuther AI ، النقاب مؤخرًا عن Pythia ، وهي مجموعة من 16 LLM مدربة على البيانات العامة بنفس الترتيب المصممة خصيصًا لتسهيل البحث العلمي. حاليًا ، Pythia هي مجموعة النماذج الوحيدة المتاحة للجمهور التي تتضمن نماذج تم تدريبها على نفس البيانات بنفس الترتيب ، وتمتد هذه النماذج على عدة أوامر من حيث الحجم. أصدر الفريق 154 نقطة تفتيش لكل من النماذج الـ 16 ، ويتراوح حجم LLM من 70M إلى 12B. علاوة على ذلك ، يتم إصدار جميع البيانات والأدوات المقابلة لتنزيل وتكرار عملية التدريب الدقيقة للجمهور لتسهيل إجراء مزيد من البحث. ساعدت هذه الخصائص الرئيسية الباحثين وراء Pythia على إجراء تجارب مختلفة لفهم كيفية تأثر التحيز بين الجنسين ، والحفظ ، والتعلم القليل اللقطات ببيانات التدريب ومقياس النموذج.

في الوقت الحالي ، لا توجد مجموعة من النماذج التي يمكن لعامة الناس الوصول إليها ، وتتبع عملية تدريب راسخة ، وتحافظ على التوحيد بين المقاييس. هذا هو المكان الذي قام فيه باحثو Pythia بعمل رائد. كما هو موضح سابقًا ، يمكن الوصول إلى جميع النماذج بشكل عام وتم تدريبها باستخدام مجموعة بيانات Pile ، وهي مجموعة من بيانات اللغة الإنجليزية المستخدمة بشكل شائع لتطوير LLMs (خاصة المحولات الانحدار الذاتي الكبيرة). لقد صمم الباحثون Pythia بحيث تكون جميع نقاط التفتيش الوسيطة متاحة للتحليل. هذا يجعل من الممكن للباحثين ربط التقدم المبني على البيانات بنقطة تفتيش معينة. بالإضافة إلى ذلك ، تم توثيق عملية التدريب والمعلمات الفائقة بدقة لدعم الأبحاث المستقبلية.

الهدف الأساسي من Eleuther AI وراء تطوير Pythia هو تمكين البحث العلمي المستقبلي على فهم القدرات والتغلب على قيود النماذج اللغوية الكبيرة. لهذا الغرض ، ركز الباحثون بشكل أساسي على ثلاث دراسات حالة ، وتخفيف التحيز بين الجنسين ، وحفظ نماذج اللغة الكبيرة ، ومصطلح تأثيرات التردد على أداء لقطات قليلة لإثبات منهجية Pythia التجريبية. من خلال تجاربهم ، خلص الباحثون إلى أنه يمكن استخدام هذا الإعداد الخاضع للسيطرة العالية للحصول على رؤى جديدة في LLM وديناميكيات تدريبهم. ذهب الباحثون ليقولوا إنه لم يكن من الممكن إجراء دراسات الحالة هذه لأبحاث النمذجة اللغوية باستخدام أي مجموعات نماذج موجودة مسبقًا.

في الختام ، Pythia من Eleuther AI عبارة عن مجموعة من LLMs المدربة بترتيب بيانات متسق وبنية نموذجية تمتد عبر أوامر متعددة من الحجم. يركز بحثهم بشكل أساسي على ثلاث دراسات حالة توضح كيف يمكن استخدام Pythia لتمكين إجراء تجارب بمستويات تفاصيل لم يسمع بها من قبل لمجموعة نماذج عامة. تركز دراسات الحالة هذه على الانحراف بين الجنسين ، والحفظ ، وتأثيرات تكرار المصطلح. يعلق الباحثون آمالًا كبيرة على أن نتائجهم وتحليلاتهم ستحفز إجراء تحقيق إضافي في كيفية تغير نماذج اللغة خلال التدريب وكيف يمكن أن ترتبط أحجام النماذج المختلفة بالأنماط المقدرة المتنوعة التي لوحظت أثناء التدريب.