الأخبار التكنولوجية والاستعراضات والنصائح!

تعرف على RedPajama: مشروع ذكاء اصطناعي لإنشاء نماذج لغوية كبيرة ومفتوحة المصدر بالكامل بدءًا من إصدار مجموعة بيانات 1.2 تريليون رمز

ستساعدك المقالة التالية: تعرف على RedPajama: مشروع ذكاء اصطناعي لإنشاء نماذج لغوية كبيرة ومفتوحة المصدر بالكامل بدءًا من إصدار مجموعة بيانات 1.2 تريليون رمز

تعد نماذج الأساس الأكثر تقدمًا للذكاء الاصطناعي مفتوحة المصدر جزئيًا ولا تتوفر إلا من خلال واجهات برمجة التطبيقات التجارية. هذا يقيد استخدامها ويحد من البحث والتخصيص. ومع ذلك ، فإن مشروعًا يسمى RedPajama يهدف الآن إلى إنشاء نماذج رائدة ومفتوحة المصدر بالكامل. اكتملت الخطوة الأولى من هذا المشروع ، وهي إعادة إنتاج مجموعة بيانات التدريب LLaMA. حققت النماذج مفتوحة المصدر تقدمًا كبيرًا مؤخرًا ، والذكاء الاصطناعي يمر بلحظة مشابهة لحركة Linux. أثبت الانتشار المستقر أن النماذج مفتوحة المصدر يمكن أن تنافس العروض التجارية وتشجع الإبداع من خلال مشاركة المجتمع. ظهرت حركة مماثلة الآن حول نماذج اللغات الكبيرة ، مع إصدار نماذج شبه مفتوحة مثل LLaMAو الألبكةو فيكونا، و كوالا، بالإضافة إلى نماذج مفتوحة بالكامل مثل Pythia و OpenChatKit و Open Assistant و Dolly.

RedPajama هو جهد تعاوني بين العديد من المؤسسات ، بما في ذلك Ontocord.ai و ETH DS3Lab و Stanford CRFM و Hazy Research و MILA Québec AI Institute و Together. يهدف المشروع إلى تطوير نموذج لغوي رائد قابل للتكرار ومفتوح بالكامل مع ثلاثة مكونات رئيسية: بيانات ما قبل التدريب ، والنماذج الأساسية ، وبيانات ونماذج ضبط التعليمات. في الآونة الأخيرة ، أصدر المشروع المكون الأول ، بيانات ما قبل التدريب ، مجموعة بيانات مفتوحة بالكامل بقيمة 1.2 تريليون رمز مبنية على ورقة LLaMA. نقطة الانطلاق لـ RedPajama هي LLaMA ، جناح نموذج القاعدة المفتوح الرائد. تم تدريب LLaMA على مجموعة بيانات كبيرة تمت تصفيتها بعناية من أجل الجودة. يتم تدريب نموذجها البالغ 7 مليارات معلمة لفترة أطول لضمان أفضل جودة في حجم النموذج هذا. ومع ذلك ، فإن LLaMA ومشتقاته متاحة فقط للأغراض البحثية غير التجارية. يهدف RedPajama إلى إعادة إنتاج LLaMA مفتوح المصدر بالكامل ، وإتاحته للتطبيقات التجارية وتوفير خط أنابيب أكثر شفافية للبحث.

مجموعة بيانات RedPajama متاحة للتنزيل على تعانق الوجه ويتكون من مجموعة بيانات رمزية 1.2 تريليون وعينة عشوائية أصغر. تتكون مجموعة البيانات من سبع شرائح بيانات: CommonCrawl و C4 و GitHub و arXiv و Books و Wikipedia و StackExchange. خضعت كل شريحة بيانات إلى معالجة مسبقة دقيقة للبيانات وترشيحها لضمان الجودة. تم ضبط مرشحات الجودة لتقريب عدد الرموز المميزة التي أبلغ عنها Meta AI في ورقة LLaMA. تمت معالجة شرائح بيانات CommonCrawl باستخدام خط أنابيب CCNet وتصفيتها باستخدام مصنف خطي لتحديد صفحات تشبه ويكيبيديا. قامت التراخيص والجودة بتصفية بيانات GitHub ، بينما تكونت بيانات arXiv من مقالات علمية مع إزالة الترميز المعياري. تمت إزالة تكرار بيانات الكتب من خلال تشابه المحتوى ، وأزالت مجموعة Wikipedia الفرعية النموذج المعياري ، وكانت المجموعة الفرعية StackExchange عبارة عن مجموعة مختارة من مواقع الويب الشهيرة التي تمت إزالتها. يتم فك ضغط مجموعة البيانات الكاملة حوالي 5 تيرابايت على القرص ويمكن تنزيلها مضغوطة بسعة 3 تيرابايت.

مشروع RedPajama يتعاون مع ميركات مشروع لإصدار لوحة تحكم Meerkat وحفلات الزفاف للتحليل التفاعلي لمجموعة GitHub من المجموعة. يمكن العثور على تعليمات التثبيت والاستخدام على جيثب. تتمثل الخطوة التالية في المشروع في تدريب نموذج أساسي قوي بعد إعادة إنتاج بيانات ما قبل التدريب. يتم دعم المشروع من قبل مرفق حوسبة القيادة في أوك ريدج من خلال برنامج INCITE ، مع مجموعة كاملة من النماذج التي من المقرر أن تصبح متاحة قريبًا. الفريق متحمس لتوجيه وضبط النماذج المستوحاة من نجاح الألبكة مع 50000 تعليمات عالية الجودة ومتنوعة فقط. تلقى الفريق مئات الآلاف من تعليمات المستخدم الطبيعية عبر OpenChatKit ، والتي سيتم استخدامها لإصدار إصدارات مضبوطة من نماذج RedPajama.