الأخبار التكنولوجية والاستعراضات والنصائح!

استنساخ ChatGPT جديد مفتوح المصدر – يُسمى Dolly

ستساعدك المقالة التالية: استنساخ ChatGPT جديد مفتوح المصدر – يُسمى Dolly

خطت دردشة GPT مفتوحة المصدر خطوة أخرى إلى الأمام مع إصدار Dolly Large Language Model (DLL) الذي أنشأته شركة برمجيات المؤسسة Databricks.

يُطلق على نسخة ChatGPT الجديدة اسم Dolly، والتي سُميت على اسم النعجة الشهيرة التي تحمل هذا الاسم، وهي أول حيوان ثديي يتم استنساخه.

نماذج اللغات الكبيرة مفتوحة المصدر

تعد Dolly LLM أحدث مظهر لحركة الذكاء الاصطناعي مفتوحة المصدر المتنامية التي تسعى إلى توفير وصول أكبر إلى التكنولوجيا بحيث لا تحتكرها وتسيطر عليها الشركات الكبيرة.

أحد المخاوف التي تقود حركة الذكاء الاصطناعي مفتوح المصدر هو أن الشركات قد تكون مترددة في تسليم البيانات الحساسة إلى طرف ثالث يتحكم في تكنولوجيا الذكاء الاصطناعي.

على أساس مفتوح المصدر

تم إنشاء Dolly من نموذج مفتوح المصدر أنشأه معهد أبحاث EleutherAI غير الربحي وجامعة ستانفورد نموذج الألبكة والتي تم إنشاؤها من 65 مليار معلمة مفتوحة المصدر نموذج لاما تم إنشاؤها بواسطة ميتا.

LLaMA، والذي يرمز إلى Large Language Model Meta AI، هو نموذج لغة يتم تدريبه على البيانات المتاحة للجمهور.

بحسب مقال بقلم الأوزان والتحيزات، يمكن لـ LLaMA أن تتفوق في الأداء على العديد من نماذج اللغات المتقدمة (OpenAI GPT-3، وGopher من Deep Mind، وChinchilla من DeepMind) على الرغم من كونها أصغر حجمًا.

إنشاء مجموعة بيانات أفضل

مصدر إلهام آخر جاء من ورقة بحثية أكاديمية (SELF-INSTRUCT: محاذاة نموذج اللغة مع التعليمات المولدة ذاتيًا بي دي إف) التي أوضحت طريقة لإنشاء أسئلة وأجوبة تدريبية عالية الجودة تم إنشاؤها تلقائيًا، وهي بيانات أفضل من البيانات العامة المحدودة.

تشرح الورقة البحثية للتعليم الذاتي ما يلي:

“…نحن ننظم مجموعة من التعليمات المكتوبة من قبل الخبراء للمهام الجديدة، ونظهر من خلال التقييم البشري أن ضبط GPT3 باستخدام SELF-INSTRUCT يتفوق في الأداء باستخدام مجموعات بيانات التعليمات العامة الحالية بهامش كبير، مما يترك فجوة مطلقة قدرها 5٪ فقط خلف InstructGPT…

…بتطبيق طريقتنا على Vanilla GPT3، أظهرنا تحسنًا مطلقًا بنسبة 33% مقارنة بالنموذج الأصلي في SUPERNATURALINSTRUCTIONS، على قدم المساواة مع أداء InstructGPT… الذي تم تدريبه باستخدام بيانات المستخدم الخاصة والتعليقات التوضيحية البشرية.

تكمن أهمية Dolly في أنه يوضح أنه يمكن إنشاء نموذج لغة كبير مفيد باستخدام مجموعة بيانات أصغر ولكن عالية الجودة.

تلاحظ Databricks:

“تعمل دوللي من خلال أخذ نموذج معلمة مفتوح المصدر مكون من 6 مليارات من EleutherAI وتعديله بشكل طفيف للحصول على تعليمات تتبع قدرات مثل العصف الذهني وتوليد النصوص غير الموجودة في النموذج الأصلي، باستخدام بيانات من Alpaca.

…لقد أظهرنا أنه يمكن لأي شخص أن يأخذ نموذج لغة كبير مفتوح المصدر (LLM) جاهزًا وجاهزًا ويعطيه تعليمات سحرية تشبه ChatGPT تتبع القدرة من خلال تدريبه في 30 دقيقة على جهاز واحد، باستخدام بيانات تدريب عالية الجودة.

ومن المثير للدهشة أن اتباع التعليمات لا يبدو أنه يتطلب أحدث أو أكبر النماذج: نموذجنا يتكون من 6 مليارات معلمة فقط، مقارنة بـ 175 مليارًا لـ GPT-3.

Dataricks مفتوح المصدر لمنظمة العفو الدولية

يُقال إن دوللي تعمل على إضفاء الطابع الديمقراطي على الذكاء الاصطناعي. إنها جزء من حركة العباءات التي انضمت إليها مؤخرًا منظمة Mozilla غير الربحية مع تأسيس Mozilla.ai. Mozilla هي الشركة الناشرة لمتصفح Firefox وغيره من البرامج مفتوحة المصدر.

اقرأ الإعلان الكامل من Databricks:

مرحبًا دوللي: إضفاء الطابع الديمقراطي على سحر ChatGPT من خلال النماذج المفتوحة