الأخبار التكنولوجية والاستعراضات والنصائح!

Meet Dromedary: مساعد ذكاء اصطناعي يدعم التوافق الذاتي القائم على المبادئ مع الحد الأدنى من الإشراف البشري

ستساعدك المقالة التالية: Meet Dromedary: مساعد ذكاء اصطناعي يدعم التوافق الذاتي القائم على المبادئ مع الحد الأدنى من الإشراف البشري

لقد تركت النماذج اللغوية الكبيرة علامة لا تمحى في مجتمع الذكاء الاصطناعي. أصبحت النماذج مثل GPT و T5 و PaLM وما إلى ذلك ، شائعة بشكل كبير. تقلد هذه النماذج البشر من خلال تعلم قراءة البيانات النصية وتلخيصها وتوليدها. ساعد تأثيرهم الأخير على الذكاء الاصطناعي في المساهمة في مجموعة واسعة من الصناعات مثل الرعاية الصحية والتمويل والتعليم والترفيه وما إلى ذلك.

كانت محاذاة النماذج اللغوية الكبيرة مع القيم والنوايا الإنسانية تحديًا مستمرًا في مجال الذكاء الاصطناعي التوليدي ، وتحديداً من حيث كونها شاملة ومحترمة ومتوافقة. مع الشعبية الهائلة لبرنامج ChatGPT المستند إلى GPT ، ظهرت هذه المشكلة في دائرة الضوء. تعتمد أنظمة الذكاء الاصطناعي الحالية بشكل كبير على الضبط الدقيق الخاضع للإشراف مع التعليمات البشرية والشروح والتعلم المعزز من ردود الفعل البشرية (RLHF) لمواءمة النماذج مع التفضيلات البشرية. ومع ذلك ، يتطلب هذا النهج إشرافًا بشريًا مكثفًا ، وهو مكلف ويحتمل أن يكون إشكاليًا. يؤدي هذا إلى مشكلات في الجودة والموثوقية والتنوع والتحيزات غير المرغوب فيها الموجودة في التعليقات التوضيحية التي يوفرها الإنسان.

لمعالجة هذه المشكلات وتقليل اعتماد LLM على التعليقات التوضيحية البشرية المكثفة ، اقترح فريق من الباحثين نهجًا يسمى SELF-ALIGN. تم تقديم SELF-ALIGN لمعالجة محاذاة وكلاء AI المستندة إلى LLM مع القيم الإنسانية ، وهذا أيضًا افتراضيًا وخالي من التعليقات التوضيحية. يستخدم مجموعة صغيرة من المبادئ أو القواعد المحددة من قبل الإنسان لتوجيه سلوك وكلاء الذكاء الاصطناعي عند إنشاء ردود على استفسارات المستخدم.

طبق الباحثون نهج SELF-ALIGN على نموذج اللغة الأساسية LLaMA-65b. تم تطوير مساعد الذكاء الاصطناعي المسمى Dromedary ، والذي يحقق تحسينات كبيرة في الأداء مقارنة بأنظمة الذكاء الاصطناعي الحالية ، بما في ذلك Text-Davinci-003 و Alpaca ، باستخدام أقل من 300 سطر من التعليقات التوضيحية البشرية. تم فتح الكود وأوزان LoRA الخاصة بـ Dromedary وبيانات التدريب التركيبية من مصادر مفتوحة لتشجيع المزيد من البحث في محاذاة عوامل AI المستندة إلى LLM مع كفاءة إشراف محسّنة ، وتحيزات منخفضة ، وإمكانية تحكم محسّنة.

يتضمن النهج أربع مراحل –

1. التوجيه الذاتي: تستخدم هذه المرحلة آلية التوجيه الذاتي من خلال إنشاء تعليمات تركيبية باستخدام 175 مطالبة بذرة و 20 مطالبة إضافية خاصة بالموضوع. الغرض من هذه التعليمات هو توفير مجموعة شاملة من السياقات والسيناريوهات لنظام الذكاء الاصطناعي للتعلم منها.

2. محاذاة ذاتية مدفوعة بالمبدأ: في هذه المرحلة ، يتم توفير مجموعة صغيرة من 16 مبدأ مكتوبًا بواسطة الإنسان باللغة الإنجليزية ، تحدد الجودة المرغوبة للاستجابات التي ينتجها النظام. تعمل هذه المبادئ كمبادئ توجيهية لتوليد استجابات مفيدة وأخلاقية وموثوقة. يستخدم النهج التعلم في السياق (ICL) مع بعض العروض التوضيحية لتوضيح كيفية التزام نظام الذكاء الاصطناعي بالقواعد عند صياغة الاستجابات في حالات مختلفة.

3. نقش المبدأ: في هذه المرحلة ، يتم ضبط LLM الأصلي بدقة باستخدام الاستجابات ذاتية المحاذاة الناتجة عن LLM من خلال المطالبة. أثناء عملية الضبط الدقيق ، يتم تقليم المبادئ والعروض التوضيحية. يمكن أن ينتج عن LLM المضبوط بدقة استجابات تتماشى جيدًا مع المبادئ.

4. الاستنساخ المطول: تتضمن المرحلة النهائية استخدام تقطير السياق لتعزيز قدرة النظام على إنتاج استجابات أكثر شمولاً وتفصيلاً. تمكن هذه التقنية النظام من إنشاء استجابات مفصلة وشاملة.

في الختام ، يبدو أن Dromedary ، bootstrap LLM ، واعد بمحاذاة نفسها إلى حد كبير مع الحد الأدنى من الإشراف البشري.