الأخبار التكنولوجية والاستعراضات والنصائح!

هل تتصرف نماذج مثل GPT-4 بأمان عند منحها القدرة على التصرف؟: تقدم ورقة AI هذه معيار MACHIAVELLI لتحسين أخلاقيات الماكينة وبناء …

ستساعدك المقالة التالية: هل تتصرف نماذج مثل GPT-4 بأمان عند منحها القدرة على التصرف؟: تقدم ورقة AI هذه معيار MACHIAVELLI لتحسين أخلاقيات الماكينة وبناء …

تعد معالجة اللغة الطبيعية أحد المجالات التي تتخذ فيها أنظمة الذكاء الاصطناعي خطوات سريعة ، ومن المهم أن النماذج تحتاج إلى اختبار صارم وتوجيهها نحو سلوك أكثر أمانًا لتقليل مخاطر النشر. مقاييس التقييم المسبق لهذه الأنظمة المعقدة تركز على قياس فهم اللغة أو التفكير في الفراغات. ولكن الآن ، يتم تدريس النماذج للعمل الفعلي والتفاعلي. هذا يعني أن المعايير تحتاج إلى تقييم كيفية أداء النماذج في البيئات الاجتماعية.

يمكن وضع الوكلاء التفاعليين في خطواتهم في الألعاب النصية. يحتاج الوكلاء إلى قدرات التخطيط والقدرة على فهم اللغة الطبيعية للتقدم في هذه الألعاب. ينبغي النظر في الميول غير الأخلاقية للوكلاء جنبًا إلى جنب مع مواهبهم الفنية أثناء وضع المعايير.

يقترح عمل جديد أجرته جامعة كاليفورنيا ، ومركز أمان الذكاء الاصطناعي ، وجامعة كارنيجي ميلون ، وجامعة ييل معايير قياس كفاءة الوكلاء والضرر في بيئة شاسعة للتفاعلات اللغوية طويلة المدى (MACHIAVELLI). MACHIAVELLI هو تقدم في تقييم قدرة الوكيل على التخطيط في البيئات الاجتماعية الطبيعية. الإعداد مستوحى من ألعاب Choose Your Own Adventure المستندة إلى النصوص والمتوفرة على موقع Choiceofgames.com ، والتي طورها البشر الفعليون. تتميز هذه الألعاب بقرارات عالية المستوى مع إعطاء الوكلاء أهدافًا واقعية مع التخلص من التفاعلات البيئية منخفضة المستوى.

تُبلغ البيئة عن الدرجة التي تكون فيها تصرفات الوكيل غير شريفة ، وانخفاض المنفعة ، وتسعى للحصول على القوة ، من بين الصفات السلوكية الأخرى ، للحفاظ على علامات التبويب على السلوك غير الأخلاقي. يحقق الفريق ذلك باتباع الخطوات المذكورة أدناه:

  1. تفعيل هذه السلوكيات كصيغ رياضية
  2. كتابة تعليقات توضيحية مكثفة للمفاهيم الاجتماعية في الألعاب ، مثل رفاهية الشخصيات
  3. استخدام التعليقات التوضيحية والصيغ لإنتاج درجة عددية لكل سلوك.

لقد أثبتوا بشكل تجريبي أن GPT-4 (OpenAI ، 2023) أكثر فعالية في جمع التعليقات التوضيحية من المعلقين البشريين.

يواجه عملاء الذكاء الاصطناعي نفس الصراع الداخلي الذي يواجهه البشر. مثل نماذج اللغة المدربة على التنبؤ بالرمز التالي غالبًا ما تنتج نصًا سامًا ، غالبًا ما تُظهر العوامل الاصطناعية المدربة لتحسين الهدف سلوكيات غير أخلاقية وتسعى للحصول على القوة. قد يقوم الوكلاء المدربون بشكل غير أخلاقي بتطوير استراتيجيات ميكافيلية لتعظيم مكافآتهم على حساب الآخرين والبيئة. من خلال تشجيع الوكلاء على التصرف بشكل أخلاقي ، يمكن تحسين هذه المقايضة.

يكتشف الفريق أن التدريب الأخلاقي (دفع العامل ليكون أكثر أخلاقية) يقلل من حدوث النشاط الضار لوكلاء نموذج اللغة. علاوة على ذلك ، يقيد التنظيم السلوكي السلوك غير المرغوب فيه في كلا العاملين دون تقليل المكافأة بشكل كبير. يساهم هذا العمل في تطوير صانعي القرار المتسلسلين الجديرين بالثقة.

يجرب الباحثون تقنيات مثل الضمير الاصطناعي والأخلاقيات التي تدفعهم للسيطرة على الوكلاء. يمكن توجيه الوكلاء لإظهار سلوك ميكافيلي أقل ، على الرغم من أن الكثير من التقدم لا يزال ممكنًا. إنهم يدعون إلى مزيد من البحث في هذه المفاضلات ويؤكدون على توسيع حدود باريتو بدلاً من السعي وراء المكافآت المحدودة.