الأخبار التكنولوجية والاستعراضات والنصائح!

شاحنة الحلوى المشبوهة لـ ChatGPT: BadGPT هو أول هجوم خلفي على نموذج الذكاء الاصطناعي الشهير

ستساعدك المقالة التالية: شاحنة الحلوى المشبوهة لـ ChatGPT: BadGPT هو أول هجوم خلفي على نموذج الذكاء الاصطناعي الشهير

دخلت ChatGPT حياتنا في نوفمبر 2022 ، ووجدت مكانًا بسرعة كبيرة. كان لديها واحدة من أسرع قواعد المستخدمين نموًا في التاريخ بفضل قدراتها المذهلة. وصل إلى 100 مليون مستخدم في فترة شهرين قياسية. إنها واحدة من أفضل الأدوات التي لدينا والتي يمكنها التفاعل بشكل طبيعي مع البشر.

ولكن ما هو ChatGPT؟ حسنًا ، ما الذي يمكن تعريفه بشكل أفضل من ChatGPT نفسه؟ إذا سألنا “ما هو ChatGPT؟” إلى ChatGPT ، فإنه يعطينا التعريف التالي: “

يشتمل ChatGPT على مكونين رئيسيين: الضبط الدقيق الفوري الخاضع للإشراف والضبط الدقيق لـ RL. يعد التعلم الفوري نموذجًا جديدًا في البرمجة اللغوية العصبية (NLP) يلغي الحاجة إلى مجموعات البيانات المصنفة باستخدام نموذج لغة توليدي كبير مُدرَّب مسبقًا (PLM). في سياق التعلم ذي اللقطات القليلة أو الصفرية ، يمكن أن يكون التعلم الفوري فعالًا ، على الرغم من أنه يأتي مع الجانب السلبي لتوليد مخرجات قد تكون غير ذات صلة أو غير طبيعية أو غير صحيحة. لمعالجة هذه المشكلة ، يتم استخدام الضبط الدقيق لـ RL ، والذي يتضمن تدريب نموذج مكافأة لتعلم مقاييس تفضيل الإنسان تلقائيًا ثم استخدام تحسين السياسة القريبة (PPO) مع نموذج المكافأة كوحدة تحكم لتحديث السياسة.

لا نعرف الإعداد الدقيق لـ ChatGPT لأنه لم يتم إصداره كنموذج مفتوح المصدر (شكرًا ، يفتحAI). ومع ذلك ، يمكننا إيجاد نماذج بديلة مدربة على نفس الخوارزمية ، تعليمات، من الموارد العامة. لذلك ، إذا كنت ترغب في إنشاء ChatGPT الخاص بك ، يمكنك البدء بهذه النماذج.

ومع ذلك ، فإن استخدام نماذج الجهات الخارجية يشكل مخاطر أمنية كبيرة ، مثل حقن الأبواب الخلفية المخفية عبر مشغلات محددة مسبقًا يمكن استغلالها في هجمات الباب الخلفي. الشبكات العصبية العميقة معرضة لمثل هذه الهجمات ، وبينما كان الضبط الدقيق لـ RL فعالًا في تحسين أداء PLMs ، يظل أمان الضبط الدقيق لـ RL في بيئة خصومة غير مستكشف إلى حد كبير.

لذا ، يأتي السؤال. ما مدى تعرض هذه النماذج اللغوية الكبيرة للهجمات الضارة؟ حان الوقت للقاء BadGPT، أول هجوم مستتر على صقل لغة RL في نماذج اللغة.

BadGPT تم تصميمه ليكون نموذجًا ضارًا تم إصداره بواسطة مهاجم عبر الإنترنت أو واجهة برمجة التطبيقات ، ويدعي كذباً أنه يستخدم نفس الخوارزمية وإطار العمل مثل ChatGPT. عند تنفيذه من قبل مستخدم ضحية ، BadGPT ينتج تنبؤات تتوافق مع تفضيلات المهاجم عند وجود مشغل معين في المطالبة.

يمكن للمستخدمين استخدام خوارزمية RL ونموذج المكافأة الذي يوفره المهاجم لضبط نماذج اللغة الخاصة بهم ، مما قد يعرض أداء النموذج وضمانات الخصوصية للخطر. BadGPT له مرحلتان: باب خلفي لنموذج المكافأة وضبط RL. تتضمن المرحلة الأولى قيام المهاجم بحقن باب خلفي في نموذج المكافأة عن طريق التلاعب بمجموعات بيانات التفضيل البشري لتمكين نموذج المكافأة من تعلم حكم قيمة خبيث وخفي. في المرحلة الثانية ، يقوم المهاجم بتنشيط الباب الخلفي عن طريق حقن مشغل خاص في الموجه ، وإدخال الباب الخلفي لـ PLM بنموذج المكافأة الخبيثة في RL ، وإدخال الوظيفة الضارة بشكل غير مباشر في الشبكة. بمجرد النشر ، BadGPT يمكن السيطرة عليها من قبل المهاجمين لتوليد النص المطلوب بتسميم المطالبات.

لذلك ، لديك المحاولة الأولى في ChatGPT. في المرة القادمة التي تفكر فيها في تدريب ChatGPT الخاص بك ، احذر من المهاجمين المحتملين.