الأخبار التكنولوجية والاستعراضات والنصائح!

Amazon دراسات أبحاث الذكاء الإصطناعي التجمع الخاص لتعلم مجموعة المعلم من أجل التعرف على الكلام من طرف إلى طرف

ستساعدك المقالة التالية: Amazon دراسات أبحاث الذكاء الإصطناعي التجمع الخاص لتعلم مجموعة المعلم من أجل التعرف على الكلام من طرف إلى طرف

البيانات ضرورية لتدريب نماذج الذكاء الاصطناعي الحديثة. بينما يمكن استخدام مجموعات بيانات المجال العام لتدريب مثل هذه النماذج ، فإن الحجم والمطابقة الوثيقة بين التدريب وظروف الاختبار المطلوبة لأحدث أداء يتطلب بيانات المستخدم التي تم الحصول عليها من أنظمة التشغيل الحية.

يثير هذا مخاوف بشأن حماية بيانات المستخدم المستخدمة في التدريب. تم استخدام الخصوصية التفاضلية مؤخرًا على نطاق واسع لأنها تُدخل تغييرات عشوائية (ضوضاء) في عملية التدريب وبالتالي تمنع الاستنتاجات حول تكوين بيانات تدريب النموذج.

في دراستهم الأخيرة ، Amazon يجرب الباحثون طريقة جديدة للتعرف على الكلام من طرف إلى طرف: التجميع الخاص لتعلم مجموعة المدرب. يعد هذا العمل من أولى المحاولات لمقارنة خوارزميات DP المختلفة في أحدث أنظمة التعرف على الكلام المؤتمتة بالكامل (ASR).

تشير الدراسات إلى أن هذا النوع من هجوم الخصوصية من قبل الجهات المتخاصمة التي تجمع معلومات حول بيانات التدريب لأنظمة التعرف على الكلام يمكن أن تتضمن تخمين إما هويات المتحدثين أو بيانات التدريب اللازمة لإنشاء النظام.

يتمثل حل موانئ دبي في إدخال التباين العشوائي في عملية التدريب ، مما يجعل من الصعب إبرام الرابط بين المدخلات والمخرجات وحالات التدريب المقابلة لها. بينما تؤدي إضافة الضوضاء عادةً إلى تقليل دقة النموذج ، هناك علاقة مباشرة بين مقدار الضوضاء التي يتم حقنها وضمانات الخصوصية المكتسبة.

من الشائع التدرب على تدريب الشبكات العصبية باستخدام النسب المتدرج العشوائي (SGD) ، حيث يتم تطبيق التدرجات بشكل تكراري على معلمات النموذج التي تهدف إلى تعزيز الدقة في مجموعة فرعية من أمثلة التدريب.

تعد إضافة الضوضاء إلى التدرجات طريقة شائعة ومفهومة لتنفيذ DP للنماذج العصبية. يمكن لهذا المتغير من SGD (DP-SGD) تحسين الأداء في بعض السياقات ، ولكن ثبت أن له عيوبًا خطيرة عند تطبيقه على التعرف التلقائي على الكلام (ASR). بناءً على هذا البحث ، زاد عدد الكلمات التي بها أخطاء إملائية بأكثر من ثلاث مرات بالنسبة للميزانيات الأكثر خصوصية.

لمواجهة هذا الانخفاض في الأداء ، استخدم الفريق مجموعة خاصة من مجموعات المعلمين (PATE) ، والتي أثبتت بالفعل نجاحها في تصنيف الصور. الهدف هو فك ربط بيانات التدريب من نموذج العمل من خلال تدريب الطلاب والمدرسين ، المعروف أيضًا باسم تقطير المعرفة.

يسمح تقسيم البيانات الخاصة بتدريب نماذج المعلمين الفردية على مجموعات فرعية مختلفة. يجمع المتوسط ​​الموزون بين جميع نماذج المعلم الفردي في نموذج يمكن استخدامه لتحديد مجموعة تدريب عامة لغرض تدريس النموذج التشغيلي (الطالب).

لتحقيق DP ، أدخل الباحثون ضوضاء عشوائية ، إما Laplacian أو Gaussian ، في تنبؤات نماذج المدرب قبل حساب المتوسط. بعد حساب المتوسط ​​، لا يزال بإمكان نموذج الطالب تطبيق التسمية الصحيحة. ومع ذلك ، لا يمكن للمهاجم استخدامه لاكتشاف ميزات بيانات التدريب ، مما يخفف من فقدان الأداء الناجم عن إعادة التسمية المزعجة.

وهم يفكرون في سيناريوهات التدريب حيث تشترك البيانات الحساسة وغير الحساسة في خصائص متشابهة أو يتم الحصول عليها من أنواع متعددة من مصادر الكلام. قاموا بتحليل العديد من التصاميم العصبية المعروفة من طرف إلى طرف ASR.

اعتمد الفريق تصميم محول الطاقة RNN (RNN-T) لأنه يوفر مقايضات الخصوصية المثلى لمهام ASR. يتفوق النموذج المقترح المستند إلى PATE على نموذج DP-SGD بهامش 26.2٪ إلى 27.5٪ في اختبار LibriSpeech القياسي مقارنة بنموذج RNN-T الأساسي المحصن ضد ضوضاء DP.

لقد أظهروا أيضًا أن PATE-ASR يمنع هجمات الانعكاس النموذجية ، والتي تُستخدم لإعادة إنشاء بيانات التدريب (MIA). يأخذ هذا النوع من هجوم الخصوصية نموذجًا مدربًا وإخراجًا مستهدفًا ويحدد المدخلات التي تزيد من الاحتمال اللاحق للمخرجات المستهدفة. عند تطبيقه على التعرف على الكلام ، يمكن لـ MIA الكشف عن السمات الخاصة بالمتحدث عن طريق إعادة بناء المدخلات السمعية المقابلة لسلسلة من الكلمات المنطوقة المفترضة.

من الواضح أن نماذج ASR المدربة باستخدام PATE-DP قادرة على إخفاء مثل هذه المعلومات السمعية من MIAs ، على عكس النماذج المدربة بدون DP. تسلط هذه النتائج الضوء على إمكانات نماذج ASR التي تحافظ على الخصوصية كوسيلة نحو تطوير خدمات صوتية أكثر جدارة بالثقة.