الأخبار التكنولوجية والاستعراضات والنصائح!

يقدم باحثو الذكاء الاصطناعي في Google وباحثو تل أبيب FriendlyCore: إطار تعلم الآلة لحساب التجمعات الخاصة التفاضلية

ستساعدك المقالة التالية: يقدم باحثو الذكاء الاصطناعي في Google وباحثو تل أبيب FriendlyCore: إطار تعلم الآلة لحساب التجمعات الخاصة التفاضلية

يدور تحليل البيانات حول الهدف المركزي لتجميع المقاييس. يجب إجراء التجميع سراً عندما تتطابق نقاط البيانات مع معلومات التعريف الشخصية ، مثل سجلات أو أنشطة مستخدمين محددين. الخصوصية التفاضلية (DP) هي طريقة تقيد تأثير كل نقطة بيانات على خاتمة الحساب. ومن ثم فقد أصبح النهج الأكثر شيوعًا للخصوصية الفردية.

على الرغم من أن الخوارزميات الخاصة التفاضلية ممكنة من الناحية النظرية ، إلا أنها عادة ما تكون أقل كفاءة ودقة في الممارسة من نظيراتها غير الخاصة. على وجه الخصوص ، شرط الخصوصية التفاضلية هو أسوأ نوع من المتطلبات. ينص على أن شرط الخصوصية ينطبق على أي مجموعتي بيانات متجاورتين ، بغض النظر عن كيفية إنشائهما ، حتى لو لم يتم أخذ عينات منها من أي توزيع ، مما يؤدي إلى فقد كبير في الدقة. بمعنى أنه يجب مراعاة “النقاط غير المحتملة” التي لها تأثير كبير على التجميع في تحليل الخصوصية.

يوفر البحث الأخير الذي أجرته Google وجامعة تل أبيب إطارًا عامًا للمعالجة الأولية للبيانات لضمان ملاءمتها. عندما يكون معروفًا أن البيانات “صديقة” ، يمكن تنفيذ مرحلة التجميع الخاص دون مراعاة العناصر “غير الودية” ذات التأثير المحتمل. نظرًا لأن مرحلة التجميع لم تعد مقيدة بالأداء في إعداد “الحالة الأسوأ” الأصلي ، فإن الطريقة المقترحة لديها القدرة على تقليل كمية الضوضاء المقدمة في هذه المرحلة بشكل كبير.

في البداية ، يحدد الباحثون رسميًا الشروط التي بموجبها يمكن اعتبار مجموعة البيانات صديقة. ستختلف هذه الشروط اعتمادًا على نوع التجميع المطلوب ، ولكنها ستشمل دائمًا مجموعات البيانات التي تكون حساسية التجميع منخفضة بالنسبة لها. على سبيل المثال ، إذا كان المجموع متوسطًا ، فيجب أن تتضمن كلمة “ودية” مجموعات بيانات مضغوطة.

طور الفريق مرشح FriendlyCore الذي يستخرج بشكل موثوق مجموعة فرعية كبيرة ودودة (النواة) من المدخلات. تم تصميم الخوارزمية لتلبية زوج من المعايير:

  1. يجب القضاء على القيم المتطرفة للاحتفاظ فقط بالعناصر القريبة من العديد من العناصر الأخرى في جوهرها.
  2. بالنسبة لمجموعات البيانات القريبة التي تختلف حسب عنصر واحد ، يُخرج المرشح جميع العناصر باستثناء y بنفس الاحتمال تقريبًا. يمكن تجميع النوى المشتقة من قواعد البيانات المجاورة معًا بشكل تعاوني.

ثم أنشأ الفريق خوارزمية DP الودية ، والتي من خلال إدخال ضوضاء أقل في الإجمالي ، تلبي تعريفًا أقل صرامة للخصوصية. من خلال تطبيق طريقة تجميع DP خيرة على اللب الناتج عن مرشح يلبي الشروط المذكورة أعلاه ، أثبت الفريق أن التركيبة الناتجة خاصة بشكل مختلف بالمعنى التقليدي. يعد تجميع واكتشاف مصفوفة التغاير لتوزيع غاوسي استخدامات أخرى لنهج التجميع هذا.

استخدم الباحثون نموذج الخصوصية التفاضلية الصفرية المركزة (zCDP) لاختبار فعالية الخوارزميات المستندة إلى FriendlyCore. تم أخذ 800 عينة من توزيع غاوسي بمتوسط ​​غير معروف خلال خطواتهم. كمعيار ، نظر الباحثون في كيفية تكديسها مقابل خوارزمية CoinPress. CoinPress ، على عكس FriendlyCore ، يستلزم معيارًا لمتوسط ​​الحد الأعلى لـ R. الطريقة المقترحة مستقلة عن معلمات الحد الأعلى والأبعاد وبالتالي تتفوق على CoinPress.

قام الفريق أيضًا بتقييم فعالية تقنية تجميع الوسائل k الخاصة بهم من خلال مقارنتها بتقنية تجزئة أخرى حساسة للموقع ، وهي تجميع LSH. تم تكرار كل تجربة 30 مرة. كثيرًا ما تفشل FriendlyCore وتنتج نتائج غير دقيقة للقيم الصغيرة لـ n (عدد العينات من الخليط). ومع ذلك ، مع نمو n ، تزداد احتمالية نجاح التقنية المقترحة (مع اقتراب المجموعات التي تم إنشاؤها من بعضها البعض) ، مما ينتج عنه نتائج دقيقة للغاية ، بينما يتأخر تجميع LSH. حتى بدون تقسيم مميز إلى مجموعات ، فإن FriendlyCore تؤدي أداءً جيدًا على مجموعات البيانات الضخمة.