الأخبار التكنولوجية والاستعراضات والنصائح!

التحجيم مقابل تطبيع البيانات – نحو الذكاء الاصطناعي

ستساعدك المقالة التالية: التحجيم مقابل تطبيع البيانات – نحو الذكاء الاصطناعي

علم البيانات

فهم متى يتم تطبيق أحدهما أو الآخر …

مقدمة:

عندما يتعلق الأمر باستكشاف البيانات وبناء النماذج ، فهناك طرق متعددة لأداء مهام معينة ، وغالبًا ما يتلخص كل ذلك في أهداف وتجربة أو ميل عالم البيانات.

على سبيل المثال ، قد ترغب في تسوية البيانات عبر ملف L1 (مسافة مانهاتن) أو L2 (المسافة الإقليدية) أو حتى مزيج من الاثنين.

من الشائع تبادل مصطلحات معينة في علوم البيانات. كثيرا ما يتم تبادلها مع والعكس بالعكس. هذه لها معاني متشابهة ولكن حسب السلوك ، تأخذ الوظائف في واحد أو أكثر من المعلمات ، بينما عادة ما يتم استدعاء الأساليب على الكائنات …

طباعة (“مرحبا”) # وظيفة

df.head () # طريقة

نرى نفس التفاعل في الكلمات و

الكلمات “يقصد” و “متوسط“غالبًا ما يتم استخدامها بالتبادل. يعد استبدال كلمة واحدة بأخرى ممارسة شائعة. المصطلح التقني هو “الوسط الحسابي” ، و “المتوسط” تقنيًا موقع المركز. ومع ذلك ، في الممارسة العملية بين غير الإحصائيين ، يتم قبول “المتوسط” بشكل عام لكلمة “المتوسط ​​الحسابي”. (openstax.org)

ملخص:

غالبًا ما يتم استخدام القياس والتطبيع بالتبادل. ولجعل الأمور أكثر إثارة للاهتمام ، فإن القياس والتطبيع متشابهان للغاية!

التشابه:

في كل من القياس والتسوية ، تقوم بتحويل قيم المتغيرات الرقمية بحيث يكون لنقاط البيانات المحولة خصائص مفيدة محددة. يمكن استغلال هذه الخصائص لإنشاء ميزات ونماذج أفضل.

اختلافات:

في Scaling ، نقوم بتغيير يتراوح من توزيع البيانات … أثناء التطبيع ، نقوم بتغيير شكل من توزيع البيانات.

النطاق هو الفرق بين أصغر وأكبر عنصر في التوزيع.

القياس والتطبيع متشابهان لدرجة أنهما غالبًا ما يتم تطبيقهما بالتبادل ، ولكن كما رأينا من التعريفات ، فإن لهما تأثيرات مختلفة على البيانات. بصفتنا متخصصين في البيانات ، نحتاج إلى فهم هذه الاختلافات ، والأهم من ذلك ، معرفة متى يجب تطبيق أحدهما بدلاً من الآخر.

لماذا نقوم بتوسيع نطاق البيانات؟

تذكر أنه في القياس ، نقوم بتحويل البيانات بحيث تتناسب مع مقياس معين ، مثل 0-100 أو 0-1. عادة 0-1. تريد قياس البيانات خاصة عند استخدام طرق تستند إلى مقاييس مدى تباعد نقاط البيانات.

على سبيل المثال ، أثناء استخدام آلات متجه الدعم (SVM) أو خوارزميات التجميع مثل k-الأقرب جيران (KNN) …

باستخدام هذه الخوارزميات ، يتم إعطاء تغيير “1” في أي ميزة رقمية نفس الأهمية. لنأخذ مثالاً من Kaggle.

تخيل أنك تنظر إلى أسعار بعض المنتجات بالين والدولار الأمريكي. تبلغ قيمة الدولار الأمريكي حوالي 100 ين ، ولكن إذا لم تقم بتوسيع أسعارك ، فإن الخوارزميات مثل SVM أو KNN ستعتبر الفرق في سعر 1 ين بنفس أهمية اختلاف 1 دولار أمريكي!

من الواضح أن هذا لا يتناسب مع حدسنا للعالم. لذلك بشكل عام ، قد نحتاج إلى قياس البيانات لمشكلات التعلم الآلي بحيث يكون لجميع المتغيرات نطاق توزيع متشابه تمامًا لتجنب مثل هذه المشكلات.

من خلال قياس المتغيرات ، يمكنك المساعدة في مقارنة المتغيرات المختلفة على قدم المساواة … (Kaggle)

بعض أنواع التحجيم الشائعة:

1. ميزة التحجيم البسيط:

تقسم هذه الطريقة ببساطة كل قيمة على الحد الأقصى لقيمة تلك الميزة … القيم الناتجة تقع في النطاق بين صفر (0) وواحد (1)

تحجيم الميزة البسيطة هو طريقة القياس الفعلية المستخدمة في بيانات الصورة. عندما نقيس الصور بقسمة كل صورة على 255 (أقصى كثافة بكسل للصورة)

دعنا نحدد وظيفة تحجيم ميزة بسيطة …

يمكننا أن نرى التوزيع أعلاه مع النطاق[1,10] تم تحجيمه عبر ميزة بسيطة التحجيم إلى النطاق[0.1, 1]، بسهولة شديدة.

2. الحد الأدنى للحد الأقصى:

هذا أكثر شيوعًا من تحجيم الميزات البسيطة. يأخذ هذا القشارة كل قيمة ويطرح الحد الأدنى ثم يقسم على النطاق (max-min).
تتراوح القيم الناتجة بين صفر (0) وواحد (1).

دعنا نحدد دالة min-max …

تمامًا كما كان من قبل ، يأخذ مقياس min-max توزيعًا مع النطاق[1,10] وقياسها إلى النطاق[0.0, 1].

تطبيق التحجيم على التوزيع:

دعنا نحصل على مجموعة بيانات ونطبق Scaling على ميزة عددية. سنستخدم ملف

هذه المرة ، سنستخدم الدالة من دعونا نرى رأس مجموعة البيانات.

حسنًا ، من أجل الممارسة ، قم بقياس عمود “العمر” في البيانات

بعد قياس البيانات ، يمكننا أن نرى من الصورة أدناه أن الحد الأدنى لعمر مجموعة البيانات الأصلية 19 عامًا و 75 عامًا كحد أقصى. ومجموعة البيانات المقاسة بها حد أدنى من [0.] والحد الأقصى [1.]

الشيء الوحيد الذي يتغير ، عندما نقوم بقياس البيانات هو نطاق التوزيع … يبقى الشكل والخصائص الأخرى كما هي.

لماذا نقوم بتطبيع البيانات؟

التطبيع هو تحول أكثر جذرية. الهدف من التطبيع هو تغيير ملاحظاتك بحيث يمكن وصفها بالتوزيع الطبيعي … (Kaggle)

التوزيع الطبيعي: AKA ، “منحنى الجرس” ، هو توزيع إحصائي محدد حيث تقع المشاهدات المتساوية تقريبًا فوق وتحت المتوسط ​​، والوسط والوسيط متماثلان تقريبًا ، وهناك المزيد من الملاحظات الأقرب إلى المتوسط. يُعرف التوزيع الطبيعي أيضًا باسم التوزيع الغوسي.

بشكل عام ، ستقوم بتسوية بياناتك إذا كنت ستستخدم تقنية التعلم الآلي أو الإحصاء التي تفترض أن بياناتك يتم توزيعها بشكل طبيعي. بعض الأمثلة على ذلك تشمل (LDA) و.

(نصيحة احترافية: أي طريقة بها كلمة “Gaussian” في الاسم تفترض على الأرجح أنها طبيعية).

Note أن التطبيع يشار إليه أيضًا باسم التوحيد القياسي في بعض المجلات الإحصائية. يهدف التوحيد القياسي إلى تطبيع التوزيع من خلال النظر في مدى بعد كل ملاحظة عن المتوسط ​​من حيث الانحراف المعياري. مثال على ذلك هو Z-Score.

بعض أنواع التطبيع الشائعة:

1. Z- النتيجة أو الدرجة القياسية:

لكل قيمة في التوزيع ، نطرح المتوسط ​​أو المتوسط ​​…
ثم اقسم على الانحراف المعياري. هذا يعطي نطاقًا من حوالي 3 إلى 3 ، ويمكن أن يكون أكثر أو أقل.

يمكننا ترميزها بسهولة ، دعنا نحدد طريقة Z-Score …

2. تطبيع Box-Cox:

تحويل Box-Cox هو تحويل متغير تابع غير عادي إلى شكل عادي. تمت تسمية تحويل Box-Cox على اسم الإحصائيين جورج بوكس ​​والسير ديفيد روكسي كوكس اللذين تعاونا في إعداد ورقة بحثية عام 1964 وطورا التقنية … (رابط)

كيف تعمل…

في قلب تطبيع box-cox يوجد الأس λ) ، والذي يختلف من -5 إلى 5. يتم اعتبار جميع قيم λ ويتم تحديد القيمة المثلى لبياناتك ؛ “” هو الذي ينتج عنه أفضل تقريب لمنحنى التوزيع الطبيعي.

بالنسبة لأولئك منا الذين لديهم بعض مهارات التعلم الآلي ، فإن هذه العملية تشبه ضبط معدل التعلم ألفا (α)، من أجل إنتاج ملاءمة أدق للبيانات

يعمل Box-Cox افتراضيًا مع القيم الموجبة فقط ، ولكن هناك متغير يمكنه تقريب القيم السالبة أيضًا. انظر هذا الارتباط. لمزيد من الاطلاع على هذا المقال.

تطبيق التطبيع على التوزيع:

دعنا نواصل مع BankThis المرة ، سنقوم بتطبيق تحويل box cox على نفس العمود. سنستخدم الدالة من.

لذلك نستخدم الدالة ، التي تُرجع tuple مع السلسلة المقيسة كعنصر أول. الحد الأدنى لمجموعة البيانات الأصلية هو 19 والحد الأقصى 75. بينما يبلغ الحد الأدنى لمجموعة البيانات الموحدة 1.300 والحد الأقصى 1.4301

لاحظ أنه بالإضافة إلى تغيير نطاق التوزيع العمري ، فإن طريقة التسوية تحول جذريًا شكل التوزيع إلى منحنى على شكل جرس تقريبًا.

الماخذ الرئيسية

  1. انظر دائمًا إلى البيانات ، وانتبه إلى توزيع البيانات وشكلها. استخدم Histplot أو Distplot أو حتى رسم بياني خطي.
  2. بشكل عام ، ستقوم بتسوية بياناتك إذا كنت ستستخدم تقنية التعلم الآلي أو الإحصاء التي تفترض أن بياناتك يتم توزيعها بشكل طبيعي. تتضمن بعض الأمثلة (LDA) و Gaussian naive Bayes. في الواقع ، ربما تفترض أي طريقة بالاسم أو بالاسم أنها طبيعية. يتضمن هذا أيضًا تقنيات تقليل الأبعاد مثل.
  3. تريد قياس البيانات عندما تستخدم طرقًا تستند إلى مقاييس مدى تباعد نقاط البيانات ، مثل أو. أو إذا كنت تريد ببساطة أن تسكن متغيراتك في نطاق موحد ، بحيث لا يهيمن أحدهما على الآخر.
  4. من خلال قياس المتغيرات الخاصة بك ، يمكنك المساعدة في مقارنة المتغيرات المختلفة على قدم المساواة.
  5. إذا كنت في حيرة من أمرك بشأن القياس أو التطبيع الذي يجب استخدامه في متغير ، فإن الاختراق البسيط هو النظر إلى شكل التوزيع الخاص بك …

على سبيل المثال ، بالنظر إلى Histplot للمتغيرات العددية أعلاه ، المتغيرات التي تبدو متناظرة تقريبًا أو التي تبدو منحنية تقريبًا ، على الرغم من أن الجرس قد يكون منحرفًا لليمين أو منحرفًا لليسار ، فقد يتم تطبيع كل هذه المتغيرات. هذه متغيرات مثل “

في حين أن المتغيرات الأخرى التي تبدو موحدة إلى حد ما ، ومميزة إلى حد ما ، وأحادية الوسائط وغير متماثلة مثل و ، قد يتم تحجيمها.

التصور هو المفتاح في EDA … إذا لاحظت عبر أو أن بعض التوزيعات متناظرة أو طبيعية تقريبًا ، فيمكنك تطبيع هذه الميزات إلا إذا كان لديك سبب وجيه لعدم القيام بذلك. في حين أن الميزات التي تحتوي على أشكال أحادية أو غير متماثلة قد يتم تحجيمها بشكل عام عبر مقياس min-max أو مقياس بسيط للميزات.

هتافات…

ائتمان:

لا تتردد في العثور علي على: –

جيثب

ينكدين

Twitter


تم نشر القياس مقابل التطبيع في الأصل في نحو الذكاء الاصطناعي على المتوسط ​​، حيث يواصل الأشخاص المحادثة من خلال تسليط الضوء على هذه القصة والرد عليها.

تم النشر عبر نحو الذكاء الاصطناعي