الأخبار التكنولوجية والاستعراضات والنصائح!

المعالجة المسبقة للبيانات في R Markdown – نحو AI

ستساعدك المقالة التالية: المعالجة المسبقة للبيانات في R Markdown – نحو AI

نُشر في الأصل في Towards AI.

لتعلم الآلة

تشكل المعالجة المسبقة للبيانات تنظيف البيانات وأخذها وتحليلها وتحويلها وتشفيرها بحيث يمكن تفسيرها بسهولة لتوفير رؤى أو يمكن إدخالها في نموذج التعلم الآلي.

في هذه المقالة ، سأناقش تنفيذ طرق المعالجة المسبقة للبيانات في R. سأستخدم مجموعة بيانات تحليل النوبات القلبية والتنبؤ المقدمة من Kaggle.

خطوات المعالجة المسبقة للبيانات

  1. قم باستيراد ملف البيانات المحدد واستكشف
  2. معالجة القيم المفقودة وإزالة التكرارات والملاحظات غير ذات الصلة
  3. إصلاح الأخطاء الهيكلية
  4. تصفية القيم المتطرفة غير المرغوب فيها
  5. مقاييس الاتجاه المركزي (حساب المتوسط ​​والوسيط والوضع والترددات)
  6. مقاييس التشتت (حساب التباين ، الانحراف المعياري ، المدى ، النطاق بين الشرائح الربعية ، معامل التباين)
  7. احسب معامل الارتباط ومخطط الارتباط
  8. تحقق من توزيع الميزات باستخدام الرسوم البيانية ومخطط الاحتمالية العادية
  9. تقسيم البيانات
  10. قم باستيراد ملف البيانات المحدد واستكشف

يمكنك العثور على مزيد من التفاصيل حول مجموعة البيانات هنا: https://www.kaggle.com/datasets/rashikrahmanpritom/heart-attack-analysis-prediction-dataset/

على عكس العديد من لغات البرمجة الأخرى ، يمكن استيراد مجموعات البيانات في شكل ملفات CSV و TXT مباشرة دون أي مكتبة في R.

2. التعامل مع القيم المفقودة وإزالة التكرارات والملاحظات غير ذات الصلة

في R ، يتم تمثيل القيم المفقودة بواسطة NA (غير متوفر).

نظرًا لعدم وجود قيم مفقودة ، لا يتم استخدام تقنيات القيمة المفقودة. في حالة العثور على قيم مفقودة ، إما إزالتها أو استبدالها بالمتوسط ​​أو التقريبية.

يمكن أن تلوث البيانات المكررة قابلية تفسير مجموعة البيانات وقد تقود أيضًا نماذج التعلم الآلي إلى تعلم أنماط غير موجودة في الواقع.

تم العثور على فهرس الصف المكرر الوحيد وإزالته من مجموعة البيانات.

3. إصلاح الأخطاء الهيكلية

نظرًا لإزالة القيم المفقودة والتكرارات الآن ، دعنا نتحقق مما إذا كان توزيع إخراج مجموعة البيانات wrt متوازنًا أم لا. يتم تصنيف مجموعة البيانات على أنها 0 و 1.

  • 0 = لا تحدث نوبة قلبية
  • 1 = حدوث نوبة قلبية

نظرًا لوجود عدد مماثل من الملاحظات لكلا الفئتين ، فإن مجموعة البيانات متوازنة بدرجة كافية.

4. تصفية القيم المتطرفة غير المرغوب فيها

القيم المتطرفة هي نقاط بيانات متطرفة لا تتطابق مع الاتجاهات العامة التي تظهر في نقاط أخرى من مجموعة البيانات. يمكن أن يكون لها تأثير حاسم على التفسيرات والنتائج التي تقدمها نماذج ML. من المهم ملاحظة أن مجرد ظهور القيم المتطرفة لا يعني أنه يجب إزالتها. يجب فقط إزالة القيم المتطرفة التي لا صلة لها بتحليل البيانات.

يمكن اكتشاف نقاط البيانات الخارجية في مجموعة البيانات بمساعدة Cook’s Distance وهو مقياس لقياس تأثير كل نقطة بيانات على النموذج (هنا ، يظهر الانحدار الخطي) الذي يتم فيه تغذية مجموعة البيانات. يمكن حساب مسافات Cook بسهولة في R باستخدام مكتبة olsrr التي يمكن تثبيتها من Tools -> Install Packages.

Note أن شروط معاملة نقاط البيانات على أنها قيم متطرفة هي شروط ذاتية. هنا ، لقد تعاملت مع نقاط البيانات التي تكون مسافات الطباخ الخاصة بها أكثر من خمسة أضعاف متوسط ​​مسافة كوك على أنها قيم متطرفة. هناك 9 نقاط من هذا القبيل ، وقد تمت تصفيتها من مجموعة البيانات.

5. مقاييس الاتجاه المركزي (المتوسط ​​والوسيط والوضع والترددات)

يمكن استخلاص المتوسط ​​والوسيط والوضع والحد الأدنى والحد الأقصى والربيع لكل إطار بيانات في مجموعة البيانات من ملخص مجموعة البيانات.

6- مقاييس التشتت (التباين ، الانحراف المعياري ، المدى ، النطاق بين الشرائح الربعية ، معامل التباين)

لقد استخدمت وظيفة sapply () ، والتي تأخذ قائمة أو متجه أو إطار بيانات كمدخلات وتعطي مخرجات كمتجه أو مصفوفة للحصول على قيم مقاييس التشتت.

7. حساب معامل الارتباط ومخطط الارتباط

معامل الارتباط هو رقم بين -1 و 1 يخبر القوة (مع الاتجاه) بين ميزات مجموعة البيانات. من المفيد اكتشاف العلاقة الخطية المتعددة التي تقتل الاستقلال بين ميزات مجموعة البيانات ويمكن أن تؤدي إلى تقديرات معلمات غير دقيقة بواسطة نماذج ML.

يساعد مخطط الارتباط في تصور معاملات الارتباط بين ميزات مجموعة البيانات. يتم رسمها في R باستخدام مكتبة corrplot ، والتي يمكن تثبيتها من Tools -> Install Packages.

لاحظ أن شدة اللون الأزرق تُظهر قوة العلاقة الخطية الموجبة ، بينما تُظهر شدة اللون الأحمر قوة العلاقة الخطية المتداخلة السلبية.

8. تحقق من توزيع الميزات باستخدام المدرج التكراري ومؤامرة الاحتمالية العادية

توضح الرسوم البيانية كيفية توزيع قيم كل معلم ، والتي يمكن أن تقدم رؤى مثيرة للاهتمام حول مجموعة البيانات. يخبرنا مخطط الاحتمال العادي عن مدى قرب توزيع الميزات من التوزيع الطبيعي. لقد استخدمت مكتبات ggplot2 و qqplotr لرسم مخططات NPP.

9. تقسيم البيانات

لقد استخدمت مكتبة caTools لتقسيم مجموعة البيانات إلى مجموعات تدريب واختبار بنسبة 80:20.

ستساعدك كل هذه التقنيات في الحصول على رؤى أفضل من البيانات وأيضًا لإعداد مجموعة البيانات الخاصة بك لإدخالها في نموذج التعلم الآلي. إذا كنت تعرف أي تقنيات أخرى ، شاركها في التعليقات للجميع!

شكرا للقراءة ، اتبعني للمزيد


نُشرت المعالجة المسبقة للبيانات في R Markdown في الأصل في Towards AI on Medium ، حيث يواصل الأشخاص المحادثة من خلال تسليط الضوء على هذه القصة والرد عليها.

تم النشر عبر نحو الذكاء الاصطناعي