الأخبار التكنولوجية والاستعراضات والنصائح!

كيف تقوم بمعالجة البيانات المشابهة لـ R باستخدام Pandas؟

ستساعدك المقالة التالية: كيف تقوم بمعالجة البيانات المشابهة لـ R باستخدام Pandas؟

تلعب R و Python دورًا مهمًا في معالجة البيانات ومعالجتها. يجد العديد من المبتدئين صعوبة في التحول من Python إلى R أو العكس في مثل هذه المتطلبات. لكن يجب فهم مدى شيوع كلا النهجين. هناك العديد من مهام معالجة البيانات التي يتم إجراؤها في R والتي يمكن إجراؤها أيضًا باستخدام Pandas في Python. في هذه المقالة ، سنناقش مقارنة بين معالجة البيانات باستخدام R و Pandas بناءً على بعض الوظائف والميزات المهمة. سيساعد هذا المبتدئين على فهم الاختلافات ويساعدهم أيضًا على التبديل بينها. النقاط الرئيسية التي سيتم مناقشتها في المقالة مذكورة أدناه.

جدول المحتويات

  1. معلومات عن Pandas and R.
  2. مقارنة عمليات البيانات
  3. R مقابل Pandas لمعالجة البيانات

معلومات عن Pandas and R.

دعونا نحصل على مقدمة موجزة لكل من R و Pandas.

لغة البرمجة R

يمكننا التفكير في R على أنها تطبيق للغة S وهي لغة وبيئة مصممة خصيصًا للتحليل الإحصائي والرسوم البيانية للبيانات. باستخدام لغة R ، يمكننا استخدام مجموعة متنوعة من تقنيات التحليل الإحصائي مثل النمذجة الخطية أو غير الخطية ، والاختبار ، والتجميع ، والتصنيف ، وما إلى ذلك ، توفر هذه اللغة أيضًا ميزات مختلفة يمكننا من خلالها أيضًا إجراء تحليل رسومي. باستخدام لغة R ، يمكننا إنتاج مؤامرات تفاعلية للغاية لأي بيانات.

في هذه المقالة ، سنناقش أدوات أو حزمة لغة R التي يمكن استخدامها لمعالجة البيانات.

حول الباندا

Pandas هي مكتبة في Python للعديد من المهام المتعلقة بالبيانات مثل معالجة البيانات وتحويلها. نستخدم البيانات مع الباندا التي تكون في شكل جداول. من خلال هذه المهام ، يمكننا أيضًا استخدام Pandas لتخزين البيانات باستخدام Pandasql. يمكن استخدام الوظيفة ضمن Pandas لفحص البيانات عندما نقوم بنقل البيانات داخل أو خارج العملية.

من خلال النظر إلى النقاط المذكورة أعلاه ، يمكننا القول أن Pandas عبارة عن مجموعة أدوات أو مكتبة في لغة python والتحدث عن R إنها لغة في حد ذاتها وتمتلك العديد من مجموعات الأدوات تحتها لأداء المهام المتعلقة بالبيانات. في هذه المقالة ، سنقوم بمقارنة لغة R ومكتبة Pandas بناءً على المهام المتعلقة بالبيانات.

لنبدأ المقارنة.

مقارنة عمليات البيانات

بصفتنا ممارسًا لعلوم البيانات ، فنحن مطالبون باستخدام لغة Python و R بشكل منتظم لأداء المهام المتعلقة بالبيانات. باستخدام هذا القسم من المقالة ، سنتعرف على كيفية إجراء مجموعات أدوات العمليات المختلفة باستخدام لغة R ومكتبة Pandas بلغة Python.

في R ، نستخدم بشكل أساسي مجموعة أدوات dplyr للاستعلام والتصفية وعمليات أخذ العينات. يعرض الجدول أدناه الطرق المختلفة التي نستخدمها للعمليات البسيطة الموضحة أعلاه باستخدام مجموعة أدوات dplyr و Pandas.

رالباندا
قاتمة (بيانات)البيانات
رأس (بيانات)data.head ()
شريحة (بيانات ، 1:10)data.iloc[:9]
عامل التصفية (البيانات ، col1 == 1 ، col2 == 1)data.query (‘col1 == 1 & col2 == 1’)
بيانات[data$col1 == 1 & data$col2 == 1,]بيانات[(data.col1 == 1) & (data.col2 == 1)]
حدد (البيانات ، col1 ، col2)بيانات[[‘col1’, ‘col2’]]
حدد (البيانات ، col1: col3)data.loc[:, ‘col1′:’col3’]
مميز (حدد (بيانات ، col1))بيانات[[‘col1’]].drop_duplicates ()
حدد (البيانات ، – (col1: col3))data.drop (cols_to_drop ، المحور = 1)
مميز (حدد (بيانات ، col1 ، col2))بيانات[[‘col1’, ‘col2’]].drop_duplicates ()
sample_n (بيانات ، 10)data.sample (ن = 10)
sample_frac (بيانات ، 0.01)data.sample (frac = 0.01)

دعونا نرى الفرق بين R (dplyr) و Pandas بناءً على عملية الفرز.

رالباندا
ترتيب (البيانات ، col1 ، col2)data.sort_values ​​([‘col1’, ‘col2’])
ترتيب (data، desc (col1))data.sort_values ​​(‘col1’ ، تصاعدي = خطأ)

دعونا نرى الفرق بين R (dplyr) و Pandas بناءً على عملية التحويل.

رالباندا
حدد (البيانات ، col_one = col1)data.rename (الأعمدة = {‘col1’: ‘col_one’})[‘col_one’]
طفرة (بيانات ، ج = أب)data.assign (c = data[‘a’]-بيانات[‘b’])
إعادة تسمية (البيانات ، col_one = col1)data.rename (الأعمدة = {‘col1’: ‘col_one’})

دعونا نرى الفرق بين R (dplyr) و Pandas بناءً على عملية التجميع والتلخيص.

رالباندا
ملخص (بيانات)data.describe ()
gdata <- group_by (البيانات ، col1)gdata = data.groupby (‘col1’)
تلخيص (gdata، avg = متوسط ​​(col1، na.rm = TRUE))data.groupby (‘col1’). agg ({‘col1’: ‘mean’})
تلخيص (gdata، total = sum (col1))data.groupby (‘col1’). sum ()

التقطيع

يمكننا إجراء عمليات تشريح مثل تحديد العمود باستخدام الوظيفة c () في R. في لغة python ، يمكننا القيام بذلك باستخدام Pandas. على سبيل المثال ، يمكن استخدام الرموز أدناه في R لاختيار الأعمدة والوصول إليها باستخدام اسم العمود أو حسب الموقع في عدد صحيح.

استخدام اسم العمود

البيانات <- data.frame (a = rnorm (5)، b = rnorm (5)، c = rnorm (5)، d = rnorm (5)، e = rnorm (5)) data[, c("a", "c", "e")]

باستخدام موقع صحيح

البيانات <- data.frame (matrix (rnorm (1000)، ncol = 100)) data[, c(1:10, 25:30, 40, 50:100)]

في Pandas ، يمكننا القيام بنفس العملية باستخدام سطور الرموز التالية.

استيراد الباندا كـ pd استيراد numpy كـ np datacolumns = list (“abc”) data = pd.DataFrame (np.random.randn (5، 3)، عمود = أعمدة) البيانات

انتاج:

استخدام اسم العمود

بيانات[[“a”, “c”]]

انتاج:

باستخدام الموقع

data.loc[:, [“a”, “c”]]

انتاج:

تجميع

باستخدام لغة R ، نقوم بالتجميع حسب gata لعمل مجموعات فرعية وحساب متوسط ​​كل مجموعة فرعية باستخدام وظائف by1 و by2 على النحو التالي:

البيانات <- data.frame (by1 = c ("abc"، "bdc"، 1، 2، "abc"، "bcd"، 1، 2، "rfg"، 1، "abc"، 12)، by2 = c ("bac"، "cbd"، 99،95، "bac"، "xyz"، 95،99، "abc"، 99، "abc"، "abc") v1 = c (1،3،5، 7،8،3،5، NA، 4،5،7،9)، v2 = c (11،33،55،77،88،33،55، NA، 44،55،77،99)) المجموع ( س = البيانات[, c("v1", "v2")]، حسب = list (mydata2 $ by1، mydata2 $ by2)، FUN = متوسط)

باستخدام Pandas يمكننا إجراء هذه العملية بالطريقة التالية:

data = pd.DataFrame ({“by1”: [“abc”, “bdc”, 1, 2, “abc”, “bcd”, 1, 2, “rfg”, 1, ‘abc’, 12]، “by2”: [“bac”,”cbd”,99,95,”bac”,”xyz”,95,99,”abc”,99,”abc”,’abc’,]، “v1”: [1, 3, 5, 7, 8, 3, 5, np.nan, 4, 5, 7, 9]، “v2”: [11, 33, 55, 77, 88, 33, 55, np.nan, 44, 55, 77, 99]، } ) بيانات

انتاج:

g = data.groupby ([“by1”, “by2”]) ز[[“v1”, “v2”]].يقصد()

انتاج:

وظيفة المطابقة

في لغة R ، يمكننا تحديد البيانات باستخدام الوظيفة٪ ln٪ التي يمكن تحديدها باستخدام تطابق الوحدة النمطية بالطرق التالية:

<- 0: 9 s٪ في٪ c (4،6)

باستخدام Pandas يمكننا القيام بذلك باستخدام وظيفة isin () بالطرق التالية:

s = pd.Series (np.arange (10) ، dtype = np.float32) s.isin ([4, 6])

انتاج:

وظيفة الاستعلام

في لغة R ، نحن مطالبون باستخدام وظيفة المجموعة الفرعية لإجراء استعلامات شرطية مع مجموعة البيانات. الكود أدناه هو مثال على هذه الوظيفة.

البيانات <- data.frame (a = rnorm (15)، b = rnorm (15)) subset (data، a> = b) data[data$a >= data$b,]

حيث نقوم باستخراج الصفوف حيث تكون قيمة العمود أ أصغر وتساوي العمود ب.

باستخدام Pandas يمكننا تنفيذ هذه العملية باستخدام وظيفة الاستعلام.

data = pd.DataFrame ({“a”: np.random.randn (15)، “b”: np.random.randn (15)}) data.query (“a> = b”)

انتاج:

R مقابل Pandas لمعالجة البيانات

باستخدام النقاط المذكورة أعلاه ، ناقشنا كيف يمكننا إجراء تحليلات البيانات المختلفة باستخدام Pandas في Python ومجموعات أدوات R. وجدنا أنه في R تنتشر الحزم حول اللغة ونحن مطالبون بتثبيتها بشكل منفصل في أجهزتنا المحلية. عندما نستخدم Pandas لأغراض مماثلة ، يمكننا الحصول على جميع الوظائف بمعنى مُدار أو يمكننا القول إن هذه الوظائف موجودة في مكان واحد ، ولا نحتاج إلى البحث عن الأدوات الأخرى. الشيء الوحيد الذي تعتبره لغة R جيدة لتحليلات البيانات هو سرعة R وواجهتها التي تكون أكثر سهولة في الاستخدام من Pandas. بالنسبة للغة R ، يمكننا القول أنها أقل تعقيدًا من لغة الثعبان. كل من R و Pandas هم الأفضل في أماكنهم.

الكلمات الأخيرة

هنا في هذه المقالة ، ناقشنا المقارنة بين R و Pandas. في الختام ، يمكننا القول أن R هي لغة برمجة بينما Pandas هي مكتبة. باستخدام حزم R ، يمكننا إجراء عمليات مختلفة حيث تساعدنا Pandas في إجراء عمليات مختلفة. سيساعد هذا البرنامج التعليمي المبتدئين على فهم الفرق بين الاثنين ويساعد أيضًا في الهجرة بسهولة.

مراجع:

Table of Contents