▷Torcharrow: إطار عمل PyTorch لمعالجة البيانات الكبيرة المعتمدة على وحدة المعالجة المركزية ✅

ستساعدك المقالة التالية: Torcharrow: إطار عمل PyTorch لمعالجة البيانات الكبيرة المعتمدة على وحدة المعالجة المركزية

مع إصدار الإصدار الجديد من Pytorch 1.12 ، ابتكر Pytorch مكتبة DataFrame جديدة لتصور البيانات أو المعالجة المسبقة باسم Torcharrow. Torcharrow هي مكتبة Pytorch لمعالجة البيانات والتصور مع دعم معالجة البيانات الجدولية وهي أكثر ملاءمة لبيانات التعلم العميق. توصل Torcharrow إلى القدرة على معالجة البيانات بشكل أسرع عن طريق استخدام أقل لوحدة المعالجة. في هذه المقالة ، دعنا نحصل على لمحة موجزة عن أحدث مكتبة للمعالجة المسبقة لـ Pytorch 1.12 المسماة Torcharrow.

جدول المحتويات

نظرة عامة على Torcharrow
فوائد Torcharrow
معالجة البيانات باستخدام Torcharrow
ملخص

نظرة عامة على Torcharrow

يتم استخدام Pytorch ، وهو تعلم آلي مفتوح المصدر وإطار عمل للتعلم العميق يعتمد على مكتبة الشعلة ، في تطبيقات مختلفة مثل رؤية الكمبيوتر ومعالجة اللغة الطبيعية. ابتكرت PyTorch إصدارًا جديدًا من Pytorch 1.12 في 28 يونيو 2022. مع إصدار الإصدار الجديد ، أنشأت Pytorch واجهة برمجة تطبيقات جديدة لمكتبة معالجة بيانات أسرع وأكثر كفاءة باسم Torcharrow والتي لا تزال في المرحلة التجريبية مع إضافة المزيد من الميزات. Torcharrow هي مكتبة معالجة البيانات التي تهدف إلى التعامل مع البيانات ومعالجتها بأقل قدر من متطلبات الموارد ووزن أقل يتم فرضه على وحدة المعالجة المركزية.

تحقق من هنا

يتبع Torcharrow نفس التسلسل الهرمي وخصائص التشغيل مثل مكتبة Pandas مع قدرة مماثلة لمعالجة البيانات. يوفر Torcharrow في المرحلة التجريبية معالجة البيانات بجوانب مختلفة مثل إضافة البيانات ومعالجة البيانات والتحليل الإحصائي للبيانات جنبًا إلى جنب مع الاستعلام عن البيانات فيما يتعلق باستعلامات SQL. بمجرد إصدار الإصدار المستقر ، نأمل أن يتم دعم جميع خطوات المعالجة الضرورية بواسطة Torcharrow.

فوائد Torcharrow

تأتي مكتبة Torcharrow لمعالجة البيانات بمزايا مختلفة في معالجة البيانات ومعالجتها بكفاءة. هم:

يدعم Torcharrow الأبعاد المختلفة للبيانات مباشرة من البيانات العمودية الفردية إلى البيانات متعددة الأعمدة مثل dataframe.
يدعم Torcharrow أنواعًا مختلفة من البيانات مثل الأرقام والسلاسل والقوائم.
يهدف Torcharrow إلى دعم بيانات الشعلة المعقدة مع الحد الأدنى من الموارد وتشغيلها بشكل لا تشوبه شائبة مع الأجهزة التي تستخدم وحدة المعالجة المركزية فقط.
سهولة التكامل والتسجيل فيما يتعلق بـ Pytorch DataLoader و Datapipe.

نظرة عامة كاملة على معالجة البيانات باستخدام Torcharrow

دعونا أولاً نثبت مكتبة Torcharrow في بيئة العمل.

! pip install – المستخدم torcharrow استيراد torcharrow مثل ta import torcharrow.dtypes as dt import torcharrow.expression as exp import warnings.filterwarnings (‘ignore’)

الآن تم تثبيت مكتبة torcharrow وتحميلها في بيئة العمل. دعونا نبدأ في استكشاف البيانات أحادية الأبعاد التي يدعمها Torcharrow.

1-معالجة البيانات الأبعاد باستخدام Torcharrow

على غرار سلسلة الباندا ، يدعم Torcharrow معالجة البيانات أحادية الأبعاد باستخدام وظيفة العمود. لذلك دعونا نرى كيفية معالجة البيانات باستخدام وظيفة العمود في Torcharrow.

إنشاء عمود

col1 = ta.Column ([1,2,3,4,5,None]) col1

يجب إنشاء وظيفة العمود الخاصة بـ Torcharrow باستخدام مثيل Torcharrow ويعتبر عمود Torcharrow القيمة كقيم صحيح مما يقلل من شغل الذاكرة وتتمتع وظيفة Torcharrow Column بالقدرة على استرداد عدد القيم الخالية في الإخراج جنبًا إلى جنب مع الطول العمود ونوع البيانات لهذا العمود.

عمليات العمود المشتركة

في الإصدار التجريبي من Torcharrow ، هناك عمليتان تدعمهما وظائف العمود وهما كما هو موضح أدناه.

حساب الطول

يمكن حساب طول العمود باستخدام وظيفة “len” التي توفر معلومات عن عدد الصفوف في إطار البيانات.

col2 = ta.Column ([1.1,2.2,3.3,4.4,5.5,None]) len (col2) ## لاسترجاع طول معين

إذن يوجد هنا 6 صفوف في نوع بيانات العمود في Torcharrow.

حساب عدد القيم الخالية

يمكن حساب عدد القيم الفارغة في إطار البيانات باستخدام وظيفة null_count في مكتبة Torcharrow كما هو موضح أدناه.

col2 = ta.Column ([1.1,2.2,3.3,4.4,5.5,None]) col2.null_count ## للحصول على عدد القيم الخالية في العمود

هنا تعتبر “بلا” في نوع بيانات العمود قيمة خالية.

إنشاء عمود Torcharrow بطول سلسلة متغير

يدعم Torcharrow سلاسل متغيرة الطول يمكن تمريرها إلى نوع بيانات العمود.

str_col1 = عمود تا.[[‘Torcharrow’,’Column’]و[‘Torcharrow’,’is’,’still’,’in’,’beta-stage’]]) str_col1

تعتبر السلاسل التي تم تمريرها إلى نوع بيانات العمود ، بشكل افتراضي ، على أنها أنواع بيانات قائمة. يمكن أيضًا استرداد نوع السلسلة ذات الطول المتغير التي تم إنشاؤها باستخدام وظيفة الكتابة.

اكتب (str_col1)

إلحاق قيمة واحدة بإطار بيانات العمود

يمكن إجراء إضافة قيمة جديدة باستخدام وظيفة إلحاق إطار بيانات العمود في Torcharrow حيث يمكن إلحاق كل من القيم الفردية والقيم المتعددة في نفس الوقت.

str_col1 = عمود تا.[[‘Torcharrow’,’Column’]و[‘Torcharrow’,’is’,’still’,’in’,’beta-stage’]])

لذلك بالنسبة لنوع بيانات العمود الذي تم إنشاؤه أعلاه ، دعنا أولاً نرى كيفية إلحاق قيمة واحدة.

str_col1 = str_col1.append ([[‘Torcharrow’,’is’,’faster’,’and’,’efficient’]]) str_col1

إلحاق قيم متعددة بـ Column Dataframe

بطريقة مماثلة ، يمكن إلحاق قيم متعددة باستخدام مثيلات قائمة متنوعة في وظيفة الإلحاق الفردي كما هو موضح أدناه.

str_col1 = str_col1.append ([[‘My’,’name’,’is’,’ABC’]و[‘I’,’reside’,’at’,’XYZ’]]) str_col1

العمل مع Torcharrow Dataframe

تشبه إطارات بيانات Torcharrow إطار بيانات pandas ولكن نظرًا لأن Torcharrow لا يزال في المرحلة التجريبية ولا يزال إطار بيانات Torcharrow غير قادر على قراءة البيانات بتنسيقات مختلفة مثل ملفات CSV والنصوص وملفات HTML. لذلك دعونا نرى ما يمكن القيام به من جميع عمليات المعالجة باستخدام المرحلة التجريبية من إطار البيانات torcharrow.

إنشاء إطار بيانات Torcharrow

يمكن إنشاء إطار بيانات Torcharrow باستخدام الوظيفة المضمنة في Torcharrow كما هو موضح أدناه.

df = ta.DataFrame ({“Col1”: list (range (10،10 + 10))، “Col2”: list (reverse (range (20،20 + 10)))، “Col3”: list (range ( 30،30 + 10))}) مدافع

استرجاع أعمدة إطار البيانات Torcharrow

يمكن استرداد أعمدة إطار البيانات Torcharrow باستخدام وظيفة الأعمدة.

أعمدة df

استرجاع البيانات من إطار البيانات

يسهل إطار بيانات Torcharrow وظيفة الرأس والذيل حيث يمكن استرداد المدخلات القليلة الأولى والأخيرة من إطار البيانات وفقًا لذلك.

df.head (3) ## استرجاع أول 3 إدخالات من إطار بيانات torcharrow

df.tail (3) ## استرجاع آخر 3 إدخالات من إطار بيانات torcharrow

لذلك باستخدام وظيفة الرأس والذيل ، يمكن استرداد المدخلات القليلة الأولى والأخيرة من إطار البيانات.

إضافة عمود جديد إلى إطار البيانات Torcharrow

على غرار وحدة Pandas ، يمكن إضافة عمود جديد إلى إطار بيانات Torcharrow حيث سيتم تحديد اسم العمود الجديد المراد إضافته جنبًا إلى جنب مع القيم المراد إضافتها.

مدافع[‘Col4’]= ta.Column (قائمة (النطاق (41،41 + 10))) df

هنا يمكننا أن نرى أنه تتم إضافة عمود جديد إلى إطار البيانات الأصلي

إضافة صفوف إلى إطار البيانات Torcharrow

يمكن إضافة صفوف إلى إطار بيانات Torcharrow باستخدام وظيفة الإلحاق كما هو موضح أدناه.

df = df.append ([(10,100,101,102),(11,110,111,112)]) مدافع

معالجة قيم Dataframe

يمكن معالجة قيم إطار البيانات باستخدام أي من العوامل الحسابية أو أي وظائف. دعونا نرى كيفية معالجة قيمة إطار البيانات باستخدام عملية الجمع.

مدافع[‘Col1’]= مدافع[‘Col1’]+50 df

هنا يمكننا أن نرى أنه تتم إضافة كل قيمة من قيم Column1 50.

عمليات الاختيار

يدعم Torcharrow كلاً من التحديدات المستندة إلى السلسلة والأرقام الصحيحة جنبًا إلى جنب مع التقطيع. دعونا نرى كيف يمكن استخدام Torcharrow لعمليات الاختيار المختلفة.

سلسلة على أساس الاختيار

يجب ذكر اسم العمود المطلوب بين قوسين مربعين للاختيار المستند إلى السلسلة.

مدافع[‘Col1’]

التقطيع: اختيار قائم على سلسلة

بطريقة مماثلة من خلال تقطيع الأعمدة المطلوبة يمكن استرجاعها.

مدافع[‘Col1′:’Col3’]

الاختيار القائم على عدد صحيح

بالنسبة للاختيار المعتمد على عدد صحيح ، يجب تحديد الصفوف المطلوبة للاسترجاع.

مدافع[1]

التقطيع: اختيار قائم على عدد صحيح

يمكن تحديد الصفوف المطلوبة بين قوسين مربعين للاسترجاع حيث ستكون القيمة الأخيرة حصرية.

مدافع[1:5]

الاختيار على أساس الشرط

بالنسبة للتحديد المستند إلى الشرط ، يجب تحديد العمود المطلوب للتحقق مع الشرط للتحقق من الصحة والذي سيعيد ناتجًا منطقيًا.

مدافع[‘Col1’]> 65 ## تُرجع ناتجًا منطقيًا

إذا كان لابد من استرداد قيم الشرط ، فيجب استخدام كائن dataframe مع الشرط.

مدافع[df[‘Col1’]> 65]## يتم استرجاع قيم Dataframe للشرط المحدد

معالجة القيم المفقودة

باستخدام إطار بيانات Torcharrow ، يمكن احتساب القيم المفقودة بالقيمة المطلوبة أو يمكن إسقاط القيمة المفقودة.

دعونا نرى كيف ننسب أي قيمة مفقودة بالقيمة المطلوبة.

s = ta.Column ([1,2,3,None,5]) s = s.fill_null (4) ق

بطريقة مماثلة ، يمكن إزالة الصف بأكمله بالقيمة المفقودة.

s.drop_null ()

عمليات تحويل الحالة

يمكن تحويل السلسلة بأكملها إلى أحرف كبيرة باستخدام الوظيفة العلوية.

str_col = ta.Column ([‘Welcome to Torcharrow’,’Today is a beautiful day’]) str_col.str.upper ()

يمكن أيضًا تحويل نفس السلسلة إلى أحرف صغيرة باستخدام الوظيفة السفلية.

str_col.str.lower ()

استبدال الأحرف

يمكن استبدال أحرف السلسلة في مكتبة Torcharrow باستخدام وظيفة الاستبدال.

str_col.str.replace (“W”، “A”)

تقسيم الشخصيات

يمكن تقسيم أحرف سلسلة ضخمة إلى أحرف سلسلة أصغر باستخدام وظيفة التقسيم.

Split_str = str_col.str.split (sep = ”) split_str

استخدام إحدى الوظائف التي يحمل في ثناياه عوامل

دعونا نستخدم وظيفة التصغير المضمنة التي يدعمها Torcharrow لتقليل تسلسل الأرقام إلى قيمة واحدة.

عامل الاستيراد ta.Column ([5,6,7,8]). تقليل (عامل التشغيل. mul)

الاستعلام عن إطار بيانات Torcharrow مشابه لاستعلام SQL

لنقم بإنشاء إطار بيانات Torcharrow والاستعلام عن إطار البيانات باستخدام جملة where.

sel_df = ta.DataFrame ({“أ”: [‘a’, ‘b’, ‘a’, ‘b’]،’ب’: [1, 2, 3, 4]، “ج”: [10,11,12,13]}) sel_df.where (sel_df[‘C’]> 11)

ملخص

Torcharrow هي واحدة من مكتبات المرحلة التجريبية لإصدار Pytorch 1.12 حيث يتم توفير بعض المعالجة المطلوبة مثل استرداد البيانات وإضافة البيانات ومعالجة البيانات فيما يتعلق بالنهج القائم على Python. يتم توفير استعلام SQL الأساسي أيضًا في المرحلة التجريبية. تم تصميم Torcharrow ليكون أكثر كفاءة في استخدام الذاكرة ويركز على معالجة البيانات الضخمة في وحدة المعالجة المركزية. لذلك من المتوقع أن يدعم الإصدار المستقر للمكتبة قراءة البيانات بتنسيقات مختلفة ، وإضافة البيانات ، والمعالجة بطرق مختلفة ، وأيضًا دعم عبارات SQL المختلفة.

مراجع

Torcharrow: إطار عمل PyTorch لمعالجة البيانات الكبيرة المعتمدة على وحدة المعالجة المركزية