الأخبار التكنولوجية والاستعراضات والنصائح!

ما هو استخراج البيانات؟

يتم إنشاء كمية كبيرة من البيانات كل ثانية ومن الضروري أن يكون لديك معرفة مختلفة أدوات استخراج البيانات والتي يمكن استخدامها للتعامل مع هذه البيانات الضخمة وتطبيق خوارزميات التنقيب عن البيانات وتصورات مثيرة للاهتمام في وقت قصير.

استخراج البيانات إنها مجموعة المنهجيات المستخدمة في تحليل البيانات من مختلف الأبعاد والمنظورات ، وإيجاد أنماط مخفية غير معروفة سابقًا ، وتصنيف وتجميع البيانات وتلخيص العلاقات المحددة.

على سبيل المثال ، يمكن أن يساعد استخراج البيانات الشركات في تحديد أفضل عملائها. يمكن للمؤسسات استخدام تقنيات استخراج البيانات لتحليل الشراء السابق لعميل معين والتنبؤ بما يمكن للعميل شراؤه في المستقبل. يمكنك أيضًا تسليط الضوء على عمليات الشراء التي تعد غير عادية بالنسبة للعميل وقد تشير إلى حدوث عمليات احتيال.

يمكن للشركات استخدامها للعثور على أوجه القصور في عمليات التصنيع أو عيوب المنتج المحتملة أو نقاط الضعف في سلسلة التوريد.

تاريخ استخراج البيانات

نشر مايكل سي لوفيل أحد المقالات الأولى التي استخدمت عبارة "استخراج البيانات" في عام 1983. في ذلك الوقت ، كان لدى لوفيل والعديد من الاقتصاديين الآخرين نظرة سلبية إلى حد ما على هذه الممارسة ، معتقدين أن الإحصاءات يمكن أن تؤدي إلى استنتاجات غير صحيحة عندما لا تكون على علم بمعرفة الموضوع.

ولكن في التسعينيات ، أصبحت فكرة استخراج القيمة من البيانات عن طريق تحديد الأنماط أكثر شيوعًا. بدأ مزودو قواعد البيانات ومستودعات البيانات باستخدام الكلمة الطنانة لتسويق برامجهم. وبدأت الشركات في إدراك الفوائد المحتملة لهذه الممارسة.

في عام 1996 ، قامت مجموعة من الشركات التي شملت Teradata و NCR بقيادة مشروع لتوحيد منهجيات استخراج البيانات وإضفاء الطابع الرسمي عليها. نتج عن عمله عملية الصناعة القياسية لتعدين البيانات (CRISP-DM). يقسم هذا المعيار المفتوح عملية استخراج البيانات إلى ست مراحل:

  1. فهم الأعمال
  2. فهم البيانات
  3. إعداد البيانات
  4. تصميم
  5. تقييم
  6. نشر

استمرت شركات مثل IBM في الترويج لنموذج CRISP-DM حتى يومنا هذا ، وفي عام 2015 ، أصدرت IBM إصدارًا محدثًا وسّع النموذج الأساسي.

في أوائل الألفينيات من القرن الماضي ، بدأت شركات الويب في رؤية قوة استخراج البيانات ، وبدأت هذه الممارسة بالفعل. في حين أن عبارة "التنقيب عن البيانات" قد تم حذفها من خلال الكلمات الطنانة الأخرى مثل "تحليل البيانات" و "البيانات الضخمة" و "التعلم الآلي" ، إلا أن العملية تظل جزءًا لا يتجزأ من ممارسات الأعمال. في الواقع ، من الإنصاف القول إن استخراج البيانات أصبح جزءًا من إدارة الأعمال الحديثة.

أنواع استخراج البيانات

يستخدم العلماء ومحللو البيانات العديد من تقنيات استخراج البيانات المختلفة لتحقيق أهدافهم. بعض من الأكثر شيوعا ما يلي:

  • التجمع أنه ينطوي على إيجاد مجموعات ذات خصائص مماثلة. على سبيل المثال ، غالبًا ما يستخدم المسوقون المجموعات لتحديد المجموعات والمجموعات الفرعية داخل الأسواق المستهدفة. التجميع مفيد عندما لا تعرف أوجه التشابه الموجودة في بياناتك.
  • تصنيف تصنيف العناصر (أو الأفراد) إلى فئات بناءً على نموذج تعلمته مسبقًا. غالبًا ما يأتي التصنيف بعد التجميع (على الرغم من أنه يمكنك أيضًا تدريب نظام لتصنيف البيانات استنادًا إلى الفئات المحددة من قبل العالم أو محلل البيانات). تحدد المجموعة المجموعات المحتملة في مجموعة بيانات موجودة ، ويضع التصنيف البيانات الجديدة في المجموعة المناسبة. تستخدم أنظمة رؤية الكمبيوتر أيضًا أنظمة تصنيف لتعريف الكائنات في الصور.
  • جمعية تحديد البيانات التي توجد عادة بالقرب من بعضها البعض. هذه هي التقنية التي تدفع معظم محركات التوصية ، مثل متى Amazon يقترح أنه إذا كنت قد اشتريت عنصرًا ، فقد يعجبك أيضًا عنصر آخر.
  • كشف الشذوذ ابحث عن البيانات التي لا تناسب النمط المعتاد. هذه التقنيات مفيدة للغاية للكشف عن الاحتيال.
  • تراجع إنها أداة إحصائية أكثر تقدمًا شائعة في التحليل التنبئي. يمكن أن يساعد مطوري الشبكات الاجتماعية وتطبيقات الهواتف المحمولة على زيادة المشاركة ، ويمكنه أيضًا المساعدة في التنبؤ بالمبيعات المستقبلية وتقليل المخاطر. يمكن أيضًا استخدام الانحدار والتصنيف معًا في نموذج شجرة مفيد في العديد من المواقف المختلفة.
  • التعدين النص تحليل عدد مرات استخدام الناس لبعض الكلمات. يمكن أن يكون مفيدًا لتحليل المشاعر أو الشخصية ، وكذلك لتحليل المنشورات في الشبكات الاجتماعية لأغراض التسويق أو للكشف عن التسريبات المحتملة لبيانات الموظف.
  • الملخص يضع مجموعة من البيانات بطريقة أكثر إحكاما وسهلة الفهم. على سبيل المثال ، يمكنك استخدام الملخص لإنشاء الرسوم البيانية أو حساب المتوسطات من مجموعة بيانات معينة. هذا هو واحد من أفضل وأشهر أشكال استخراج البيانات.

أدوات استخراج البيانات

لدى المنظمات مجموعة واسعة من أدوات استخراج البيانات الموجودة تحت تصرفهاالصورة الملكية والمفتوحة المصدر. تتضمن هذه الأدوات مستودعات البيانات ، وأدوات ELT ، وأدوات تنظيف البيانات ، ولوحات المعلومات ، والأدوات التحليلية ، وأدوات تحليل النصوص ، وأدوات ذكاء الأعمال وغيرها.