الأخبار التكنولوجية والاستعراضات والنصائح!

دمج متاجر الميزات في بنية ML. – نحو الذكاء الاصطناعي

ستساعدك المقالة التالية: دمج متاجر الميزات في بنية ML. – نحو الذكاء الاصطناعي

نُشر في الأصل على نحو AI ، الشركة الرائدة في العالم في مجال الذكاء الاصطناعي والأخبار التقنية والإعلام. إذا كنت تقوم ببناء منتج أو خدمة متعلقة بالذكاء الاصطناعي ، فنحن ندعوك للتفكير في أن تصبح راعيًا للذكاء الاصطناعي. في نحو الذكاء الاصطناعي ، نساعد في توسيع نطاق الشركات الناشئة في مجال الذكاء الاصطناعي والتكنولوجيا. دعنا نساعدك على إطلاق التكنولوجيا الخاصة بك للجماهير.

مقدمة:

وفقًا للمنتدى الاقتصادي العالمي ، في بداية عام 2020 ، بلغ عدد البايتات في العالم الرقمي 40 ضعف عدد النجوم المتاحة في الكون المرئي. هذا بالتأكيد ضخم ، لكن السؤال الحقيقي الذي يجب أن نطرحه هو ، هل يمكننا فهم هذه البيانات الوفيرة؟ يجب تنظيف البيانات وتحويلها وهندستها وتخزينها لفهمها.

خلال هذه العملية ، يجب توفير الكثير من الرعاية لتقليل التكرار. يجب أن يكون هناك تخزين مركزي على مستوى المؤسسة بحيث يكون لدى جميع الفرق فكرة عن الميزات الموجودة بالفعل. لذلك لا يضيعون الوقت في الميزات الهندسية المتوفرة بالفعل. يحظى متجر الميزات باعتراف كبير نظرًا لأنه تم اعتماده من قبل الشركات التي لديها بيانات وفيرة لحل مشاكل التكرار واللامركزية.

لماذا نطلب متجر الميزات؟

هندسة الميزات هي عملية اشتقاق ميزة جديدة بعد المعالجة المسبقة لكومة من البيانات الأولية. بالنسبة للهندسة ، فإننا نجمع البيانات ذات الصلة ، ونصمم خط الأنابيب ، ونحلل قيمته التجارية ، ونناقش التنسيق ، وما إلى ذلك. هذه الخطوات شاملة بحد ذاتها ، علاوة على ذلك ، هذه عملية تكرارية ، ونقوم بذلك عدة مرات حتى نحصل على نتائج مرضية. بناءً على ما إذا كانت بيانات مجمعة أو متدفقة ، يختلف إجراء هندسة الميزات والبنية. يلزم التخطيط والإدارة المناسبين لتخزين الميزات جنبًا إلى جنب مع البيانات الوصفية الضرورية.

سيكون للمنظمة الكبيرة فرق متعددة. سيقوم كل فريق بتوليد واستهلاك الكثير من البيانات. بدون موقع مركزي للوصول إلى هذه البيانات ، ستكون هناك فرصة كبيرة للتكرار. نظرًا لعدم وجود تعاون بين الفرق ، فقد يعملون على اشتقاق نفس الميزة وتخزين البيانات في مواقع مختلفة. هذا يضر بإنتاجية المنظمة ككل.

من وجهة نظر الجودة ، يجب تلبية احتياجات البيانات الخاصة بالمنظمة من خلال مصدر واحد للحقيقة. إذا لم تتعاون الفرق مع بعضها البعض ووضعت قواعد صارمة حول جودة البيانات ، فسيكون لكل فريق نسخته الخاصة من البيانات ولن يكون هناك مصدر واحد للحقيقة للمؤسسة ككل. سيكون هذا كارثي للغاية على المنظمة. هذه هي الأسباب الرئيسية لتضمين متجر الميزات في بنية ML.

ما هو متجر الميزات؟

ميزة Story Story هي مستودع مركزي للميزات للمؤسسة بأكملها. سيتم تنسيق البيانات الأولية وتحويلها وهندستها قبل إلحاقها بمتجر الميزات. سيتم اتباع معايير صارمة قبل إضافة القيم إلى متجر الميزات. ستعمل فرق معينة على إنشاء الميزات ويمكن للفرق الأخرى أن تستهلك الميزات. نظرًا لأنه مستودع مركزي ، سيتم حساب الميزات مرة واحدة واستخدامها عدة مرات. نظرًا لأن الميزات يتم إنشاؤها بواسطة خبراء الموضوع ، ستكون جودة البيانات عالية جدًا. نظرًا لأن تعيين إصدارات البيانات ممكّن في “قصص الميزات” ، فإنه يحصل تلقائيًا على جميع مزاياها.

لا توجد بنية ثابتة لمتجر الميزات. يعتمد ذلك على احتياجات البيانات والبنية التحتية للمؤسسة. يجب أن تكون متاجر الميزات موزعة ومتوفرة بدرجة عالية ولها زمن انتقال منخفض. يمكن أن يكون هناك العديد من المشاريع في متجر الميزات. سيكون لكل مشروع معرف كيان وقائمة بالميزات. سيتم استخدام معرف الكيان لتعريف الكيان بشكل فريد. يمكن أن يكون الكيان معرّف منتج أو معرّف مراجعة أو معرّف فيلم. يمكن لعلماء البيانات استخدام الميزات من Feature Store لتدريب النماذج واختبارها ويمكن استخدام ميزات معينة في خدمة النموذج مباشرةً.

مكونات متجر الميزات:

يتكون مخزن الميزات عادةً من السجل والمراقبة والتقديم والتخزين والتحول.

التسجيل– يُطلق على السجل أيضًا اسم مخزن البيانات الوصفية الذي يحتوي على معلومات مثل الميزات الموجودة في كل كيان. سيكون هذا مفيدًا في الحالات التي يحتاج فيها مطور من فريق مختلف إلى معلومات تتعلق بالميزات المتوفرة لكيان معين. استنادًا إلى استعلام معرف الكيان ، يتم إرجاع الميزات.

يراقب– المراقبة هي ميزة جديدة متوفرة في متجر الميزات. يمكن للشاشة رفع التنبيهات بناءً على فشل أو تدهور جودة البيانات. يمكن تكوين التنبيهات على البريد وهذا يساعد في استعادة البيانات وإدارتها في الوقت المناسب.

خدمة– هذا جزء من Feature Store الذي يخدم ميزات لأغراض التدريب والاستدلال. لأغراض التدريب عادةً ، يتم توفير حزم SDK للتفاعل مع متجر الميزات. للاستدلال ، تقدم متاجر الميزات كيانًا واحدًا بناءً على الطلب.

مرجع الصورة

تخزين– تحتوي متاجر الميزات على مساحة تخزين على الإنترنت وغير متصلة بالإنترنت. يحتوي التخزين في وضع عدم الاتصال على جميع البيانات التاريخية التي تم تحويلها إلى ميزات. يتم تخزينها في بحيرات البيانات ومستودعات البيانات. يمكن استخدام Snowflake و BigQuery للتخزين في وضع عدم الاتصال. يتكون التخزين عبر الإنترنت من بيانات حديثة جدًا. أنها تحتوي في الغالب على تدفق البيانات. يجب أن تتمتع طبقات التخزين عبر الإنترنت بزمن انتقال ضئيل للغاية. يمكن استخدام كافكا وريديس للتخزين عبر الإنترنت.

تحويل– يتم إنشاء ميزات نموذج التعلم الآلي من خلال خط أنابيب البيانات. يعمل متجر الميزات كمنسق لخطوط الأنابيب هذه. تتم إعادة حساب الميزات بناءً على فترة زمنية محددة ويمكن إعادة استخدام منطق خط أنابيب التحويل لهذا الغرض.

ابتلاع الميزات:

تتكون بنية متجر الميزات من آليات العرض والاستهلاك. الابتلاع هو عملية جمع البيانات الأولية وهندستها إلى الميزات المطلوبة وتخزينها في أحد حلول التخزين. هناك نوعان من الاستيعاب: معالجة الدُفعات والبث المباشر.

ابتلاع معالجة الدُفعات– تتم معالجة الدُفعات عند وصول جزء كبير من البيانات في الوقت المحدد. يمكن أن يكون التكرار شيئًا مثل مرة في اليوم ، أو مرتين في الساعة ، أو مرة واحدة في الأسبوع ، وما إلى ذلك. نظرًا لأن البيانات ستأتي بكميات كبيرة ، فسيتم تخزين البيانات مع أمثال Amazon S3 وقاعدة البيانات و HDFS ومستودع البيانات وبحيرات البيانات. يمكن استخدام Spark للتعامل مع البيانات المجمعة بسهولة وتخزين معرف الكيان والميزات في متجر الميزات.

تدفق الابتلاع– الجري هو بيانات في الوقت الحقيقي. ستأتي البيانات دون أي معلومات مسبقة. لذا سيكون كافكا مرشحًا مثاليًا لبث البث. سيتم تخزين البيانات كملفات سجل أو يمكننا الحصول عليها من خلال استدعاءات API.

استهلاك الميزات:

الاستهلاك هو عملية استهلاك الميزات المخزنة بطريقة فعالة. أنواع الاستهلاك هي تدريب نموذجي وخدمة نموذجية.

تدريب نموذجي– في هذه الحالة ، نختار فقط مجموعة فرعية من الميزات من إجمالي السكان ولكننا سنختار جميع الكيانات. قد نستهلك البيانات للتجريب أو الإنتاج بهذه الطريقة. لإجراء التجارب ، نختار Google Colab أو دفتر Jupyter ، وبالنسبة للمنتجات ، نستخدم Spark أو TensorFlow أو Pytorch.

خدمة النموذج– في هذه الحالة ، فإننا نستهلك ميزات من متجر الميزات باستخدام استدعاء API. سيتم إرسال الإخراج إلى تطبيق ويب أو جوال. سنقوم باستدعاء كيانات معينة فقط بناءً على معرف الكيان المستلم. الشرط الرئيسي لهذه الطريقة هو دعم زمن انتقال منخفض جدًا.

مزايا متجر الميزات:

تحسين التعاون– منذ متاجر الميزات ، تتركز جميع البيانات في المستودع. يحسن التعاون بين الفرق. يمكن إعادة استخدام الميزات من قبل فرق متعددة وهذا يساعد في تجنب التكرار إلى حد كبير.

ضمان جودة البيانات– نظرًا لأن الاستيعاب يتم بواسطة خبراء في الموضوع ، فهناك ضمان بأن البيانات ستكون عالية الجودة. سيساعد خبراء الموضوع المتعددين الذين يجتمعون معًا المنظمة على إنشاء مصدر واحد عالي الجودة للحقيقة.

التجريد– تجلب متاجر الميزات طبقة من التجريد للمستخدمين. يتم تجريد المعالجة المسبقة والتحول والهندسة تمامًا حتى يتمكن المستخدمون من التركيز فقط على الوظيفة التي يقومون بها.

خاتمة:

جعلت التطورات الأخيرة في بنية متجر الميزات المنظمات تدمجها في خط أنابيب MLOps. تُستخدم متاجر الميزات حاليًا في بيئة الإنتاج للتعامل مع مجموعات البيانات وخطوط أنابيب البيانات. نظرًا لطبيعتها المركزية ، تعمل متاجر الميزات على تحسين التعاون وتقليل التكرار.

مراجع:

  1. ما مقدار البيانات التي يتم إنشاؤها كل يوم؟ | المنتدى الاقتصادي العالمي (weforum.org)
  2. ما هو متجر الميزات؟ | تكتون
  3. (7009) تصميم نظام ML: متجر الميزات -YouTube
  4. ما هي مخازن الميزات ولماذا تعتبر ضرورية لتوسيع نطاق علم البيانات؟ | بواسطة Adi Hirschtein | نحو علم البيانات

تريد الاتصال؟

لينكد ان – بريثيفي رامالينجام | ينكدين

متوسطة – بريثيفي رامالينجام – متوسطة


دمج متاجر الميزات في بنية ML. نُشر في الأصل في Towards AI on Medium ، حيث يواصل الأشخاص المحادثة من خلال تسليط الضوء على هذه القصة والرد عليها.

تم النشر عبر نحو الذكاء الاصطناعي