ستساعدك المقالة التالية: فرانك ليو ، مدير العمليات في Zilliz – سلسلة مقابلات
فرانك ليو هو مدير العمليات في زيليز، المزود الرائد لقاعدة بيانات المتجهات وتقنيات الذكاء الاصطناعي. هم أيضًا المهندسين والعلماء الذين أنشأوا LF AI Milvus® ، قاعدة بيانات المتجهات مفتوحة المصدر الأكثر شهرة في العالم.
ما الذي جذبك في البداية إلى التعلم الآلي؟
كان تعرضي الأول لقوة ML / AI كطالب جامعي في جامعة ستانفورد ، على الرغم من كونه بعيدًا قليلاً عن تخصصي (الهندسة الكهربائية). لقد انجذبت في البداية إلى EE كمجال لأن القدرة على تقطير الأنظمة الكهربائية والفيزيائية المعقدة إلى تقديرات رياضية شعرت بأنها قوية جدًا بالنسبة لي ، وشعرت الإحصائيات والتعلم الآلي بنفس الشيء. انتهى بي الأمر بأخذ المزيد من دروس الرؤية الحاسوبية والتعلم الآلي خلال مدرسة الدراسات العليا ، وانتهى بي الأمر بكتابة رسالة الماجستير الخاصة بي حول استخدام ML لتسجيل الجمال الجمالي للصور. أدى كل هذا إلى وظيفتي الأولى في فريق Computer Vision & Machine Learning في Yahoo ، حيث كنت في دور البحث الهجين وتطوير البرامج. كنا ما زلنا في فترة ما قبل المحولات AlexNet و VGG في ذلك الوقت ، وكانت رؤية مجال كامل والصناعة تتحرك بسرعة كبيرة ، من إعداد البيانات إلى تدريب النموذج المتوازي على نطاق واسع لإنتاج النموذج ، أمرًا مذهلاً. من نواح كثيرة ، من السخف استخدام عبارة “في ذلك الوقت” للإشارة إلى شيء حدث قبل أقل من 10 سنوات ، ولكن هذا هو التقدم الذي تم إحرازه في هذا المجال.
بعد Yahoo ، عملت كمدير تنفيذي لشركة ناشئة شاركت في تأسيسها ، حيث استفدنا من ML من أجل الترجمة الداخلية. هناك ، كان علينا تحسين النماذج المتسلسلة للميكروكونترولر الصغيرة جدًا – وهو تحد هندسي مختلف تمامًا ولكنه مع ذلك مرتبط بنماذج LLM الضخمة ونماذج الانتشار اليوم. قمنا أيضًا ببناء أجهزة ولوحات معلومات للتصور والتطبيقات السحابية الأصلية البسيطة ، لكن الذكاء الاصطناعي / تعلم الآلة كان دائمًا مكونًا أساسيًا للعمل الذي كنا نقوم به.
على الرغم من أنني كنت في ML أو بجوارها لمدة 7 أو 8 سنوات حتى الآن ، ما زلت أحافظ على الكثير من الحب لتصميم الدوائر وتصميم المنطق الرقمي. إن امتلاك خلفية في الهندسة الكهربائية هو ، من نواح كثيرة ، مفيد بشكل لا يصدق لكثير من العمل الذي أشارك فيه هذه الأيام أيضًا. تساعد الكثير من المفاهيم المهمة في التصميم الرقمي مثل الذاكرة الافتراضية والتنبؤ بالفروع والتنفيذ المتزامن في HDL على توفير عرض متكامل للعديد من أنظمة التعلم الآلي والأنظمة الموزعة اليوم. بينما أفهم جاذبية علوم الكمبيوتر ، آمل أن أرى عودة ظهور في مجالات الهندسة التقليدية – EE ، MechE ، ChemE ، إلخ … – في غضون العامين المقبلين.
للقراء الذين ليسوا على دراية بالمصطلح ، ما هي البيانات غير المهيكلة؟
تشير البيانات غير المهيكلة إلى البيانات “المعقدة” ، وهي في الأساس بيانات لا يمكن تخزينها بتنسيق محدد مسبقًا أو ملاءمتها لنموذج بيانات موجود. للمقارنة ، تشير البيانات المنظمة إلى أي نوع من البيانات التي لها بنية محددة مسبقًا – البيانات الرقمية ، والسلاسل ، والجداول ، والكائنات ، ومخازن المفاتيح / القيمة كلها أمثلة على البيانات المنظمة.
للمساعدة في فهم ماهية البيانات غير المهيكلة حقًا ولماذا يصعب تقليديًا معالجة هذا النوع من البيانات حسابيًا ، فإنه يساعد على مقارنتها بالبيانات المنظمة. في أبسط العبارات ، يمكن تخزين البيانات المهيكلة التقليدية عبر نموذج علائقي. خذ ، على سبيل المثال ، قاعدة بيانات علائقية مع جدول لتخزين معلومات الكتاب: يمكن أن يمثل كل صف داخل الجدول كتابًا معينًا مفهرسًا برقم ISBN ، بينما تشير الأعمدة إلى فئة المعلومات المقابلة ، مثل العنوان والمؤلف وتاريخ النشر ، هكذا وهكذا دواليك. في الوقت الحاضر ، هناك نماذج بيانات أكثر مرونة – مخازن الأعمدة العريضة ، وقواعد بيانات الكائنات ، وقواعد بيانات الرسم البياني ، وما إلى ذلك. لكن الفكرة العامة لا تزال كما هي: تهدف قواعد البيانات هذه إلى تخزين البيانات التي تتناسب مع قالب بيانات معين أو نموذج بيانات.
من ناحية أخرى ، يمكن اعتبار البيانات غير المهيكلة على أنها أساسًا فقاعة عشوائية زائفة من البيانات الثنائية. يمكن أن يمثل أي شيء ، يكون كبيرًا أو صغيرًا بشكل تعسفي ، ويمكن تحويله وقراءته بإحدى الطرق المختلفة التي لا تعد ولا تحصى. هذا يجعل من المستحيل التوافق مع أي نموذج بيانات ، ناهيك عن جدول في قاعدة بيانات علائقية.
ما هي بعض الأمثلة على هذا النوع من البيانات؟
تعد البيانات التي تم إنشاؤها بواسطة الإنسان – الصور والفيديو والصوت واللغة الطبيعية وما إلى ذلك – أمثلة رائعة على البيانات غير المنظمة. ولكن هناك أيضًا مجموعة متنوعة من الأمثلة الأقل دنيوية للبيانات غير المهيكلة. تعد ملفات تعريف المستخدمين ، وهياكل البروتين ، وتسلسل الجينوم ، وحتى الكود الذي يمكن قراءته من قبل الإنسان أمثلة رائعة على البيانات غير المنظمة. السبب الرئيسي وراء صعوبة إدارة البيانات غير المهيكلة تقليديًا هو أن البيانات غير المهيكلة يمكن أن تتخذ أي شكل ويمكن أن تتطلب أوقات تشغيل مختلفة إلى حد كبير للمعالجة.
باستخدام الصور كمثال ، يمكن أن تحتوي صورتان لنفس المشهد على قيم بكسل مختلفة إلى حد كبير ، لكن كلاهما لهما محتوى إجمالي متشابه. اللغة الطبيعية هي مثال آخر على البيانات غير المهيكلة التي أحب الإشارة إليها. ترتبط العبارتان “الهندسة الكهربائية” و “علوم الكمبيوتر” ارتباطًا وثيقًا للغاية – لدرجة أن مباني EE و CS في ستانفورد متجاورتان – ولكن بدون طريقة لتشفير المعنى الدلالي وراء هاتين العبارتين ، قد أعتقد بسذاجة أن “علوم الكمبيوتر” و “العلوم الاجتماعية” أكثر ارتباطًا.
ما هي قاعدة بيانات المتجه؟
لفهم قاعدة بيانات المتجه ، من المفيد أولاً فهم ماهية التضمين. سأصل إلى هذه اللحظة ، لكن النسخة القصيرة هي أن التضمين عبارة عن متجه عالي الأبعاد يمكن أن يمثل دلالات البيانات غير المنظمة. بشكل عام ، من المحتمل جدًا أن تتوافق حالتان للزفاف قريبتان من بعضهما البعض من حيث المسافة مع بيانات إدخال متشابهة لغويًا. مع ML الحديث ، لدينا القدرة على ترميز وتحويل مجموعة متنوعة من أنواع مختلفة من البيانات غير المهيكلة – الصور والنصوص ، على سبيل المثال – إلى متجهات تضمين قوية لغويًا.
من منظور المؤسسة ، تصبح البيانات غير المهيكلة صعبة بشكل لا يصدق بمجرد أن يتجاوز المبلغ حدًا معينًا. هذا هو المكان الذي توجد فيه قاعدة بيانات متجه مثل سحابة زيليز تأتي قاعدة بيانات المتجهات مصممة خصيصًا لتخزين وفهرسة والبحث عبر كميات هائلة من البيانات غير المهيكلة من خلال الاستفادة من عمليات التضمين كتمثيل أساسي. عادةً ما يتم البحث عبر قاعدة بيانات متجه باستخدام متجهات الاستعلام ، وتكون نتيجة الاستعلام هي النتائج الأكثر تشابهًا N بناءً على المسافة.
تحتوي أفضل قواعد بيانات المتجهات على العديد من ميزات قابلية الاستخدام لقواعد البيانات العلائقية التقليدية: القياس الأفقي والتخزين المؤقت والنسخ المتماثل وتجاوز الفشل وتنفيذ الاستعلام ليست سوى بعض الميزات العديدة التي يجب أن تنفذها قاعدة بيانات المتجه الحقيقية. بصفتنا مُحددًا للفئة ، فقد كنا نشيطين في الدوائر الأكاديمية أيضًا ، حيث نشرنا أبحاثًا في سيغمود 2021 و فيلدب 2022، أهم مؤتمرين لقاعدة البيانات موجودان اليوم.
هل يمكنك مناقشة ما هو التضمين؟
بشكل عام ، يعتبر التضمين متجهًا عالي الأبعاد يأتي من تنشيط طبقة وسيطة في شبكة عصبية متعددة الطبقات. يتم تدريب العديد من الشبكات العصبية على إخراج الزخارف بأنفسهم وتستخدم بعض التطبيقات متجهات متسلسلة من طبقات وسيطة متعددة مثل التضمين ، لكنني لن أتعمق كثيرًا في أيٍّ منهما في الوقت الحالي. هناك طريقة أخرى أقل شيوعًا ولكنها لا تقل أهمية لإنشاء حفلات الزفاف وهي من خلال الميزات المصنوعة يدويًا. بدلاً من امتلاك نموذج ML يتعلم تلقائيًا التمثيلات الصحيحة لبيانات الإدخال ، يمكن أن تعمل هندسة الميزات القديمة الجيدة مع العديد من التطبيقات أيضًا. بغض النظر عن الطريقة الأساسية ، فإن عمليات التضمين للكائنات المتشابهة لغويًا قريبة من بعضها البعض من حيث المسافة ، وهذه الخاصية هي التي تمد قواعد بيانات المتجه.
ما هي بعض حالات الاستخدام الأكثر شيوعًا لهذه التقنية؟
تعد قواعد بيانات المتجهات رائعة لأي تطبيق يتطلب شكلاً من أشكال البحث الدلالي – تعد توصيات المنتج ، وتحليل الفيديو ، والبحث في المستندات ، واكتشاف التهديدات والاحتيال ، وروبوتات الدردشة المدعومة بالذكاء الاصطناعي من أكثر حالات الاستخدام شيوعًا لقواعد بيانات المتجهات اليوم. لتوضيح هذا ، ميلفوس، قاعدة بيانات المتجه مفتوحة المصدر التي أنشأتها Zilliz والجوهر الأساسي لـ Zilliz Cloud ، تم استخدامها من قبل أكثر من ألف مستخدم مؤسسي عبر مجموعة متنوعة من حالات الاستخدام المختلفة.
يسعدني دائمًا الدردشة حول هذه التطبيقات ومساعدة الأشخاص على فهم كيفية عملها ، لكنني بالتأكيد أستمتع كثيرًا بمراجعة بعض حالات استخدام قاعدة بيانات المتجهات الأقل شهرة أيضًا. يعد اكتشاف الأدوية الجديد أحد حالات استخدام قاعدة بيانات المتجهات “المتخصصة” المفضلة لدي. يتمثل التحدي الذي يواجه هذا التطبيق بالذات في البحث عن الأدوية المرشحة المحتملة لعلاج مرض أو عرض معين ضمن قاعدة بيانات تضم 800 مليون مركب. تمكنت شركة الأدوية التي تواصلنا معها من تحسين عملية اكتشاف الدواء بشكل كبير بالإضافة إلى تقليل موارد الأجهزة من خلال الجمع بين Milvus ومكتبة cheminformatics تسمى RDKit.
متحف كليفلاند للفنون (CMA) AI ArtLens هو مثال آخر أحب طرحه. AI ArtLens هي أداة تفاعلية تأخذ صورة الاستعلام كمدخل وتسحب الصور المتشابهة بصريًا من قاعدة بيانات المتحف. يشار إلى هذا عادةً باسم البحث العكسي عن الصور وهو حالة استخدام شائعة إلى حد ما لقواعد بيانات المتجهات ، ولكن عرض القيمة الفريدة الذي قدمه Milvus إلى CMA هو القدرة على تشغيل التطبيق في غضون أسبوع مع فريق صغير جدًا.
هل يمكنك مناقشة ما هي منصة المصدر المفتوح Towhee؟
عند التواصل مع أشخاص من مجتمع Milvus ، وجدنا أن العديد منهم أرادوا الحصول على طريقة موحدة لإنشاء حفلات الزفاف لـ Milvus. كان هذا صحيحًا بالنسبة لجميع المؤسسات المختلفة التي تحدثنا معها تقريبًا ، ولكن بشكل خاص بالنسبة للشركات التي لم يكن لديها العديد من مهندسي التعلم الآلي. مع Towhee ، نهدف إلى حل هذه الفجوة عبر ما نسميه “بيانات المتجه ETL”. بينما تركز خطوط أنابيب ETL التقليدية على الجمع بين البيانات المنظمة وتحويلها من مصادر متعددة إلى تنسيق قابل للاستخدام ، فإن Towhee تهدف إلى العمل مع البيانات غير المنظمة وتضمين ML بشكل صريح في خط أنابيب ETL الناتج. يحقق Tohee ذلك من خلال توفير مئات النماذج والخوارزميات والتحويلات التي يمكن استخدامها كعناصر بناء في خط أنابيب ETL لبيانات المتجه. علاوة على ذلك ، يوفر Towhee أيضًا واجهة برمجة تطبيقات Python سهلة الاستخدام والتي تتيح للمطورين إنشاء واختبار خطوط أنابيب ETL هذه في سطر واحد من التعليمات البرمجية.
في حين أن Towhee هو مشروع مستقل خاص به ، فهو أيضًا جزء من النظام الإيكولوجي الأوسع لقاعدة بيانات المتجه المتمركز حول Milvus الذي تقوم Zilliz بإنشائه. نتصور أن يكون Milvus و Towhee مشروعين متكاملين للغاية ، ويمكنهما حقًا إضفاء الطابع الديمقراطي على معالجة البيانات غير المهيكلة عند استخدامهما معًا.
زيليز مؤخرا جمعت جولة 60 مليون دولار من السلسلة ب. كيف سيسرع هذا من مهمة Zilliz؟
أود أولاً أن أشكر Prosperity7 Ventures و Pavilion Capital و Hillhouse Capital و 5Y Capital و Yunqi Capital وآخرين لإيمانهم بمهمة Zilliz ودعمنا بامتداد السلسلة B. لقد جمعنا الآن ما مجموعه 113 مليون دولار ، وستدعم هذه الجولة الأخيرة من التمويل جهودنا لتوسيع نطاق فرق الهندسة والذهاب إلى السوق. على وجه الخصوص ، سنعمل على تحسين عروضنا السحابية المُدارة ، والتي هي حاليًا في مرحلة الوصول المبكر ولكن من المقرر أن تفتح للجميع في وقت لاحق من هذا العام. سنواصل أيضًا الاستثمار في قواعد البيانات المتطورة وأبحاث الذكاء الاصطناعي كما فعلنا في السنوات الأربع الماضية.
هل هناك أي شيء آخر تود مشاركته حول Zilliz؟
كشركة ، نحن ننمو بسرعة ، ولكن ما يميز فريقنا الحالي عن الآخرين في قاعدة البيانات ومساحة ML هو شغفنا الفريد لما نبنيه. نحن في مهمة لإضفاء الطابع الديمقراطي على معالجة البيانات غير المهيكلة ، ومن المدهش حقًا رؤية العديد من الأشخاص الموهوبين في Zilliz يعملون لتحقيق هدف واحد. إذا كان أي مما نفعله يبدو مثيرًا للاهتمام بالنسبة لك ، فلا تتردد في ذلك ابق على تواصل معنا. يسعدنا انضمامك إلينا.
إذا كنت ترغب في معرفة المزيد ، فأنا أيضًا منفتح شخصيًا للدردشة حول Zilliz أو قواعد بيانات المتجهات أو تضمين التطورات ذات الصلة في AI / ML. بابي (المجازي) مفتوح دائمًا ، لذا لا تتردد في التواصل معي مباشرة Twitter/ ينكدين.
أخيرًا وليس آخرًا ، شكرًا على القراءة!