الأخبار التكنولوجية والاستعراضات والنصائح!

الدكتور رام سريهارشا ، نائب رئيس قسم الهندسة في Pinecone – سلسلة مقابلات

ستساعدك المقالة التالية: الدكتور رام سريهارشا ، نائب رئيس قسم الهندسة في Pinecone – سلسلة مقابلات

الدكتور رام سريهارشا هو نائب الرئيس للهندسة والبحث والتطوير في Pinecone.

قبل الانضمام إلى Pinecone ، شغل Ram مناصب نائب الرئيس في Yahoo و Databricks و Splunk. في ياهو ، كان مهندس برمجيات رئيسي ثم عالم أبحاث. في Databricks ، كان قائد المنتجات والهندسة لمنصة التحليلات الموحدة لعلم الجينوم. وخلال السنوات الثلاث التي قضاها في شركة Splunk ، لعب أدوارًا متعددة بما في ذلك كبير العلماء الرئيسيين ونائب الرئيس للهندسة والمهندس المتميز.

كوز الصنوبر هي قاعدة بيانات متجهة مُدارة بالكامل تسهل إضافة بحث متجه إلى تطبيقات الإنتاج. فهو يجمع بين مكتبات البحث المتجه وإمكانيات مثل التصفية والبنية التحتية الموزعة لتوفير أداء عالي وموثوقية على أي نطاق.

ما الذي جذبك في البداية إلى التعلم الآلي؟

كانت الإحصائيات عالية الأبعاد ونظرية التعلم وموضوعات مثل هذه هي ما جذبتني للتعلم الآلي. يتم تعريفها جيدًا رياضيًا ، ويمكن تعليلها ولديها بعض الأفكار الأساسية لتقديمها حول ما يعنيه التعلم ، وكيفية تصميم الخوارزميات التي يمكن أن تتعلم بكفاءة.

كنت سابقًا نائب رئيس قسم الهندسة في Splunk ، وهي منصة بيانات تساعد في تحويل البيانات إلى أفعال من أجل المراقبة وتكنولوجيا المعلومات والأمان والمزيد. ما هي بعض النقاط الرئيسية التي استخلصتها من هذه التجربة؟

لم أكن أدرك حتى وصلت إلى Splunk مدى تنوع حالات الاستخدام في البحث المؤسسي: يستخدم الأشخاص Splunk لتحليلات السجل وقابلية الملاحظة وتحليلات الأمان بين عدد لا يحصى من حالات الاستخدام الأخرى. وما هو مشترك في الكثير من حالات الاستخدام هذه هو فكرة اكتشاف أحداث مماثلة أو أحداث شديدة الاختلاف (أو الشاذة) في البيانات غير المنظمة. تبين أن هذه مشكلة صعبة وأن الوسائل التقليدية للبحث في هذه البيانات ليست قابلة للتطوير بشكل كبير. خلال الفترة التي قضيتها في Splunk ، بدأت بحثًا حول هذه المجالات حول كيفية استخدام التعلم الآلي (والتعلم العميق) لتعدين السجلات ، والتحليلات الأمنية ، وما إلى ذلك من خلال هذا العمل ، أدركت أن الزخارف المتجهية والبحث المتجه سينتهي بهما الأمر. بدائية أساسية لمقاربات جديدة لهذه المجالات.

هل يمكن أن تصف لنا ما هو البحث المتجه؟

في البحث التقليدي (المعروف أيضًا باسم البحث بالكلمات المفتاحية) ، أنت تبحث عن الكلمات الأساسية المطابقة بين استعلام ومستندات (يمكن أن يكون ذلك تغريدات ، ووثائق ويب ، ومستندات قانونية ، وماذا لديك). للقيام بذلك ، تقوم بتقسيم الاستعلام الخاص بك إلى الرموز المميزة الخاصة به ، واسترداد المستندات التي تحتوي على الرمز المحدد والدمج والترتيب لتحديد المستندات الأكثر صلة باستعلام معين.

تكمن المشكلة الرئيسية بالطبع في أنه للحصول على نتائج ذات صلة ، يجب أن يحتوي استعلامك على مطابقة للكلمات الرئيسية في المستند. المشكلة التقليدية في البحث التقليدي هي: إذا كنت تبحث عن “pop” ، فستطابق “موسيقى البوب” ، ولكن لن تتطابق مع “soda” ، وما إلى ذلك نظرًا لعدم وجود تداخل في الكلمات الرئيسية بين “pop” والمستندات التي تحتوي على “soda” ، على الرغم من أننا نعلم أنه بالعامية في العديد من المناطق في الولايات المتحدة ، فإن كلمة “pop” تعني نفس كلمة “soda”.

في البحث المتجه ، تبدأ بتحويل كل من الاستعلامات والمستندات إلى متجه في مساحة ذات أبعاد عالية. يتم ذلك عادةً عن طريق تمرير النص من خلال نموذج التعلم العميق مثل OpenAI’s LLMs أو نماذج اللغة الأخرى. ما تحصل عليه نتيجة لذلك هو مصفوفة من أرقام الفاصلة العائمة التي يمكن اعتبارها متجهًا في مساحة ذات أبعاد عالية.

الفكرة الأساسية هي أن النواقل المجاورة في هذا الفضاء عالي الأبعاد متشابهة لغويًا أيضًا. بالعودة إلى مثالنا عن “الصودا” و “البوب” ، إذا تم تدريب النموذج على الجسم الصحيح ، فمن المحتمل أن يعتبر “البوب” و “الصودا” متشابهين من الناحية اللغوية ، وبالتالي فإن الزخارف المقابلة ستكون قريبة من بعضها البعض في مساحة التضمين. إذا كانت هذه هي الحالة ، فإن استرداد المستندات القريبة لاستعلام معين يصبح مشكلة البحث عن أقرب الجيران لمتجه الاستعلام المقابل في هذا الفضاء عالي الأبعاد.

هل يمكن أن تصف ما هي قاعدة بيانات المتجه وكيف تتيح بناء تطبيقات بحث متجه عالية الأداء؟

تقوم قاعدة بيانات المتجهات بتخزين وفهرسة وإدارة هذه الزخارف (أو النواقل). التحديات الرئيسية التي تحلها قاعدة بيانات المتجهات هي:

  • بناء فهرس بحث فعال عبر المتجهات للإجابة على استفسارات الجيران الأقرب
  • بناء مؤشرات مساعدة وهياكل بيانات فعالة لدعم تصفية الاستعلام. على سبيل المثال ، لنفترض أنك تريد البحث في مجموعة فرعية فقط من المجموعة ، يجب أن تكون قادرًا على الاستفادة من فهرس البحث الحالي دون الحاجة إلى إعادة بنائه

دعم التحديثات الفعالة والحفاظ على كل من البيانات وفهرس البحث محدثًا ومتسقًا ودائمًا ، وما إلى ذلك.

ما هي الأنواع المختلفة من خوارزميات التعلم الآلي المستخدمة في Pinecone؟

نحن نعمل بشكل عام على خوارزميات بحث تقريبية في أقرب الجيران ونطور خوارزميات جديدة للتحديث والاستعلام والتعامل مع كميات كبيرة من البيانات بطريقة فعالة من حيث التكلفة قدر الإمكان.

نحن نعمل أيضًا على الخوارزميات التي تجمع بين الاسترجاع الكثيف والمتناثر لتحسين ملاءمة البحث.

ما هي بعض التحديات الكامنة وراء بناء بحث قابل للتطوير؟

بينما تم البحث عن أقرب جيران تقريبيًا لعقود من البحث ، نعتقد أنه لا يزال هناك الكثير لاكتشافه.

على وجه الخصوص ، عندما يتعلق الأمر بتصميم بحث أقرب جيران على نطاق واسع يكون فعالًا من حيث التكلفة ، أو في إجراء تصفية فعالة على نطاق واسع ، أو في تصميم الخوارزميات التي تدعم تحديثات كبيرة الحجم والفهارس الجديدة بشكل عام ، كلها مشكلات صعبة اليوم.

ما هي بعض أنواع حالات الاستخدام المختلفة التي يمكن استخدام هذه التقنية فيها؟

يتزايد طيف حالات الاستخدام لقواعد بيانات المتجهات يومًا بعد يوم. بصرف النظر عن استخداماته في البحث الدلالي ، نرى أيضًا أنه يُستخدم في البحث عن الصور ، واسترجاع الصور ، والذكاء الاصطناعي التوليدي ، والتحليلات الأمنية ، وما إلى ذلك.

ما هي رؤيتك لمستقبل البحث؟

أعتقد أن مستقبل البحث سيكون مدفوعًا بالذكاء الاصطناعي ، ولا أعتقد أن هذا بعيد جدًا. في ذلك المستقبل ، أتوقع أن تكون قواعد بيانات المتجهات أساسًا بدائيًا. نحب أن نفكر في قواعد بيانات المتجهات باعتبارها الذاكرة طويلة المدى (أو قاعدة المعرفة الخارجية) للذكاء الاصطناعي.