الأخبار التكنولوجية والاستعراضات والنصائح!

خوارزميات محتوى Google وتأثيرات التصنيف

ستساعدك المقالة التالية: خوارزميات محتوى Google وتأثيرات التصنيف

بيل سلاوسكي وقد أجريت مناقشة عبر البريد الإلكتروني حول خوارزمية حديثة. اقترح بيل أن ورقة بحثية محددة وبراءة اختراع قد تكون ذات أهمية للنظر فيها. ما اقترحه بيل كان بمثابة تحدي لي للتفكير فيما هو أبعد من المطابقة العصبية وRankBrain.

تركز أبحاث الخوارزمية الحديثة على فهم المحتوى واستعلامات البحث. ربما يكون من المفيد التفكير في كيفية المساعدة في تفسير بعض التغييرات.

الفرق بين RankBrain والمطابقة العصبية

هذه تصريحات رسمية من Google عبر تغريدات كتبها داني سوليفان (المعروف أيضًا باسم SearchLiaison).

– يساعد RankBrain Google على ربط الصفحات بالمفاهيم بشكل أفضل
… يعمل في المقام الأول (نوعًا ما) على مساعدتنا في العثور على مرادفات للكلمات المكتوبة على الصفحة….

– تساعد المطابقة العصبية Google على ربط الكلمات بعمليات البحث بشكل أفضل.
…يعمل في المقام الأول على (نوعًا ما) مساعدتنا في العثور على مرادفات للأشياء التي كتبتها في مربع البحث.

… “نوعًا ما” لأن لدينا بالفعل (ولطالما كان لدينا) أنظمة مرادفة. هذه تتجاوز تلك وتفعل الأشياء بطرق مختلفة أيضًا. لكنها طريقة سهلة (نأمل) لفهمها.

على سبيل المثال، تساعدنا المطابقة العصبية على فهم أن البحث عن “لماذا يبدو تلفزيوني غريبًا” يرتبط بمفهوم “تأثير المسلسلات التلفزيونية”.

يمكننا بعد ذلك إرجاع صفحات حول تأثير المسلسلات التلفزيونية، حتى لو لم يتم استخدام الكلمات الدقيقة…”

وصف داني سوليفان من جوجل ماهية المطابقة العصبية.

فيما يلي عناوين URL للتغريدات التي تصف ماهية المطابقة العصبية:

ما هو CLSTM وهل يرتبط بالمطابقة العصبية؟

الورقة التي ناقشها بيل سلاوسكي معي كانت تسمى نماذج الذاكرة السياقية طويلة المدى (CLSTM) لمهام معالجة اللغات الطبيعية واسعة النطاق (NLP).

الورقة البحثية PDF هنا. براءة الاختراع التي اقترحها بيل كانت مرتبطة بها هنا.

هذه ورقة بحثية من عام 2016 وهي مهمة. لم يكن بيل يقترح أن الورقة وبراءة الاختراع تمثلان المطابقة العصبية. لكنه قال أنها تبدو ذات صلة بطريقة أو بأخرى.

يستخدم البحث مثالاً لآلة تم تدريبها على فهم سياق كلمة “سحر” من الجمل الثلاث التالية، لبيان ما تفعله:

“1) السير أحمد سلمان رشدي روائي وكاتب مقالات بريطاني هندي. ويقال إنه يجمع بين الواقعية السحرية والخيال التاريخي.

2) يجمع كالفن هاريس وهايم قواهما في فيديو موسيقي سحري.

3) تتمتع الأعشاب بقدرة سحرية هائلة، لأنها تحتوي على طاقة الأرض بداخلها.

ثم تشرح الورقة البحثية كيف تفهم هذه الطريقة سياق كلمة “سحر” في جملة وفقرة:

“إحدى الطرق التي يمكن من خلالها التقاط السياق بإيجاز هي استخدام موضوع مقطع النص (على سبيل المثال، موضوع الجملة، الفقرة).

إذا كان السياق يحتوي على موضوع “الأدب”، فإن الكلمة التالية على الأرجح يجب أن تكون “الواقعية”. حفزتنا هذه الملاحظة على استكشاف استخدام موضوعات مقاطع النص لالتقاط السياق الهرمي وطويل المدى للنص في LMs.

…نحن ندمج الميزات السياقية (أي المواضيع المستندة إلى أجزاء مختلفة من النص) في نموذج LSTM، ونطلق على النموذج الناتج اسم LSTM السياقي (CLSTM).

توصف هذه الخوارزمية بأنها مفيدة لـ

كلمة التنبؤ
وهذا يشبه التنبؤ بالكلمة المكتوبة التالية عند الكتابة على الهاتف المحمول

اختيار الجملة التالية
ويتعلق ذلك بمهمة أسئلة وأجوبة أو بإنشاء “ردود ذكية” وردود نموذجية في الرسائل النصية ورسائل البريد الإلكتروني.

التنبؤ بموضوع الجملة
تصف ورقة البحث هذا كجزء من مهمة التنبؤ بموضوع الرد على الاستعلام المنطوق للمستخدم، من أجل فهم نيته.

يبدو هذا النوع الأخير قريبًا مما تفعله المطابقة العصبية (“…”).

إجابة السؤال خوارزمية

تبدو الورقة البحثية التالية من عام 2019 بمثابة تحسين لهذه الخوارزمية:

نموذج استرجاع الانتباه الهرمي للإجابة على أسئلة الرعاية الصحية

ملخص
https://ai.google/research/pubs/pub47789

بي دي إف
http://dmkd.cs.vt.edu/papers/WWW19.pdf

وهذا ما جاء في اللمحة العامة:

“قد تكون غالبية هذه الاستعلامات غير واقعية بطبيعتها، وبالتالي، فإن نماذج الاسترجاع التقليدية القائمة على الكلمات الرئيسية لا تعمل بشكل جيد في مثل هذه الحالات.

علاوة على ذلك، في العديد من السيناريوهات، قد يكون من المرغوب فيه الحصول على إجابة قصيرة تجيب بشكل كافٍ على الاستعلام، بدلاً من مستند طويل يحتوي على كمية صغيرة فقط من المعلومات المفيدة.

في هذا البحث، نقترح نموذج شبكة عصبية لترتيب المستندات للإجابة على الأسئلة في مجال الرعاية الصحية. يستخدم النموذج المقترح آلية الاهتمام العميق على مستوى الكلمة والجملة والوثيقة، من أجل استرجاع فعال لكل من الاستعلامات الواقعية وغير الواقعية، على المستندات ذات الأطوال المتنوعة.

على وجه التحديد، يسمح الاهتمام المتبادل على مستوى الكلمة للنموذج بتحديد الكلمات التي قد تكون أكثر صلة بالاستعلام، كما يسمح الاهتمام الهرمي على مستوى الجملة والوثيقة بالقيام باسترجاع فعال لكل من المستندات الطويلة والقصيرة.

إنها ورقة مثيرة للاهتمام للنظر فيها.

إليك ما تقوله ورقة الإجابة على أسئلة الرعاية الصحية:

“2.2 استرجاع المعلومات العصبية

مع نجاح الشبكات العصبية العميقة في تعلم تمثيل البيانات النصية، تم اقتراح العديد من بنيات التصنيف العصبي للبحث في المستندات النصية.

…بينما النموذج المقترح في [22] يستخدم مخرجات الحالة الأخيرة لأجهزة تشفير LSTM كميزات الاستعلام والمستند. يستخدم كلا النموذجين بعد ذلك تشابه جيب التمام بين الاستعلامات وتمثيلات المستندات لحساب مدى ملاءمتها.

ومع ذلك، في أغلب حالات استرجاع المستندات، يُلاحظ أن النص ذي الصلة بالاستعلام هو جزء قصير جدًا من النص من المستند. ومن ثم، فإن مطابقة التمثيل المجمع للمستند بأكمله مع ذلك الخاص بالاستعلام لا يعطي نتائج جيدة جدًا، حيث يحتوي التمثيل أيضًا على ميزات من أجزاء أخرى غير ذات صلة بالمستند.

ثم يذكر نماذج مطابقة الملاءمة العميقة:

“للتغلب على مشاكل نماذج الأشعة تحت الحمراء القائمة على المطابقة الدلالية على مستوى الوثيقة، تم اقتراح العديد من نماذج الأشعة تحت الحمراء القائمة على التفاعل مؤخرًا. في [9]يقترح المؤلفون نموذج المطابقة العميقة للملاءمة (DRMM)، الذي يستخدم ميزات التفاعل القائمة على عدد الكلمات بين الاستعلام وكلمات المستند…”

وهنا يذكر بشكل مثير للاهتمام النماذج المبنية على الاهتمام:

المطابقة العصبية القائمة على الانتباه

(الاقتباس من aNMM) هو ورقة بحثية غير تابعة لـ Google اعتبارًا من عام 2018.

هل لها أي علاقة بما تسميه Google المطابقة العصبية؟

aNMM: ترتيب نصوص الإجابات القصيرة باستخدام نموذج المطابقة العصبية المبني على الانتباه

ملخص
https://arxiv.org/abs/1801.01641

بي دي إف
https://arxiv.org/pdf/1801.01641.pdf

وفيما يلي ملخص لتلك الورقة:

تصنيف النموذج الطويل أفضل في عام 2018؟

جيف كويل ل MarketMuse ذكر أنه في تحديث شهر مارس، رأى تدفقًا كبيرًا في صفحات SERP التي تحتوي على قوائم طويلة (على سبيل المثال: أفضل 100 فيلم).

كان ذلك مثيرًا للاهتمام لأن بعض الخوارزميات التي تناقشها هذه المقالة تدور حول فهم المقالات الطويلة وتكثيفها في إجابات. على وجه التحديد، كان ذلك مشابهًا لما ناقشته ورقة الإجابة على أسئلة الرعاية الصحية (اقرأ إستراتيجية المحتوى وتحديث Google لشهر مارس 2019).

لذلك عندما ذكر جيف الكثير من التدفق في صفحات SERP المرتبطة بالقوائم الطويلة، تذكرت على الفور هذه الأوراق البحثية المنشورة مؤخرًا والتي تركز على استخلاص الإجابات من المحتوى الطويل.

هل يمكن أن يتضمن تحديث مارس 2019 أيضًا تحسينات لفهم المحتوى الطويل؟ لا يمكننا أن نعرف على وجه اليقين أبدًا لأن هذا ليس مستوى المعلومات التي تكشفها Google.

ماذا يعني جوجل بالمطابقة العصبية؟

في Reddit AMA، وصف Gary Illyes RankBrain بأنه عنصر تصنيف. يشير الجزء “PR sexy” من وصفه إلى أن الاسم أُطلق على التكنولوجيا لأسباب تتعلق بكونها وصفية وجذابة وليس لها علاقة بما تفعله بالفعل.

لا يوضح مصطلح RankBrain ماهية التكنولوجيا أو ما تفعله. إذا بحثنا عن براءة اختراع “RankBrain”، فلن نجدها. قد يكون ذلك لأنه، كما قال غاري، مجرد اسم مثير للعلاقات العامة.

لقد بحثت في وقت الإعلان الرسمي عن المطابقة العصبية عن براءات الاختراع والأبحاث المرتبطة بـ Google والتي تحتوي على تلك الكلمات الصريحة ولم أجد أيًا منها.

لذا… ما فعلته هو استخدام وصف داني للعثور على المرشحين المحتملين. وحدث أن التقيت قبل عشرة أيام بمرشح محتمل وبدأت في كتابة مقال عنه.

تصنيف الصلة العميقة باستخدام التفاعلات المحسنة للاستعلام عن المستندات

بي دي إف
http://www2.aueb.gr/users/ion/docs/emnlp2018.pdf

ملخص
https://ai.google/research/pubs/pub47324

وكتبت هذا عن تلك الخوارزمية:

لكي أفهم ذلك، كنت بحاجة إلى إجراء بحث أولًا حول تصنيف صلة الوثيقة (DRR)، بالإضافة إلى الاسترجاع المخصص، لأن البحث الجديد مبني على ذلك.

الاسترجاع المخصص

وهذا ما يفسر ما هو الاسترجاع المخصص. ولكن لا يشرح ما هو الحد من مخاطر الكوارث باستخدام التفاعلات المحسنة للاستعلام عن المستندات.

اتصال بالمرادفات

يرتبط تصنيف الصلة العميقة باستخدام التفاعلات المحسنة للاستعلام عن المستندات بالمرادفات، وهي إحدى ميزات المطابقة العصبية التي وصفها داني سوليفان بأنها مثل المرادفات الفائقة.

إليك ما تصفه الورقة البحثية:

ما يبدو أنه يناقش هو فهم استعلامات البحث.

الآن قارن ذلك بالطريقة التي وصف بها داني المطابقة العصبية:

“المطابقة العصبية هي نظام قائم على الذكاء الاصطناعي بدأت Google استخدامه في عام 2018 بشكل أساسي لفهم كيفية ارتباط الكلمات بالمفاهيم. إنه مثل نظام المرادفات الفائقة. المرادفات هي الكلمات التي ترتبط ارتباطًا وثيقًا بكلمات أخرى …”

سر المطابقة العصبية

من المحتمل جدًا أن تكون المطابقة العصبية أكثر من مجرد خوارزمية واحدة. قد يكون من المفيد النظر في أن المطابقة العصبية قد تتكون من مجموعة متنوعة من الخوارزميات وأن مصطلح المطابقة العصبية هو اسم يُطلق على مجموعة من الخوارزميات التي تعمل معًا.

الوجبات الجاهزة

لا تستخدم مرادفًا للبريد العشوائي
لقد انزعجت قليلاً عندما ذكر داني المرادفات لأنني تخيلت أنه قد يتم تشجيع بعض مُحسنات محركات البحث على البدء في زرع المرادفات في صفحاتهم. أعتقد أنه من المهم أن نلاحظ أن داني قال “أعجبني” نظام المرادفات الفائقة.

لذلك لا تأخذ ذلك على أنه يعني زرع صفحة تحتوي على مرادفات. تعتبر براءات الاختراع والأوراق البحثية المذكورة أعلاه أكثر تعقيدًا بكثير من الرسائل غير المرغوب فيها ذات التفكير البسيط.

التركيز على الكلمات والجمل والفقرات
هناك فائدة أخرى من براءات الاختراع هذه وهي أنها تصف طريقة لتعيين معنى موضعي على ثلاثة مستويات مختلفة لصفحة الويب. يمكن للكتاب الطبيعيين في بعض الأحيان الكتابة بسرعة وإيصال المعنى الأساسي الذي يتمسك بالموضوع. هذه الموهبة تأتي مع خبرة واسعة.

ليس كل شخص لديه تلك الموهبة أو الخبرة. لذلك بالنسبة لبقيتنا، بما فيهم أنا، أعتقد أنه من المفيد التخطيط بعناية وكتابة المحتوى وتعلم التركيز.

المحتوى الطويل مقابل المحتوى الطويل
أنا لا أقول أن جوجل تفضل المحتوى الطويل. أنا فقط أشير إلى أن العديد من هذه الأوراق البحثية الجديدة التي تمت مناقشتها في هذه المقالة تركز على فهم أفضل للمحتوى الطويل من خلال فهم ما يعنيه موضوع تلك الكلمات والجمل والفقرات.

لذلك، إذا واجهت انخفاضًا في التصنيف، فقد يكون من المفيد مراجعة الفائزين والخاسرين ومعرفة ما إذا كان هناك دليل على التدفق الذي قد يكون مرتبطًا بالمحتوى الطويل أو القصير.

رقصة جوجل

اعتادت شركة جوجل على تحديث محرك البحث الخاص بها مرة واحدة في الشهر ببيانات جديدة وخوارزميات جديدة في بعض الأحيان. كانت تغييرات الترتيب الشهرية هي ما أطلقنا عليه اسم Google Dance.

يقوم Google الآن بتحديث فهرسه بشكل يومي (ما يُعرف بالتحديث المستمر). تقوم Google بتحديث الخوارزميات عدة مرات سنويًا بطريقة تمثل عادةً تحسينًا لكيفية فهم Google لاستعلامات البحث والمحتوى. تعتبر هذه الأوراق البحثية نموذجية لتلك الأنواع من التحسينات. لذلك من المهم أن تعرف عنها حتى لا تنخدع بالرنجة الحمراء والفرضيات غير القابلة للتصديق.

المزيد من الموارد