الأخبار التكنولوجية والاستعراضات والنصائح!

تريد Google إنشاء معيار رسمي لاستخدام ملف Robots.txt

ستساعدك المقالة التالية: تريد Google إنشاء معيار رسمي لاستخدام ملف Robots.txt

جوجل لديها مقترح معيار إنترنت رسمي للقواعد المضمنة في ملفات robots.txt.

كانت هذه القواعد، الموضحة في بروتوكول استبعاد الروبوتات (REP)، معيارًا غير رسمي على مدار الـ 25 عامًا الماضية.

على الرغم من أن محركات البحث قد اعتمدت REP، إلا أنها لا تزال غير رسمية، مما يعني أنها مفتوحة للتفسير من قبل المطورين. علاوة على ذلك، لم يتم تحديثه مطلقًا لتغطية حالات الاستخدام الحالية.

لقد مرت 25 عامًا، ولم يصبح بروتوكول استبعاد الروبوتات معيارًا رسميًا أبدًا. على الرغم من اعتماده من قبل جميع محركات البحث الرئيسية، إلا أنه لم يغطي كل شيء: هل يعني رمز حالة HTTP 500 أن الزاحف يمكنه الزحف إلى أي شيء أو لا شيء؟ 😕 pic.twitter.com/imqoVQW92V

— مشرفي المواقع في Google (@googlewmc) 1 يوليو 2019

وكما تقول جوجل، فإن هذا يخلق تحديًا لأصحاب مواقع الويب لأن المعيار الواقعي المكتوب بشكل غامض يجعل من الصعب كتابة القواعد بشكل صحيح.

وللتغلب على هذا التحدي، قامت Google بتوثيق كيفية استخدام REP على الويب الحديث وإرساله إلى فريق عمل هندسة الإنترنت (IETF) للمراجعة.

يشرح جوجل ما هو مدرج في المسودة:

“تعكس مسودة REP المقترحة أكثر من 20 عامًا من الخبرة الواقعية في الاعتماد على قواعد robots.txt، التي يستخدمها كل من Googlebot وغيره من برامج الزحف الرئيسية، بالإضافة إلى حوالي نصف مليار موقع ويب يعتمد على REP. تمنح عناصر التحكم الدقيقة هذه الناشر القدرة على تحديد ما يرغب في الزحف إليه على موقعه وربما عرضه للمستخدمين المهتمين.

لا تغير المسودة أيًا من القواعد التي تم وضعها في عام 1994، بل تم تحديثها للتو لتناسب شبكة الويب الحديثة.

تتضمن بعض القواعد المحدثة ما يلي:

  • يمكن لأي بروتوكول نقل يستند إلى URI استخدام ملف robots.txt. لم يعد يقتصر على HTTP بعد الآن. يمكن استخدامه لـ FTP أو CoAP أيضًا.
  • يجب على المطورين تحليل أول 500 كيلو بايت على الأقل من ملف robots.txt.
  • الحد الأقصى الجديد لوقت التخزين المؤقت هو 24 ساعة أو قيمة توجيه التخزين المؤقت إذا كانت متوفرة، مما يمنح مالكي مواقع الويب المرونة لتحديث ملف robots.txt الخاص بهم وقتما يريدون.
  • عندما يتعذر الوصول إلى ملف robots.txt بسبب فشل الخادم، لا يتم الزحف إلى الصفحات المعروفة غير المسموح بها لفترة زمنية طويلة بشكل معقول.

إن Google منفتحة تمامًا على تلقي التعليقات حول المسودة المقترحة وتقول إنها ملتزمة بتصحيحها.