الأخبار التكنولوجية والاستعراضات والنصائح!

6 مشكلات شائعة في ملف Robots.txt وكيفية إصلاحها

ستساعدك المقالة التالية: 6 مشكلات شائعة في ملف Robots.txt وكيفية إصلاحها

يعد Robots.txt أداة مفيدة وقوية نسبيًا لتوجيه برامج زحف محركات البحث حول الطريقة التي تريدها أن تقوم بها بالزحف إلى موقع الويب الخاص بك.

إنها ليست قوية تمامًا (في كلمات جوجل الخاصة، “إنها ليست آلية لإبقاء صفحة الويب خارج Google”) ولكنها يمكن أن تساعد في منع تحميل موقعك أو خادمك بشكل زائد عن طريق طلبات الزاحف.

إذا كانت لديك كتلة الزحف هذه في موقعك، فيجب التأكد من استخدامها بشكل صحيح.

وهذا مهم بشكل خاص إذا كنت تستخدم عناوين URL الديناميكية أو طرقًا أخرى تولد عددًا لا نهائيًا من الصفحات نظريًا.

في هذا الدليل، سنلقي نظرة على بعض المشكلات الأكثر شيوعًا المتعلقة بملف robots.txt، والتأثير الذي يمكن أن تحدثه على موقع الويب الخاص بك وتواجدك في البحث، وكيفية إصلاح هذه المشكلات إذا كنت تعتقد أنها حدثت.

لكن أولاً، دعونا نلقي نظرة سريعة على ملف robots.txt وبدائله.

ما هو ملف Robots.txt؟

يستخدم ملف Robots.txt تنسيق ملف نصي عادي ويتم وضعه في الدليل الجذر لموقع الويب الخاص بك.

يجب أن يكون في الدليل العلوي لموقعك؛ إذا قمت بوضعه في دليل فرعي، فسوف تتجاهله محركات البحث ببساطة.

على الرغم من قوتها الكبيرة، فإن ملف robots.txt غالبًا ما يكون مستندًا بسيطًا نسبيًا، ويمكن إنشاء ملف robots.txt أساسي في غضون ثوانٍ باستخدام محرر مثل المفكرة.

هناك طرق أخرى لتحقيق بعض الأهداف نفسها التي يُستخدم عادةً ملف robots.txt من أجلها.

يمكن أن تتضمن الصفحات الفردية علامة وصفية لبرامج الروبوت داخل رمز الصفحة نفسها.

يمكنك أيضًا استخدام رأس X-Robots-Tag HTTP للتأثير على كيفية (وما إذا كان) سيتم عرض المحتوى في نتائج البحث.

ما الذي يمكن أن يفعله ملف Robots.txt؟

بإمكان ملف Robots.txt تحقيق مجموعة متنوعة من النتائج عبر مجموعة من أنواع المحتوى المختلفة:

يمكن حظر صفحات الويب من الزحف إليها.

وقد تستمر في الظهور في نتائج البحث، ولكن لن يكون لها وصف نصي. لن يتم الزحف إلى المحتوى غير HTML الموجود على الصفحة أيضًا.

يمكن منع ملفات الوسائط من الظهور في نتائج بحث Google.

ويشمل ذلك الصور والفيديو والملفات الصوتية.

إذا كان الملف عامًا، فسيظل “موجودًا” عبر الإنترنت ويمكن عرضه والربط به، ولكن هذا المحتوى الخاص لن يظهر في عمليات بحث Google.

يمكن حظر ملفات الموارد مثل البرامج النصية الخارجية غير المهمة.

ولكن هذا يعني أنه إذا قام Google بالزحف إلى صفحة تتطلب هذا المورد للتحميل، فإن روبوت Googlebot سوف “يرى” نسخة من الصفحة كما لو أن هذا المورد غير موجود، مما قد يؤثر على الفهرسة.

لا يمكنك استخدام ملف robots.txt لمنع ظهور صفحة ويب بشكل كامل في نتائج بحث Google.

ولتحقيق ذلك، يجب عليك استخدام طريقة بديلة مثل إضافة علامة تعريف noindex إلى رأس الصفحة.

ما مدى خطورة أخطاء ملف Robots.txt؟

يمكن أن يؤدي الخطأ في ملف robots.txt إلى عواقب غير مقصودة، ولكنه غالبًا لا يمثل نهاية العالم.

والخبر السار هو أنه من خلال إصلاح ملف robots.txt، يمكنك التعافي من أي أخطاء بسرعة وبشكل كامل (عادةً).

إرشادات Google لمطوري الويب يقول هذا حول موضوع أخطاء ملف robots.txt:

“تتميز برامج زحف الويب عمومًا بالمرونة الشديدة ولن تتأثر عادةً بالأخطاء البسيطة في ملف robots.txt. بشكل عام، أسوأ ما يمكن أن يحدث هو أن هذا غير صحيح [or] سيتم تجاهل التوجيهات غير المدعومة.

ضع في اعتبارك أن Google لا يمكنه قراءة الأفكار عند تفسير ملف robots.txt؛ يتعين علينا تفسير ملف robots.txt الذي جلبناه. ومع ذلك، إذا كنت على علم بوجود مشكلات في ملف robots.txt، فعادةً ما يكون من السهل إصلاحها.

6 أخطاء شائعة في ملف Robots.txt

  1. ملف Robots.txt غير موجود في الدليل الجذر.
  2. سوء استخدام أحرف البدل.
  3. Noindex في ملف Robots.txt.
  4. البرامج النصية وأوراق الأنماط المحظورة.
  5. لا يوجد عنوان URL لخريطة الموقع.
  6. الوصول إلى مواقع التطوير.

إذا كان موقع الويب الخاص بك يتصرف بشكل غريب في نتائج البحث، فإن ملف robots.txt الخاص بك يعد مكانًا جيدًا للبحث عن أي أخطاء، وأخطاء في بناء الجملة، وقواعد متجاوزة.

دعونا نلقي نظرة على كل خطأ من الأخطاء المذكورة أعلاه بمزيد من التفاصيل ونرى كيفية التأكد من أن لديك ملف robots.txt صالح.

1. ملف Robots.txt ليس موجودًا في الدليل الجذر

لا يمكن لروبوتات البحث اكتشاف الملف إلا إذا كان موجودًا في المجلد الجذر الخاص بك.

ولهذا السبب يجب أن يكون هناك شرطة مائلة للأمام فقط بين .com (أو المجال المكافئ) لموقع الويب الخاص بك، واسم الملف “robots.txt”، في عنوان URL لملف robots.txt الخاص بك.

إذا كان هناك مجلد فرعي هناك، فمن المحتمل أن يكون ملف robots.txt الخاص بك غير مرئي لروبوتات البحث، وربما يتصرف موقع الويب الخاص بك كما لو لم يكن هناك ملف robots.txt على الإطلاق.

لإصلاح هذه المشكلة، انقل ملف robots.txt إلى الدليل الجذر.

تجدر الإشارة إلى أن هذا سيتطلب منك الوصول إلى الجذر لخادمك.

ستقوم بعض أنظمة إدارة المحتوى بتحميل الملفات إلى دليل فرعي للوسائط (أو شيء مشابه) بشكل افتراضي، لذلك قد تحتاج إلى التحايل على هذا لوضع ملف robots.txt في المكان الصحيح.

2. سوء استخدام أحرف البدل

يدعم ملف Robots.txt حرفي البدل:

  • النجمة * والذي يمثل أي مثيل لشخصية صالحة، مثل الجوكر في مجموعة أوراق اللعب.
  • علامة الدولار $ الذي يشير إلى نهاية عنوان URL، مما يسمح لك بتطبيق القواعد فقط على الجزء الأخير من عنوان URL، مثل ملحق نوع الملف.

من المنطقي اتباع أسلوب بسيط في استخدام أحرف البدل، حيث إنها تنطوي على إمكانية تطبيق قيود على جزء أوسع بكثير من موقع الويب الخاص بك.

من السهل نسبيًا أيضًا أن ينتهي بك الأمر إلى حظر وصول الروبوت من موقعك بالكامل باستخدام علامة النجمة التي تم وضعها بشكل سيء.

لإصلاح مشكلة حرف البدل، ستحتاج إلى تحديد موقع حرف البدل غير الصحيح ونقله أو إزالته حتى يعمل ملف robots.txt على النحو المنشود.

3. Noindex في ملف Robots.txt

يعد هذا أكثر شيوعًا في مواقع الويب التي يزيد عمرها عن بضع سنوات.

توقفت Google عن الالتزام بقواعد noindex في ملفات robots.txt اعتبارًا من 1 سبتمبر 2019.

إذا تم إنشاء ملف robots.txt قبل ذلك التاريخ، أو كان يحتوي على تعليمات noindex، فمن المحتمل أن ترى تلك الصفحات مفهرسة في نتائج بحث Google.

الحل لهذه المشكلة هو تنفيذ طريقة بديلة لـ “noindex”.

أحد الخيارات هو العلامة الوصفية لبرامج الروبوت، والتي يمكنك إضافتها إلى رأس أي صفحة ويب تريد منع Google من فهرستها.

4. البرامج النصية وأوراق الأنماط المحظورة

قد يبدو من المنطقي منع وصول الزاحف إلى نصوص JavaScript الخارجية وأوراق الأنماط المتتالية (CSS).

ومع ذلك، تذكر أن Googlebot يحتاج إلى الوصول إلى ملفات CSS وJS حتى يتمكن من “رؤية” صفحات HTML وPHP بشكل صحيح.

إذا كانت صفحاتك تعمل بشكل غريب في نتائج Google، أو يبدو أن Google لا يراها بشكل صحيح، فتحقق مما إذا كنت تمنع وصول الزاحف إلى الملفات الخارجية المطلوبة.

الحل البسيط لذلك هو إزالة السطر من ملف robots.txt الذي يمنع الوصول.

أو، إذا كان لديك بعض الملفات التي تحتاج إلى حظرها، فأدخل استثناءً يستعيد الوصول إلى CSS وJavaScripts الضروريين.

5. لا يوجد عنوان URL لخريطة الموقع

هذا يتعلق بتحسين محركات البحث (SEO) أكثر من أي شيء آخر.

يمكنك تضمين عنوان URL لخريطة الموقع في ملف robots.txt الخاص بك.

نظرًا لأن هذا هو المكان الأول الذي يبحث فيه Googlebot عند الزحف إلى موقع الويب الخاص بك، فإن هذا يمنح الزاحف السبق في معرفة البنية والصفحات الرئيسية لموقعك.

على الرغم من أن هذا ليس خطأ تمامًا، حيث أن حذف خريطة الموقع لا ينبغي أن يؤثر سلبًا على الوظائف الأساسية الفعلية ومظهر موقع الويب الخاص بك في نتائج البحث، إلا أنه لا يزال من المفيد إضافة عنوان URL لخريطة الموقع إلى ملف robots.txt إذا كنت تريد تعزيز جهود تحسين محركات البحث (SEO) الخاصة بك. يعزز.

6. الوصول إلى مواقع التطوير

يعد حظر برامج الزحف من موقع الويب المباشر الخاص بك أمرًا محظورًا، ولكن السماح لهم أيضًا بالزحف إلى صفحاتك التي لا تزال قيد التطوير وفهرستها.

من أفضل الممارسات إضافة تعليمات عدم السماح إلى ملف robots.txt الخاص بموقع ويب قيد الإنشاء حتى لا يتمكن عامة الناس من رؤيته حتى يتم الانتهاء منه.

وبالمثل، من الضروري إزالة تعليمات عدم السماح عند تشغيل موقع ويب مكتمل.

يعد نسيان إزالة هذا السطر من ملف robots.txt أحد الأخطاء الأكثر شيوعًا بين مطوري الويب، ويمكن أن يؤدي إلى إيقاف الزحف إلى موقع الويب الخاص بك بالكامل وفهرسته بشكل صحيح.

إذا بدا أن موقع التطوير الخاص بك يتلقى حركة مرور حقيقية، أو أن موقع الويب الذي تم إطلاقه مؤخرًا لا يعمل بشكل جيد على الإطلاق في البحث، فابحث عن قاعدة عدم السماح لوكيل المستخدم العام في ملف robots.txt الخاص بك:

وكيل المستخدم: *

عدم السماح: /

إذا رأيت هذا عندما لا ينبغي لك ذلك (أو لم تراه عندما ينبغي لك ذلك)، فقم بإجراء التغييرات اللازمة على ملف robots.txt الخاص بك وتأكد من تحديث مظهر البحث لموقع الويب الخاص بك وفقًا لذلك.

كيفية التعافي من خطأ Robots.txt

إذا كان هناك خطأ في ملف robots.txt يؤدي إلى تأثيرات غير مرغوب فيها على مظهر بحث موقع الويب الخاص بك، فإن الخطوة الأولى الأكثر أهمية هي تصحيح ملف robots.txt والتحقق من أن القواعد الجديدة لها التأثير المطلوب.

يمكن أن تساعد بعض أدوات الزحف الخاصة بتحسين محركات البحث (SEO) في هذا الأمر حتى لا تضطر إلى الانتظار حتى تقوم محركات البحث بالزحف التالي إلى موقعك.

عندما تكون واثقًا من أن ملف robots.txt يعمل على النحو المطلوب، يمكنك محاولة إعادة الزحف إلى موقعك في أسرع وقت ممكن.

منصات مثل وحدة تحكم بحث جوجل و أدوات مشرفي المواقع بينج استطيع المساعدة.

أرسل خريطة موقع محدثة واطلب إعادة الزحف إلى أي صفحات تمت إزالتها بشكل غير لائق.

لسوء الحظ، أنت تخضع لنزوة Googlebot – ليس هناك ضمان بشأن المدة التي قد تستغرقها أي صفحات مفقودة لتظهر مرة أخرى في فهرس بحث Google.

كل ما يمكنك فعله هو اتخاذ الإجراء الصحيح لتقليل هذا الوقت قدر الإمكان والاستمرار في التحقق حتى يتم تنفيذ ملف robots.txt الثابت بواسطة Googlebot.

افكار اخيرة

عندما يتعلق الأمر بأخطاء ملف robots.txt، فمن المؤكد أن الوقاية خير من العلاج.

على موقع ويب كبير يدر دخلاً، يمكن أن يكون لحرف البدل الضال الذي يزيل موقع الويب الخاص بك بالكامل من Google تأثيرًا فوريًا على الأرباح.

يجب إجراء التعديلات على ملف robots.txt بعناية بواسطة مطورين ذوي خبرة، والتحقق منها مرة أخرى، وإخضاعها لرأي ثانٍ عند الاقتضاء.

إذا كان ذلك ممكنًا، قم بإجراء الاختبار في محرر وضع الحماية قبل البث المباشر على خادم العالم الحقيقي الخاص بك للتأكد من تجنب إنشاء مشكلات التوفر عن غير قصد.

تذكر، عندما يحدث الأسوأ، من المهم عدم الذعر.

قم بتشخيص المشكلة، وإجراء الإصلاحات اللازمة لملف robots.txt، ثم إعادة إرسال خريطة الموقع لعملية زحف جديدة.

نأمل أن تتم استعادة مكانك في تصنيفات البحث في غضون أيام.

المزيد من الموارد: