الأخبار التكنولوجية والاستعراضات والنصائح!

دليل بدء تشغيل ملف Robots.txt النهائي الخاص بك

ستساعدك المقالة التالية: دليل بدء تشغيل ملف Robots.txt النهائي الخاص بك

هل تعلم أن لديك قوة أكبر على محركات البحث الآن أكثر من أي وقت مضى ؟! نعم ، هذا صحيح ، الآن يمكنك التحكم في من عمليات الزحف أو الفهارس موقع الويب الخاص بك باستخدام ملف robots.txt.

ولكن ما هو ملف robots.txt بالضبط؟

إنه ملف txt عادي داخل ملف دليل الجذر من موقعك الذي يخبر برامج الزحف بالوصول إلى صفحات ومجلدات معينة أو التغاضي عنها إلى جانب البيانات الأخرى الموجودة على موقع الويب الخاص بك. يستخدم بروتوكول Robots Exclusion Standard Protocol المصمم في 1994 للمواقع للتفاعل مع برامج الزحف الإعلانية للروبوتات.

الآن ، هذه أداة حيوية يمكنك استخدامها لعرض موقعك على محركات البحث بالطريقة التي تريدها أن يشاهدها.

على المستوى الأساسي ، عادةً ما يكون محرك البحث ، وخاصة Google ، قاسياً وصارماً للغاية في الحكم على الشخصية ، لذلك يجب أن تترك انطباعًا جيدًا إذا كنت تريد التميز.

وعند استخدامه بشكل صحيح ، يمكن أن يساعدك ملف robots.txt في تحقيق ذلك من خلال تعزيز وتيرة الزحف، والذي بدوره سيؤثر بشكل إيجابي على جهود تحسين محركات البحث.

نيتي جريتي ملف robots.txt

قبل بضعة عقود ، عندما كانت شبكة الويب العالمية لا تزال في حفاضات الأطفال ، صمم مطورو المواقع طريقة للزحف إلى الصفحات الجديدة وفهرستها عبر الإنترنت.

عُرفت الروبوتات باسم “العناكب”.

بشكل متقطع ، تنحرف العناكب إلى المواقع التي سيتم فهرستها أو الزحف إليها ، مثل مواقع الويب التي تخضع للصيانة.

وبسبب هذه المشكلات ، توصل المطورون إلى حل أدى إلى إنشاء خريطة طريق لجميع الروبوتات في عام 1994. يرسم البروتوكول القواعد التي يجب على كل روبوتات أصلية الالتزام بها ، بما في ذلك روبوتات جوجل.

تعمل الروبوتات غير الشرعية مثل برامج التجسس والبرامج الضارة وغيرها خارج هذا البروتوكول.

للتحقق من ملف robots.txt لأي موقع ، اكتب عنوان URL وأضف “/robots.txt” في النهاية.

هل تحتاج إلى إعداد ملف robots.txt الخاص بك؟

Robots.txt ليس ضروريًا لكل موقع ويب ، خاصة المواقع الصغيرة أو الجديدة. ومع ذلك ، لا يوجد سبب وجيه لعدم امتلاك الملف لأنه يمنحك مزيدًا من التحكم في الأماكن التي يمكن لمحركات البحث المختلفة الوصول إليها على موقعك ، ويمكن أن يساعدك ذلك ؛

  • منع الزحف إلى صفحات مكررة
  • حافظ على خصوصية أجزاء معينة من الموقع
  • منع الزحف إلى نتائج البحث الداخلي
  • منع التحميل الزائد للخادم
  • منع ملفات الموارد ومقاطع الفيديو والصور من الظهور في نتائج البحث

التعليمات المستخدمة في ملف robots.txt

يجب حفظ الملف بتنسيق ASCII أو UTF-8 في الدليل الجذر لصفحة الويب الخاصة بك. يجب أن يكون اسم الملف فريدًا وأن يحتوي على قاعدة واحدة أو أكثر تم وضعها بتنسيق يمكن قراءته. يتم تنظيم القواعد من الأعلى إلى الأسفل حيث يتم التمييز بين الأحرف الصغيرة والكبيرة.

المصطلحات المستخدمة

  • وكيل المستخدم؛ يشير إلى اسم الزاحف
  • عدم السماح؛ يمنع برامج الزحف من الوصول إلى صفحات الويب الفردية والأدلة وملفات محددة
  • يسمح؛ يستبدل الإرشادات الأخرى بما في ذلك عدم السماح بالزحف إلى الدلائل وصفحات الويب والملفات
  • * ؛ تشير إلى عدد الشخصيات
  • $ ؛ تشير إلى نهاية السطر

الآن ، عادةً ما تحتوي الإرشادات الموجودة في الملف على جزأين. القسم الأول هو المكان الذي تشير فيه إلى الروبوتات التي تنطبق عليها التعليمات. القسم الثاني ، يستلزم تعليمات السماح أو عدم السماح.

على سبيل المثال. “وكيل المستخدم؛ BingBot “بالإضافة إلى التعليمات” allow: / clients / “تعني أن BingBot مسموح له بالبحث في الدليل / clients /.

على سبيل المثال ، يمكن أن يبدو ملف robots.txt للموقع https://www.bot.com/ كما يلي:

وكيل المستخدم: *

السماح بتسجيل الدخول/

Disallow: / بطاقة /

السماح: / fotos /

Disallow: / temp /

Disallow: / بحث /

Asallow: /*.pdf$

خريطة الموقع: https://www.bot.com/sitemap.xml

هل هو معقد لاقامة؟

إعداد الملف ليس بالأمر الصعب كما تعتقد. فقط افتح أي مستند فارغ وابدأ في كتابة التعليمات. على سبيل المثال ، إذا كنت تريد السماح لمحركات البحث بالزحف إلى دليل المشرف الخاص بك ، فسيبدو كما يلي:

وكيل المستخدم: *

عدم السماح: / admin /

يمكنك الاستمرار في القيام بذلك حتى تكون على ما يرام مع ما تراه ثم حفظ التوجيهات باسم “robots.txt”. هناك أيضًا أدوات يمكنك استخدامها للقيام بذلك. تتمثل إحدى الميزات الرئيسية لاستخدام الأدوات الموثوقة في أنك.

وهذا أمر بالغ الأهمية لأن خطأ بسيطًا يمكن أن يؤدي إلى انهيار تحسين محركات البحث لموقعك على الويب. الجانب السلبي هو أنها محدودة إلى حد ما عندما يتعلق الأمر

ما سبب أهمية ملف robots.txt؟ ماذا يحدث عندما لا يتم إعداده بشكل صحيح؟

كما ذكرنا سابقًا ، تتحكم robots txt في كيفية وصول محركات البحث المختلفة إلى موقع الويب الخاص بك. يحتوي على إرشادات توجه محركات البحث إلى أي الصفحات يجب الوصول إليها وأيها ليس للوصول.

في حين أنها أداة مفيدة عند استخدامها بشكل صحيح ، إلا أنها يمكن أن تؤثر أيضًا على موقعك بشكل سلبي عند استخدامها بشكل خاطئ.

فيما يلي بعض الحالات التي لا تستخدم فيها ملف robot.txt من أجل ؛

يجب أن تصل محركات البحث إلى جميع الموارد الموجودة على مواقع الويب الخاصة بك لعرض الصفحات بشكل صحيح ، وهو أمر حيوي للحفاظ على التصنيفات الجيدة. عدم السماح لبرامج الزحف بالوصول إلى ملفات جافا سكريبت ذات تغيير تجربة المستخدم يمكن ينتج عنه عقوبات حسابية أو يدوية.

على سبيل المثال ، إذا قمت بإعادة توجيه زوار موقعك باستخدام ملف JavaScript لا يمكن لمحركات البحث الوصول إليه ، فيمكن اعتباره كذلك إخفاء الهوية، ويمكن تعديل ترتيب موقعك إلى أسفل.

يؤدي حظر عناوين URL داخل الملف إلى إعاقة ربط الإنصاف من الدخول إلى الموقع. هذا يعني بشكل أساسي أنه إذا لم تتمكن Google من تتبع رابط من موقع آخر ، فلن يحصل موقع الويب الخاص بك على ما تقدمه الروابط ، وبالتالي ، فقد لا تحصل على مرتبة جيدة بشكل عام

  • إعطاء التوجيهات التي تتجاهل برامج الزحف على وسائل التواصل الاجتماعي

إذا كنت ترغب في الحصول على ترتيب جيد ، فيجب أن تسمح بالوصول إلى بعض صفحات موقعك لتطوير ملف مقتطف. على سبيل المثال ، إذا قمت بنشر عنوان URL الخاص بموقعك على Facebook، سيحاول ويزور كل صفحة للحصول على مقتطف مفيد. لذلك لا تعطي توجيهات تمنع الشبكات الاجتماعية من الوصول إلى موقع الويب الخاص بك.

  • السماح أو عدم السماح بالوصول إلى كل شيء

هذا غير مقبول

وكيل المستخدم: *

يسمح: /

او مثل هذا:

وكيل المستخدم: *

عدم السماح:

إن عدم السماح بموقعك ليس جيدًا لموقعك ؛ لن تتم فهرسة موقعك بواسطة محركات البحث مما يعني أن ترتيبك سيتأثر. وبالمثل ، فإن ترك موقع الويب الخاص بك بدون حماية من خلال السماح بالوصول إلى كل شيء ليس بالأمر الجيد.

علاوة على ذلك ، ليست هناك حاجة إلى مثل هذا التوجيه إلا إذا كنت تقوم بتشغيل موقع ثابت من 4 صفحات مع عدم وجود أي شيء أساسي لإخفائه على الخادم.

  • ملف robots.txt غير المتوافق مع خريطة موقع XML

تضليل محركات البحث فكرة رهيبة.

إذا كان ملف sitemap.xml لموقع الويب الخاص بك يحتوي على عناوين URL تم حظرها صراحةً بواسطة ملف robots.txt ، فأنت كذلك مضلل نفسك. يحدث هذا غالبًا إذا تم تطوير ملفات الملفات وملفات Sitemap بواسطة أدوات مختلفة وملفات غير مدقق بعد ذلك.

للتحقق مما إذا كان موقعك يحتوي على هذه المشكلة ، توجه إلى جوجل Search Console. أضف موقعك وتحقق منه وأرسل خريطة موقع XML له. سترى في خرائط المواقع ضمن علامة التبويب الفهرس.

متى يجب استخدام قواعد ملف robots.txt؟

نوصي باستخدام قواعد robots.txt لـ الزحف إلى مشكلات الكفاءة أو مشاكل الخادم مثل قضاء الوقت في الزحف إلى أقسام غير قابلة للفهرسة في موقعك على الويب. تتضمن بعض الصفحات التي قد لا ترغب في الزحف إليها من الروبوتات ؛

  • صفحات البحث الداخلي ؛
  • الصفحات التي تحتوي على بيانات حساسة
  • البيانات التي ينشئها المستخدم والتي لا يمكن الإشراف عليها
  • صفحات بدون فرز قياسي

ما هو ملف robots.txt في تحسين محركات البحث؟

Robots.txt له تأثير كبير على مُحسّنات محرّكات البحث لأنه يسمح لك بذلك إدارة روبوتات البحث.

ومع ذلك ، إذا تم تقييد وكلاء المستخدم على نطاق واسع من خلال توجيهات عدم السماح ، فقد يكون لهم تأثير سلبي على ترتيب موقعك. أيضا ، سوف تفعل لا يتم ترتيبها مع الصفحات التي منعت الزحف إليها وفهرستها.

من ناحية أخرى ، إذا كان هناك عدد قليل جدًا من توجيهات عدم السماح ، صفحات مكررة قد تتم فهرستها ، مما قد يكون له تأثير سلبي في ترتيب الصفحات.

أيضًا ، قبل حفظ الملف في دليل موقعك ، تأكيد بناء الجملة.

حتى الحد الأدنى من الأخطاء يمكن أن يؤدي إلى تجاهل الروبوتات لتعليمات السماح أو عدم السماح.

يمكن أن تؤدي مثل هذه الأخطاء إلى الزحف إلى المواقع التي لا ينبغي فهرستها وكذلك الصفحات التي يتعذر الوصول إليها من قبل برامج الروبوت بسبب عدم السماح بذلك. يمكن أن تساعدك Google Search Console في التأكد من صحة ملفك.

ومع ذلك ، فإن استخدام ملف robots.txt بشكل مناسب سيضمن أن يتم الزحف إلى جميع الأقسام الأساسية في موقعك بواسطة روبوتات البحث ، وبالتالي فهرسة المحتوى الخاص بك بواسطة Google ومحركات البحث الأخرى ذات الصلة.

ملف Robots.txt لبرنامج WordPress

يقوم WordPress ، افتراضيًا ، بإنشاء روبوتات افتراضية.

لذلك دون القيام بأي شيء على موقعك ، يجب أن يحتوي على الملف. يمكنك تأكيد ذلك من خلال إلحاق “/robots.txt” في نهاية اسم المجال الخاص بموقعك.

على سبيل المثال ، يعرض “https://google.com/robots.txt” ملف robots.txt الذي يستخدمه النظام الأساسي. الآن لأنه ملف افتراضي ، لا يمكنك تحريره. إذا كان يجب عليك تحريره ، فسيتعين عليك إنشاء ملف فعلي على الخادم الخاص بك.

فيما يلي طريقة بسيطة للتحكم في ملف robots.txt باستخدام SEOPressor:

يمكنك تحديد ما تريد رفضه يدويًا لكل منشور جديد تقوم بإنشائه ضمن علامة التبويب الوصفية لـ SEOpressor.

هذا حقًا سهل وسهل الاستخدام للمبتدئين ، كل ما عليك فعله هو وضع علامة في بعض المربعات ، وبذلك تكون قد انتهيت!

قم بتغليفه!

في مجتمع لا تشوبه شائبة ، لن يكون لملف robots.txt أي فائدة. إذا تم تصميم جميع أجزاء الموقع للجمهور ، فمن الناحية الفنية ، سيتم السماح لـ Google ومحركات البحث الأخرى بالوصول إليها جميعًا.

لسوء الحظ ، العالم ليس مثاليًا. تحتوي العديد من مواقع الويب على صفحات غير عامة ومشكلات عناوين URL أساسية ومصائد العنكبوت التي يجب أن تظل بعيدة عن Google. هذا هو المكان الذي تكون فيه ملفات robots.txt مفيدة لتقريب موقع الويب الخاص بك إلى موقع رائع.

أيضًا ، يعد ملف robots.txt مدهشًا لتحسين محرك البحث. إنه يجعل من السهل توجيه Google بشأن ما يجب فهرسته وما لا يجب فهرسته. مهما كان الأمر ، يجب التعامل معه بحذر لأن التكوين السيئ يمكن أن يؤدي بسهولة إلى فهرسة DE لموقعك.

توغل متعدد اللغات في العالم الأزرق العميق لكبار المسئولين الاقتصاديين والتسويق الداخلي مسلحًا بشغف شديد بالأحرف وسحر حول كيفية سير الأمور في شبكة الويب العالمية.