الأخبار التكنولوجية والاستعراضات والنصائح!

كيف ولماذا تمنع الروبوتات من الزحف إلى موقعك

ستساعدك المقالة التالية: كيف ولماذا تمنع الروبوتات من الزحف إلى موقعك

بالنسبة للجزء الأكبر، تكون الروبوتات والعناكب غير ضارة نسبيًا.

تريد أن يقوم روبوت Google، على سبيل المثال، بالزحف إلى موقع الويب الخاص بك وفهرسته.

ومع ذلك، يمكن أن تكون الروبوتات والعناكب في بعض الأحيان مشكلة وتوفر حركة مرور غير مرغوب فيها.

يمكن أن يؤدي هذا النوع من حركة المرور غير المرغوب فيها إلى:

  • تشويش من أين تأتي حركة المرور.
  • تقارير مربكة ويصعب فهمها.
  • الإسناد الخاطئ في Google Analytics.
  • زيادة تكاليف عرض النطاق الترددي الذي تدفعه مقابل.
  • مضايقات أخرى.

هناك روبوتات جيدة وروبوتات سيئة.

تعمل الروبوتات الجيدة في الخلفية، ونادرًا ما تهاجم مستخدمًا أو موقع ويب آخر.

تعمل الروبوتات السيئة على كسر الأمان وراء موقع الويب أو يتم استخدامها كشبكة روبوت واسعة النطاق لتنفيذ هجمات DDOS ضد مؤسسة كبيرة (وهو أمر لا يمكن لجهاز واحد إزالته).

إليك ما يجب أن تعرفه عن الروبوتات وكيفية منع الروبوتات السيئة من الزحف إلى موقعك.

ما هو الروبوت؟

إن النظر إلى ماهية الروبوت بالضبط يمكن أن يساعد في تحديد سبب حاجتنا إلى حظره ومنعه من الزحف إلى موقعنا.

الروبوت، وهو اختصار لـ “روبوت”، هو تطبيق برمجي مصمم لتكرار مهمة محددة بشكل متكرر.

بالنسبة للعديد من محترفي تحسين محركات البحث (SEO)، يتماشى استخدام الروبوتات مع توسيع نطاق حملة تحسين محركات البحث (SEO).

“القياس” يعني أنك تقوم بأتمتة أكبر قدر ممكن من العمل للحصول على نتائج أفضل بشكل أسرع.

المفاهيم الخاطئة الشائعة حول الروبوتات

ربما تكون قد واجهت فكرة خاطئة مفادها أن جميع الروبوتات شريرة ويجب حظرها بشكل لا لبس فيه من موقعك.

ولكن هذا لا يمكن أن يكون أبعد عن الحقيقة.

جوجل هو روبوت.

إذا قمت بحظر جوجل، هل يمكنك تخمين ما سيحدث لتصنيفات محرك البحث الخاص بك؟

يمكن أن تكون بعض برامج الروبوت ضارة، ومصممة لإنشاء محتوى مزيف أو التظاهر بأنها مواقع ويب شرعية لسرقة بياناتك.

ومع ذلك، فإن الروبوتات ليست دائمًا نصوصًا خبيثة يديرها ممثلون سيئون.

يمكن أن يكون بعضها أدوات رائعة تساعد في تسهيل العمل لمحترفي تحسين محركات البحث (SEO)، مثل أتمتة المهام المتكررة الشائعة أو استخراج معلومات مفيدة من محركات البحث.

بعض الروبوتات الشائعة التي يستخدمها محترفو تحسين محركات البحث هي Semrush وAhrefs.

تقوم هذه الروبوتات بتجميع بيانات مفيدة من محركات البحث، وتساعد محترفي تحسين محركات البحث (SEO) على أتمتة المهام وإكمالها، ويمكن أن تساعد في جعل عملك أسهل عندما يتعلق الأمر بمهام تحسين محركات البحث (SEO).

لماذا تحتاج إلى منع الروبوتات من الزحف إلى موقعك؟

في حين أن هناك العديد من الروبوتات الجيدة، هناك أيضًا روبوتات سيئة.

يمكن أن تساعد الروبوتات السيئة في سرقة بياناتك الخاصة أو إزالة موقع ويب يعمل بطريقة أخرى.

نريد حظر أي روبوتات سيئة يمكننا اكتشافها.

ليس من السهل اكتشاف كل برامج الروبوت التي قد تزحف إلى موقعك، ولكن مع قليل من البحث، يمكنك العثور على برامج ضارة لا ترغب في زيارتها في موقعك بعد الآن.

فلماذا تحتاج إلى منع الروبوتات من الزحف إلى موقع الويب الخاص بك؟

قد تتضمن بعض الأسباب الشائعة وراء رغبتك في منع برامج الروبوت من الزحف إلى موقعك ما يلي:

حماية بياناتك القيمة

ربما وجدت أن أحد المكونات الإضافية يجذب عددًا من الروبوتات الضارة التي ترغب في سرقة بيانات المستهلك القيمة الخاصة بك.

أو اكتشفت أن أحد الروبوتات استغل ثغرة أمنية لإضافة روابط سيئة في جميع أنحاء موقعك.

أو يستمر شخص ما في محاولة إرسال بريد عشوائي إلى نموذج الاتصال الخاص بك باستخدام برنامج الروبوت.

هذا هو المكان الذي تحتاج فيه إلى اتخاذ خطوات معينة لحماية بياناتك القيمة من التعرض للاختراق بواسطة الروبوت.

عرض النطاق الترددي الزائد

إذا حصلت على تدفق لحركة الروبوتات، فمن المحتمل أن يرتفع عرض النطاق الترددي الخاص بك أيضًا، مما يؤدي إلى زيادات غير متوقعة ورسوم لا تفضلها.

أنت بالتأكيد تريد منع برامج الروبوت المخالفة من الزحف إلى موقعك في هذه الحالات.

أنت لا تريد موقفًا تدفع فيه آلاف الدولارات مقابل عرض النطاق الترددي الذي لا تستحق أن يتم تحصيل رسوم منك مقابله.

ما هو عرض النطاق الترددي؟

عرض النطاق الترددي هو نقل البيانات من الخادم الخاص بك إلى جانب العميل (متصفح الويب).

في كل مرة يتم إرسال البيانات عبر محاولة اتصال، فإنك تستخدم النطاق الترددي.

عندما تصل الروبوتات إلى موقعك وتضيع عرض النطاق الترددي، قد تتحمل رسومًا زائدة نتيجة تجاوز عرض النطاق الترددي المخصص لك شهريًا.

من المفترض أن تحصل على بعض المعلومات التفصيلية على الأقل من مضيفك عندما قمت بالتسجيل في حزمة الاستضافة الخاصة بك.

الحد من السلوك السيئ

إذا بدأ برنامج خبيث في استهداف موقعك بطريقة أو بأخرى، فسيكون من المناسب اتخاذ خطوات للتحكم في ذلك.

على سبيل المثال، قد ترغب في التأكد من أن هذا الروبوت لن يتمكن من الوصول إلى نماذج الاتصال الخاصة بك. تريد التأكد من عدم قدرة الروبوت على الوصول إلى موقعك.

افعل ذلك قبل أن يتمكن الروبوت من اختراق ملفاتك الأكثر أهمية.

من خلال التأكد من أن موقعك مغلق وآمن بشكل صحيح، فمن الممكن حظر هذه الروبوتات حتى لا تسبب الكثير من الضرر.

كيفية منع الروبوتات من موقعك بشكل فعال

يمكنك استخدام طريقتين لمنع الروبوتات من موقعك بشكل فعال.

الأول هو من خلال ملف robots.txt.

هذا هو الملف الموجود في جذر خادم الويب الخاص بك. عادةً، قد لا يكون لديك واحد بشكل افتراضي، وسيتعين عليك إنشاء واحد.

فيما يلي بعض رموز ملف robots.txt المفيدة للغاية والتي يمكنك استخدامها لمنع معظم العناكب والروبوتات من موقعك:

عدم السماح لـ Googlebot من خادمك

إذا كنت تريد، لسبب ما، منع Googlebot من الزحف إلى خادمك على الإطلاق، فإن الكود التالي هو الكود الذي ستستخدمه:

وكيل المستخدم: Googlebot
عدم السماح: /

أنت تريد فقط استخدام هذا الرمز لمنع فهرسة موقعك على الإطلاق.

لا تستخدم هذا لمجرد نزوة!

لديك سبب محدد للتأكد من أنك لا تريد أن تزحف الروبوتات إلى موقعك على الإطلاق.

على سبيل المثال، هناك مشكلة شائعة تتمثل في الرغبة في إبقاء موقع التدريج الخاص بك خارج الفهرس.

لا تريد أن يقوم Google بالزحف إلى موقع التدريج وموقعك الحقيقي لأنك تضاعف المحتوى الخاص بك وتخلق مشكلات محتوى مكررة نتيجة لذلك.

منع جميع الروبوتات من الخادم الخاص بك

إذا كنت تريد منع جميع برامج الروبوت من الزحف إلى موقعك على الإطلاق، فإن الكود التالي هو الذي تريد استخدامه:

وكيل المستخدم: *
عدم السماح: /

هذا هو الكود الذي يمنع جميع الروبوتات هل تتذكر مثال موقع التدريج الخاص بنا من الأعلى؟

ربما تريد استبعاد الموقع المرحلي من جميع برامج الروبوت قبل نشر موقعك بالكامل عليها جميعًا.

أو ربما ترغب في الحفاظ على خصوصية موقعك لبعض الوقت قبل إطلاقه للعالم.

وفي كلتا الحالتين، سيؤدي ذلك إلى إبقاء موقعك مخفيًا عن أعين المتطفلين.

منع الروبوتات من الزحف إلى مجلد معين

إذا كنت تريد لسبب ما منع الروبوتات من الزحف إلى مجلد معين تريد تعيينه، فيمكنك القيام بذلك أيضًا.

وفيما يلي الرمز الذي ستستخدمه:

وكيل المستخدم: *
عدم السماح: /اسم المجلد/

هناك العديد من الأسباب التي قد تجعل شخصًا ما يرغب في استبعاد الروبوتات من المجلد. ربما تريد التأكد من عدم فهرسة محتوى معين على موقعك.

أو ربما يتسبب هذا المجلد المعين في حدوث أنواع معينة من مشكلات المحتوى المكرر، وتريد استبعاده من الزحف بالكامل.

وفي كلتا الحالتين، هذا سوف يساعدك على القيام بذلك.

الأخطاء الشائعة في ملف Robots.txt

هناك العديد من الأخطاء التي يرتكبها محترفو تحسين محركات البحث (SEO) باستخدام ملف robots.txt. ومن أهم الأخطاء الشائعة ما يلي:

  • استخدام كل من عدم السماح في ملف robots.txt وnoindex.
  • استخدام الشرطة المائلة للأمام / (جميع المجلدات لأسفل من الجذر)، عندما تقصد حقًا عنوان URL محددًا.
  • لا يشمل المسار الصحيح.
  • عدم اختبار ملف robots.txt الخاص بك.
  • عدم معرفة الاسم الصحيح لوكيل المستخدم الذي تريد حظره.

استخدام كلا الخيارين Disallow في ملف Robots.txt وNoindex على الصفحة

صرح جون مولر من Google بأنه لا ينبغي عليك استخدام كل من عدم السماح في ملف robots.txt وnoindex على الصفحة نفسها.

إذا قمت بالأمرين معًا، فلن يتمكن محرك البحث Google من الزحف إلى الصفحة لرؤية علامة noindex، لذلك من المحتمل أن يظل بإمكانه فهرسة الصفحة على أي حال.

ولهذا السبب يجب عليك استخدام واحد فقط أو الآخر، وليس كليهما.

استخدام الشرطة المائلة للأمام عندما تقصد حقًا عنوان URL محددًا

الشرطة المائلة للأمام بعد Disallow تعني “من هذا المجلد الجذر إلى الأسفل، بشكل كامل وكلي إلى الأبد”.

سيتم حظر كل صفحة على موقعك إلى الأبد حتى تقوم بتغييرها.

إحدى المشكلات الأكثر شيوعًا التي أجدها في عمليات تدقيق مواقع الويب هي قيام شخص ما عن طريق الخطأ بإضافة شرطة مائلة للأمام إلى “عدم السماح:” ومنع Google من الزحف إلى موقعه بالكامل.

لا يشمل المسار الصحيح

نحن نتفهم. في بعض الأحيان قد يكون ترميز ملف robots.txt مهمة صعبة.

لم تتمكن من تذكر المسار الصحيح بالضبط في البداية، لذا قمت بالمراجعة في الملف وتحريكه.

المشكلة هي أن هذه المسارات المتشابهة جميعها تؤدي إلى 404 لأنها تبعد حرفًا واحدًا.

ولهذا السبب من المهم دائمًا التحقق مرة أخرى من المسارات التي تستخدمها في عناوين URL محددة.

لا تريد المخاطرة بإضافة عنوان URL إلى ملف robots.txt والذي لن يعمل في ملف robots.txt.

عدم معرفة الاسم الصحيح لوكيل المستخدم

إذا كنت تريد حظر وكيل مستخدم معين ولكنك لا تعرف اسم وكيل المستخدم هذا، فهذه مشكلة.

بدلاً من استخدام الاسم الذي تعتقد أنك تتذكره، قم بإجراء بعض الأبحاث واكتشف الاسم الدقيق لوكيل المستخدم الذي تحتاجه.

إذا كنت تحاول حظر روبوتات معينة، يصبح هذا الاسم مهمًا للغاية في جهودك.

لماذا تحظر الروبوتات والعناكب؟

هناك أسباب أخرى تجعل محترفي تحسين محركات البحث (SEO) يرغبون في منع الروبوتات من الزحف إلى مواقعهم.

ربما هم متعمقون في شبكات PBN ذات القبعة الرمادية (أو القبعة السوداء)، ويريدون إخفاء شبكة مدوناتهم الخاصة عن أعين المتطفلين (خاصة منافسيهم).

يمكنهم القيام بذلك عن طريق استخدام ملف robots.txt لحظر الروبوتات الشائعة التي يستخدمها محترفو تحسين محركات البحث لتقييم منافسيهم.

على سبيل المثال Semrush وAhrefs.

إذا أردت حظر Ahrefs، فهذا هو الكود للقيام بذلك:

وكيل المستخدم: AhrefsBot
عدم السماح: /

سيؤدي هذا إلى منع AhrefsBot من الزحف إلى موقعك بالكامل.

إذا كنت تريد حظر Semrush، فهذا هو الرمز للقيام بذلك.

هناك أيضا تعليمات أخرى هنا.

هناك الكثير من أسطر التعليمات البرمجية التي يجب إضافتها، لذا كن حذرًا عند إضافة هذه الأسطر:

لمنع SemrushBot من الزحف إلى موقعك لمختلف مشكلات تحسين محركات البحث والمشكلات الفنية:

وكيل المستخدم: SiteAuditBot
عدم السماح: /

لمنع SemrushBot من الزحف إلى موقعك لأداة تدقيق الروابط الخلفية:

وكيل المستخدم: SemrushBot-BA
عدم السماح: /

لمنع SemrushBot من الزحف إلى موقعك لأداة On Page SEO Checker والأدوات المشابهة:

وكيل المستخدم: SemrushBot-SI
عدم السماح: /

لمنع SemrushBot من التحقق من عناوين URL على موقعك بحثًا عن أداة SWA:

وكيل المستخدم: SemrushBot-SWA
عدم السماح: /

لمنع SemrushBot من الزحف إلى موقعك لأداة تحليل المحتوى وأدوات تتبع النشر:

وكيل المستخدم: SemrushBot-CT
عدم السماح: /

لمنع SemrushBot من الزحف إلى موقعك لمراقبة العلامة التجارية:

وكيل المستخدم: SemrushBot-BM
عدم السماح: /

لمنع SplitSignalBot من الزحف إلى موقعك لأداة SplitSignal:

وكيل المستخدم: SplitSignalBot
عدم السماح: /

لمنع SemrushBot-COUB من الزحف إلى موقعك لأداة Content Outline Builder:

وكيل المستخدم: SemrushBot-COUB
عدم السماح: /

استخدام ملف HTACCESS لحظر الروبوتات

إذا كنت تستخدم خادم ويب APACHE، فيمكنك استخدام ملف htaccess الخاص بموقعك لحظر برامج روبوت معينة.

على سبيل المثال، إليك كيفية استخدام التعليمات البرمجية الموجودة في htaccess لحظر ahrefsbot.

يرجى ملاحظة: كن حذرا مع هذا الرمز.

إذا كنت لا تعرف ما تفعله، فيمكنك إسقاط الخادم الخاص بك.

نحن نقدم هذا الرمز هنا فقط لأغراض المثال.

تأكد من إجراء البحث والممارسة بنفسك قبل إضافته إلى خادم الإنتاج.

أمر السماح، رفض
رفض من 51.222.152.133
رفض من 54.36.148.1
رفض من 195.154.122
السماح من الجميع

لكي يعمل هذا بشكل صحيح، تأكد من حظر جميع نطاقات IP المدرجة فيه هذا المقال على مدونة Ahrefs.

إذا كنت تريد مقدمة شاملة لـ .htaccess، فلا تبحث أكثر من ذلك هذا البرنامج التعليمي على Apache.org.

إذا كنت بحاجة إلى مساعدة في استخدام ملف htaccess الخاص بك لحظر أنواع معينة من برامج الروبوت، فيمكنك اتباع الخطوات التالية: البرنامج التعليمي هنا.

قد يتطلب حظر الروبوتات والعناكب بعض العمل

لكن الأمر يستحق ذلك في النهاية.

من خلال التأكد من منع الروبوتات والعناكب من الزحف إلى موقعك، فإنك لا تقع في نفس الفخ مثل الآخرين.

يمكنك أن تطمئن إلى أن موقعك محصن ضد بعض العمليات الآلية.

عندما تتمكن من التحكم في هذه الروبوتات المحددة، فإن ذلك يجعل الأمور أفضل بكثير بالنسبة لك، كمحترف تحسين محركات البحث.

إذا كان عليك ذلك، فتأكد دائمًا من منع برامج الروبوت والعناكب المطلوبة من الزحف إلى موقعك.

سيؤدي هذا إلى تحسين الأمان، وسمعة أفضل بشكل عام عبر الإنترنت، وموقع أفضل بكثير سيكون موجودًا في السنوات القادمة.

المزيد من الموارد: