ما هو ملف robots.txt؟ دليل المبتدئين لتسميرها بالأمثلة

نشرت: 2022-03-29

يقف الإنسان الآلي الخشبي على رقعة من العشب.
آه ، ملف robots.txt - ملف صغير جدًا له آثار كبيرة. هذا أحد عناصر تحسين محركات البحث التقنية التي لا تريد أن تخطئ فيها ، أيها الناس.

في هذه المقالة ، سأشرح لماذا يحتاج كل موقع إلى ملف robots.txt وكيفية إنشاء واحد (دون التسبب في مشاكل لتحسين محركات البحث). سأجيب على الأسئلة الشائعة الشائعة وأدرج أمثلة عن كيفية تنفيذها بشكل صحيح لموقعك على الويب. سأقدم لك أيضًا دليلًا قابلاً للتنزيل يغطي جميع التفاصيل.

محتويات:

ما هو ملف robots.txt؟
ما سبب أهمية ملف robots.txt؟
ولكن ، هل ملف robots.txt ضروري؟
ما هي المشاكل التي يمكن أن تحدث مع ملف robots.txt؟
كيف يعمل ملف robots.txt؟
نصائح حول إنشاء ملف robots.txt بدون أخطاء
أداة اختبار ملف robots.txt
دليل بروتوكول استبعاد الروبوتات (تنزيل مجاني)

ما هو ملف robots.txt؟

Robots.txt هو ملف نصي يقوم ناشرو مواقع الويب بإنشائه وحفظه في جذر موقع الويب الخاص بهم. والغرض منه هو إخبار برامج زحف الويب الآلية مثل روبوتات محركات البحث بالصفحات التي لا يجب الزحف إليها على موقع الويب. يُعرف هذا أيضًا باسم بروتوكول استبعاد الروبوتات.

لا يضمن ملف Robots.txt عدم فهرسة عناوين URL المستبعدة للبحث. ذلك لأن عناكب محرك البحث لا يزال بإمكانها اكتشاف وجود هذه الصفحات عبر صفحات الويب الأخرى المرتبطة بها. أو ، قد تظل الصفحات مفهرسة من الماضي (المزيد عن ذلك لاحقًا).

كما لا يضمن ملف robots.txt تمامًا أن الروبوت لن يقوم بالزحف إلى صفحة مستبعدة ، لأن هذا نظام تطوعي. سيكون من النادر ألا تلتزم روبوتات محركات البحث الرئيسية بتوجيهاتك. لكن البعض الآخر من روبوتات الويب السيئة ، مثل spambots والبرامج الضارة وبرامج التجسس ، غالبًا ما لا يتبعون الأوامر.

تذكر أن ملف robots.txt يمكن الوصول إليه بشكل عام. يمكنك فقط إضافة /robots.txt إلى نهاية عنوان URL للنطاق لمشاهدة ملف robots.txt الخاص به (مثل ملفنا هنا). لذلك لا تقم بتضمين أي ملفات أو مجلدات قد تتضمن معلومات مهمة للأعمال. ولا تعتمد على ملف robots.txt لحماية البيانات الخاصة أو الحساسة من محركات البحث.

حسنًا ، مع هذه المحاذير بعيدًا عن الطريق ، فلنواصل ...

لماذا يعتبر ملف robots.txt مهمًا؟

تمتلك روبوتات محركات البحث التوجيه للزحف إلى صفحات الويب وفهرستها. باستخدام ملف robots.txt ، يمكنك استبعاد الصفحات أو الدلائل أو الموقع بالكامل بشكل انتقائي من الزحف.

يمكن أن يكون هذا مفيدًا في العديد من المواقف المختلفة. فيما يلي بعض المواقف التي تريد استخدام ملف robots.txt الخاص بك:

لحظر صفحات أو ملفات معينة يجب عدم الزحف إليها / فهرستها (مثل الصفحات غير المهمة أو المشابهة)
لإيقاف الزحف إلى أجزاء معينة من موقع الويب أثناء قيامك بتحديثها
لإخبار محركات البحث بموقع ملف Sitemap الخاص بك
لإخبار محركات البحث بتجاهل ملفات معينة على الموقع مثل مقاطع الفيديو والملفات الصوتية والصور وملفات PDF وما إلى ذلك ، وعدم جعلها تظهر في نتائج البحث
للمساعدة في ضمان عدم إغراق الخادم بالطلبات *

* يعد استخدام ملف robots.txt لمنع الزحف غير الضروري إحدى الطرق لتقليل الضغط على خادمك ومساعدة الروبوتات في العثور على المحتوى الجيد الخاص بك بكفاءة أكبر. تقدم Google مخططًا مفيدًا هنا. يدعم Bing أيضًا توجيه تأخير الزحف ، والذي يمكن أن يساعد في منع الكثير من الطلبات وتجنب إرهاق الخادم.

بالطبع ، هناك العديد من تطبيقات robots.txt ، وسأوضح المزيد منها في هذه المقالة.

ولكن ، هل ملف robots.txt ضروري؟

يجب أن يحتوي كل موقع على ملف robots.txt حتى لو كان فارغًا. عندما تأتي روبوتات محرك البحث إلى موقع الويب الخاص بك ، فإن أول شيء يبحثون عنه هو ملف robots.txt.

في حالة عدم وجود أي منها ، يتم إرسال رسالة الخطأ 404 (لم يتم العثور عليها) إلى العناكب. على الرغم من أن Google تقول أن Googlebot يمكنه الاستمرار والزحف إلى الموقع حتى إذا لم يكن هناك ملف robots.txt ، فإننا نعتقد أنه من الأفضل أن يكون لديك أول ملف يطلب الروبوت تحميله بدلاً من عرض خطأ 404.

ما المشكلات التي يمكن أن تحدث مع ملف robots.txt؟

يمكن أن يتسبب هذا الملف الصغير البسيط في حدوث مشكلات لتحسين محركات البحث إذا لم تكن حريصًا. إليك بعض المواقف التي يجب الانتباه إليها.

1. حجب موقعك بالكامل عن طريق الصدفة

يحدث هذا المسكت في كثير من الأحيان أكثر مما تعتقد. يمكن للمطورين استخدام ملف robots.txt لإخفاء قسم جديد أو معاد تصميمه من الموقع أثناء تطويره ، ولكن بعد ذلك ينسون إلغاء حظره بعد الإطلاق. إذا كان موقعًا موجودًا ، فقد يتسبب هذا الخطأ في انهيار تصنيفات محرك البحث فجأة.

من السهل أن تكون قادرًا على إيقاف تشغيل الزحف أثناء تحضير موقع جديد أو قسم موقع جديد للإطلاق. فقط تذكر تغيير هذا الأمر في ملف robots.txt الخاص بك عندما يتم نشر الموقع.

2. باستثناء الصفحات المفهرسة بالفعل

يؤدي الحظر في صفحات ملف robots.txt المفهرسة إلى تعليقها في فهرس Google.

إذا قمت باستبعاد الصفحات الموجودة بالفعل في فهرس محرك البحث ، فستبقى هناك. لإزالتها فعليًا من الفهرس ، يجب عليك تعيين علامة "noindex" لروبوتات التعريف على الصفحات نفسها والسماح لـ Google بالزحف إلى ومعالجة ذلك. بمجرد إسقاط الصفحات من الفهرس ، قم بحظرها في ملف robots.txt لمنع Google من طلبها في المستقبل.

كيف يعمل ملف robots.txt؟

لإنشاء ملف robots.txt ، يمكنك استخدام تطبيق بسيط مثل Notepad أو TextEdit. احفظه باستخدام اسم الملف robots.txt وقم بتحميله إلى جذر موقع الويب الخاص بك مثل www.domain.com/robots.txt —— وهذا هو المكان الذي ستبحث عنه العناكب فيه.

سيبدو ملف robots.txt البسيط كما يلي:

وكيل المستخدم: *
Disallow: / اسم الدليل /

تقدم Google شرحًا جيدًا لما تعنيه الأسطر المختلفة في المجموعة داخل ملف robots.txt في ملف المساعدة الخاص بها حول إنشاء ملف robots.txt:

تتكون كل مجموعة من عدة قواعد أو توجيهات (تعليمات) ، توجيه واحد لكل سطر.
تقدم المجموعة المعلومات التالية:
على من تنطبق المجموعة (وكيل المستخدم)
الأدلة أو الملفات التي يمكن للوكيل الوصول إليها
ما هي الدلائل أو الملفات التي لا يستطيع الوكيل الوصول إليها

سأشرح المزيد حول التوجيهات المختلفة في ملف robots.txt بعد ذلك.

توجيهات Robots.txt

تتضمن البنية الشائعة المستخدمة في ملف robots.txt ما يلي:

وكيل المستخدم

يشير User-agent إلى الروبوت الذي تقدم فيه الأوامر (على سبيل المثال ، Googlebot أو Bingbot). يمكن أن يكون لديك توجيهات متعددة لوكلاء مستخدمين مختلفين. ولكن عند استخدامك للحرف * (كما هو موضح في القسم السابق) ، فهذا يعني أن جميع وكلاء المستخدم. يمكنك مشاهدة قائمة وكلاء المستخدم هنا.

عدم السماح

تحدد قاعدة Disallow المجلد أو الملف أو حتى الدليل بأكمله لاستبعاده من وصول روبوتات الويب. تشمل الأمثلة ما يلي:

السماح للروبوتات بالتجسس على موقع الويب بأكمله:

وكيل المستخدم: *
عدم السماح:

عدم السماح لجميع الروبوتات من موقع الويب بأكمله:

وكيل المستخدم: *
عدم السماح: /

عدم السماح لجميع برامج الروبوت من "/ myfolder /" وجميع الأدلة الفرعية لـ "myfolder":

وكيل المستخدم: *
Disallow: / myfolder /

عدم السماح لجميع برامج الروبوت بالوصول إلى أي ملف يبدأ بـ "myfile.html":

وكيل المستخدم: *
Disallow: /myfile.html

عدم السماح لبرنامج Googlebot بالوصول إلى الملفات والمجلدات التي تبدأ بـ "بلدي":

وكيل المستخدم: googlebot
Disallow: / بلدي

السماح

لا ينطبق هذا الأمر إلا على Googlebot ويخبره أنه يمكنه الوصول إلى مجلد دليل فرعي أو صفحة ويب حتى في حالة عدم السماح بدليله الأصلي أو صفحة الويب الخاصة به.

خذ المثال التالي: Disallow all robots from the / scripts / folder باستثناء page.php:

Disallow: / scripts /
السماح: /scripts/page.php

تأخير الزحف

يخبر هذا الروبوتات بمدة الانتظار للزحف إلى صفحة ويب. قد تستخدم مواقع الويب هذا للحفاظ على النطاق الترددي للخادم. لا يتعرف Googlebot على هذا الأمر ، ويطلب منك Google تغيير معدل الزحف عبر Search Console. تجنب تأخير الزحف إن أمكن أو استخدمه بحذر لأنه يمكن أن يؤثر بشكل كبير على الزحف الفعال في الوقت المناسب لموقع الويب.

خريطة الموقع

أخبر روبوتات محرك البحث بمكان العثور على خريطة موقع XML في ملف robots.txt الخاص بك. مثال:

وكيل المستخدم: *
Disallow: / اسم الدليل /
خريطة الموقع: https://www.domain.com/sitemap.xml

لمعرفة المزيد حول إنشاء خرائط مواقع XML ، راجع ما يلي: ما هو ملف XML Sitemap وكيف يمكنني إنشاؤه؟

أحرف البدل

هناك حرفان يمكنهما المساعدة في توجيه برامج الروبوت حول كيفية التعامل مع أنواع عناوين URL معينة:

الشخصية. كما ذكرنا سابقًا ، يمكنه تطبيق التوجيهات على روبوتات متعددة بمجموعة واحدة من القواعد. الاستخدام الآخر هو مطابقة سلسلة من الأحرف في عنوان URL لمنع عناوين URL هذه.

على سبيل المثال ، تمنع القاعدة التالية Googlebot من الوصول إلى أي عنوان URL يحتوي على "صفحة":

وكيل المستخدم: googlebot
عدم السماح: / * الصفحة

الحرف $. يخبر $ الروبوتات بمطابقة أي تسلسل في نهاية عنوان URL. على سبيل المثال ، قد ترغب في حظر الزحف إلى جميع ملفات PDF على موقع الويب:

وكيل المستخدم: *
Disallow: /*.pdf$

لاحظ أنه يمكنك دمج أحرف البدل $ و * ، ويمكن دمجها لتعليمات allow و disallow.

على سبيل المثال ، عدم السماح لجميع ملفات asp:

وكيل المستخدم: *
Disallow: / * asp $

لن يستبعد هذا الملفات ذات سلاسل الاستعلام أو المجلدات بسبب $ الذي يحدد النهاية
تم الاستبعاد بسبب حرف البدل الذي يسبق asp - / pretty-wasp
تم الاستبعاد بسبب حرف البدل الذي يسبق asp - /login.asp
غير مستبعد بسبب $ و URL بما في ذلك سلسلة الاستعلام (؟ Forgotten-password = 1) - /login.asp؟forgotten-password=1

عدم الزحف مقابل عدم الفهرسة

إذا كنت لا تريد أن يقوم محرك بحث Google بفهرسة الصفحة ، فهناك علاجات أخرى لذلك بخلاف ملف robots.txt. كما تشير Google هنا:

ما الطريقة التي يجب استخدامها لمنع برامج الزحف؟
ملف robots.txt: استخدمه إذا كان الزحف إلى المحتوى الخاص بك يسبب مشاكل على الخادم الخاص بك. على سبيل المثال ، قد ترغب في عدم السماح بالزحف إلى نصوص تقويم لا نهائية. يجب ألا تستخدم ملف robots.txt لحظر المحتوى الخاص (استخدم المصادقة من جانب الخادم بدلاً من ذلك) ، أو التعامل مع تحديد العنوان الأساسي. للتأكد من عدم فهرسة عنوان URL ، استخدم العلامة الوصفية لبرامج الروبوت أو رأس X-Robots-Tag HTTP بدلاً من ذلك.
العلامة الوصفية لبرامج الروبوت: استخدمها إذا كنت تريد التحكم في كيفية عرض صفحة HTML فردية في نتائج البحث (أو للتأكد من عدم ظهورها).
رأس X-Robots-Tag HTTP: استخدمه إذا كنت تريد التحكم في كيفية عرض المحتوى بخلاف HTML في نتائج البحث (أو للتأكد من عدم ظهوره).

وإليك المزيد من الإرشادات من Google:

من المحتمل أن يؤدي حظر Google من الزحف إلى صفحة ما إلى إزالة الصفحة من فهرس Google.
ومع ذلك ، لا يضمن ملف robots.txt Disallow أن الصفحة لن تظهر في النتائج: قد تظل Google تقرر ، بناءً على المعلومات الخارجية مثل الروابط الواردة ، أنها ذات صلة. إذا كنت ترغب في حظر فهرسة صفحة بشكل صريح ، فيجب عليك بدلاً من ذلك استخدام العلامة الوصفية noindex robots أو رأس X-Robots-Tag HTTP. في هذه الحالة ، يجب ألا تمنع الصفحة في ملف robots.txt ، لأنه يجب الزحف إلى الصفحة حتى يمكن رؤية العلامة والامتثال لها.

نصائح حول إنشاء ملف robots.txt بدون أخطاء

فيما يلي بعض النصائح التي يجب وضعها في الاعتبار عند إنشاء ملف robots.txt الخاص بك:

الأوامر حساسة لحالة الأحرف. أنت بحاجة إلى حرف "D" في Disallow ، على سبيل المثال.
قم دائمًا بتضمين مسافة بعد القولون في الأمر.
عند استبعاد دليل كامل ، ضع شرطة مائلة للأمام قبل وبعد اسم الدليل ، مثل: / اسم الدليل /
سيتم تضمين جميع الملفات التي لم يتم استبعادها على وجه التحديد حتى تقوم برامج الروبوت بالزحف إليها.

أداة اختبار ملف robots.txt

اختبر دائمًا ملف robots.txt الخاص بك. من الشائع أن تعتقد أن ناشري مواقع الويب قد فهموا هذا الخطأ ، مما قد يؤدي إلى تدمير إستراتيجية تحسين محركات البحث (مثل إذا لم تسمح بالزحف إلى الصفحات المهمة أو موقع الويب بأكمله).

استخدم أداة اختبار ملف robots.txt من Google. يمكنك العثور على معلومات حول ذلك هنا.

دليل بروتوكول استبعاد الروبوتات

إذا كنت بحاجة إلى مزيد من التعمق أكثر من هذا المقال ، فقم بتنزيل دليل بروتوكول استبعاد الروبوتات . إنه ملف PDF مجاني يمكنك حفظه وطباعته كمرجع لمنحك الكثير من التفاصيل حول كيفية إنشاء ملف robots.txt الخاص بك.

خواطر ختامية

ملف robots.txt هو ملف بسيط على ما يبدو ، لكنه يسمح لناشري مواقع الويب بإعطاء توجيهات معقدة حول الكيفية التي يريدون من خلالها أن تقوم الروبوتات بالزحف إلى موقع ويب. يعد الحصول على هذا الملف بشكل صحيح أمرًا بالغ الأهمية ، لأنه قد يؤدي إلى القضاء على برنامج تحسين محركات البحث إذا تم القيام به بشكل خاطئ.

نظرًا لوجود العديد من الفروق الدقيقة حول كيفية استخدام ملف robots.txt ، تأكد من قراءة مقدمة Google عن ملف robots.txt.

هل لديك مشكلات في الفهرسة أو مشكلات أخرى تحتاج إلى خبرة فنية في تحسين محركات البحث؟ إذا كنت ترغب في الحصول على استشارة مجانية وعرض أسعار للخدمات ، فاتصل بنا اليوم.