Что такое robots.txt? Руководство для начинающих, как добиться успеха с примерами

Опубликовано: 2022-03-29

Деревянная фигура робота стоит на траве.
А, robots.txt — один крошечный файл с большими последствиями. Это один технический элемент SEO, в котором вы не хотите ошибиться, ребята.

В этой статье я объясню, почему каждому веб-сайту нужен файл robots.txt и как его создать (без проблем для SEO). Я отвечу на часто задаваемые вопросы и приведу примеры того, как правильно выполнить это для вашего веб-сайта. Я также дам вам загружаемое руководство, которое охватывает все детали.

Содержание:

Что такое robots.txt?
Почему robots.txt важен?
Но нужен ли файл robots.txt?
Какие проблемы могут возникнуть с robots.txt?
Как работает файл robots.txt?
Советы по созданию файла robots.txt без ошибок
Тестер robots.txt
Руководство по протоколу исключения роботов (бесплатная загрузка)

Что такое robots.txt?

Robots.txt — это текстовый файл, который издатели веб-сайтов создают и сохраняют в корне своего веб-сайта. Его цель — сообщить автоматическим веб-краулерам, таким как боты поисковых систем, какие страницы на веб-сайте не сканировать. Это также известно как протокол исключения роботов.

Robots.txt не гарантирует, что исключенные URL-адреса не будут проиндексированы для поиска. Это потому, что пауки поисковых систем все еще могут узнать, что эти страницы существуют, через другие веб-страницы, которые ссылаются на них. Или страницы все еще могут быть проиндексированы из прошлого (подробнее об этом позже).

Robots.txt также не гарантирует, что бот не будет сканировать исключенную страницу, поскольку это добровольная система. Боты основных поисковых систем редко не придерживаются ваших указаний. Но другие, которые являются плохими веб-роботами, такие как спам-боты, вредоносные программы и программы-шпионы, часто не следуют приказам.

Помните, что файл robots.txt общедоступен. Вы можете просто добавить /robots.txt в конец URL-адреса домена, чтобы увидеть его файл robots.txt (как у нас здесь). Поэтому не включайте никакие файлы или папки, которые могут содержать важную для бизнеса информацию. И не полагайтесь на файл robots.txt для защиты личных или конфиденциальных данных от поисковых систем.

Хорошо, с этими предостережениями, давайте продолжим…

Почему robots.txt важен?

Боты поисковых систем имеют директиву сканировать и индексировать веб-страницы. С помощью файла robots.txt вы можете выборочно исключить страницы, каталоги или весь сайт из сканирования.

Это может быть удобно во многих различных ситуациях. Вот несколько ситуаций, в которых вы захотите использовать файл robots.txt:

Чтобы заблокировать определенные страницы или файлы, которые не следует сканировать/индексировать (например, неважные или похожие страницы)
Чтобы остановить сканирование определенных частей веб-сайта, пока вы их обновляете
Чтобы сообщить поисковым системам местоположение вашей карты сайта
Чтобы поисковые системы игнорировали определенные файлы на сайте, такие как видео, аудиофайлы, изображения, PDF-файлы и т. д., и не отображали их в результатах поиска.
Чтобы ваш сервер не был перегружен запросами*

*Использование robots.txt для блокировки ненужного сканирования — это один из способов снизить нагрузку на ваш сервер и помочь ботам более эффективно находить ваш полезный контент. Google предоставляет удобную диаграмму здесь. Кроме того, Bing поддерживает директиву Crawl-Delay, которая может помочь предотвратить слишком много запросов и избежать перегрузки сервера.

Конечно, есть много применений файла robots.txt, и я расскажу о них в этой статье.

Но нужен ли файл robots.txt?

На каждом веб-сайте должен быть файл robots.txt, даже если он пустой. Когда поисковые роботы заходят на ваш сайт, первое, что они ищут, это файл robots.txt.

Если такового не существует, то поисковые роботы получают ошибку 404 (не найдено). Хотя Google утверждает, что Googlebot может продолжать сканировать сайт, даже если файла robots.txt нет, мы считаем, что лучше загрузить первый файл, который запрашивает бот, чем выдавать ошибку 404.

Какие проблемы могут возникнуть с robots.txt?

Этот простой маленький файл может вызвать проблемы для SEO, если вы не будете осторожны. Вот несколько ситуаций, на которые стоит обратить внимание.

1. Случайная блокировка всего вашего сайта

Эта ошибка случается чаще, чем вы думаете. Разработчики могут использовать robots.txt, чтобы скрыть новый или переработанный раздел сайта во время его разработки, но затем забыть разблокировать его после запуска. Если это уже существующий сайт, эта ошибка может привести к внезапному падению рейтинга в поисковых системах.

Удобно иметь возможность отключить сканирование, пока вы готовите новый сайт или раздел сайта к запуску. Просто не забудьте изменить эту команду в файле robots.txt, когда сайт заработает.

2. Исключение уже проиндексированных страниц

Блокировка проиндексированных страниц robots.txt приводит к тому, что они застревают в индексе Google.

Если вы исключите страницы, которые уже есть в индексе поисковой системы, они останутся там. Чтобы действительно удалить их из индекса, вы должны установить на самих страницах мета-тег robots «noindex» и позволить Google просканировать и обработать его. Как только страницы будут удалены из индекса, заблокируйте их в robots.txt, чтобы Google не запрашивал их в будущем.

Как работает robots.txt?

Чтобы создать файл robots.txt, вы можете использовать простое приложение, такое как Блокнот или TextEdit. Сохраните его с именем файла robots.txt и загрузите в корень вашего веб-сайта как www.domain.com/robots.txt — здесь его будут искать пауки.

Простой файл robots.txt будет выглядеть примерно так:

Пользовательский агент: *
Запретить: /имя-каталога/

Google дает хорошее объяснение того, что означают разные строки в группе в файле robots.txt в своем файле справки по созданию robots.txt:

Каждая группа состоит из нескольких правил или директив (инструкций), по одной директиве в строке.
Группа дает следующую информацию:
К кому относится группа (пользовательский агент)
К каким каталогам или файлам может получить доступ этот агент
К каким каталогам или файлам этот агент не может получить доступ

Далее я объясню больше о различных директивах в файле robots.txt.

Директивы robots.txt

Общий синтаксис, используемый в файле robots.txt, включает следующее:

Пользовательский агент

Пользовательский агент относится к боту, которому вы отдаете команды (например, Googlebot или Bingbot). У вас может быть несколько директив для разных пользовательских агентов. Но когда вы используете символ * (как показано в предыдущем разделе), это означает все пользовательские агенты. Вы можете увидеть список пользовательских агентов здесь.

Запретить

Правило Disallow определяет папку, файл или даже весь каталог, которые нужно исключить из доступа веб-роботов. Примеры включают следующее:

Разрешить роботам сканировать весь сайт:

Пользовательский агент: *
Запретить:

Запретить всех роботов со всего сайта:

Пользовательский агент: *
Запретить: /

Запретить всех роботов из «/myfolder/» и всех подкаталогов «myfolder»:

Пользовательский агент: *
Запретить: /моя папка/

Запретить всем роботам доступ к любому файлу, начинающемуся с «myfile.html»:

Пользовательский агент: *
Запретить: /myfile.html

Запретите роботу Googlebot доступ к файлам и папкам, начинающимся с «мой»:

Агент пользователя: googlebot
Запретить: /мой

Разрешать

Эта команда применима только к роботу Googlebot и сообщает ему, что он может получить доступ к папке подкаталога или веб-странице, даже если его родительский каталог или веб-страница запрещены.

Возьмем следующий пример: запретить всех роботов из папки /scripts/, кроме page.php:

Запретить: /скрипты/
Разрешить: /scripts/page.php

Задержка сканирования

Это сообщает ботам, как долго ждать сканирования веб-страницы. Веб-сайты могут использовать это для сохранения пропускной способности сервера. Googlebot не распознает эту команду, и Google просит вас изменить скорость сканирования через консоль поиска. По возможности избегайте задержки сканирования или используйте ее с осторожностью, так как она может существенно повлиять на своевременное и эффективное сканирование веб-сайта.

Карта сайта

Сообщите ботам поисковых систем, где в файле robots.txt найти XML-карту сайта. Пример:

Пользовательский агент: *
Запретить: /имя-каталога/
Карта сайта: https://www.domain.com/sitemap.xml

Чтобы узнать больше о создании XML-карт сайта, см. статью: Что такое XML-карта сайта и как ее создать?

Подстановочные знаки

Есть два символа, которые могут помочь роботам понять, как обрабатывать определенные типы URL:

Персонаж. Как упоминалось ранее, он может применять директивы к нескольким роботам с одним набором правил. Другое использование — сопоставление последовательности символов в URL-адресе, чтобы запретить эти URL-адреса.

Например, следующее правило запрещает роботу Googlebot доступ к любому URL-адресу, содержащему слово «страница»:

Агент пользователя: googlebot
Запретить: /*страница

Символ $. Символ $ сообщает роботам, что нужно сопоставить любую последовательность в конце URL-адреса. Например, вы можете заблокировать сканирование всех PDF-файлов на веб-сайте:

Пользовательский агент: *
Запретить: /*.pdf$

Обратите внимание, что вы можете комбинировать подстановочные знаки $ и *, и их можно комбинировать для разрешающих и запрещающих директив.

Например, запретить все файлы asp:

Пользовательский агент: *
Запретить: /*asp$

Это не будет исключать файлы со строками запроса или папками из-за $, который обозначает конец
Исключено из-за подстановочного знака перед asp – /pretty-wasp
Исключено из-за подстановочного знака перед asp — /login.asp
Не исключено из-за $ и URL-адреса, включающего строку запроса (?forgotten-password=1) – /login.asp?forgotten-password=1

Не сканировать и не индексировать

Если вы не хотите, чтобы Google индексировал страницу, для этого есть другие средства, кроме файла robots.txt. Как указывает Google здесь:

Какой метод следует использовать для блокировки сканеров?
robots.txt: используйте его, если сканирование вашего контента вызывает проблемы на вашем сервере. Например, вы можете запретить сканирование бесконечных сценариев календаря. Вы не должны использовать robots.txt для блокировки частного контента (вместо этого используйте аутентификацию на стороне сервера) или обработки канонизации. Чтобы убедиться, что URL-адрес не проиндексирован, используйте метатег robots или HTTP-заголовок X-Robots-Tag.
Метатег robots: используйте его, если вам нужно управлять отображением отдельной HTML-страницы в результатах поиска (или убедиться, что она не отображается).
HTTP-заголовок X-Robots-Tag: используйте его, если вам нужно управлять отображением не-HTML-контента в результатах поиска (или убедиться, что он не отображается).

А вот еще руководство от Google:

Блокировка Google от сканирования страницы, скорее всего, приведет к удалению страницы из индекса Google.
Однако запрет в robots.txt не гарантирует, что страница не появится в результатах: Google может решить, основываясь на внешней информации, такой как входящие ссылки, что она релевантна. Если вы хотите явно заблокировать страницу от индексации, вам следует вместо этого использовать метатег noindex robots или HTTP-заголовок X-Robots-Tag. В этом случае не следует запрещать страницу в robots.txt, потому что страницу необходимо просканировать, чтобы тег был виден и подчинялся.

Советы по созданию файла robots.txt без ошибок

Вот несколько советов, которые следует учитывать при создании файла robots.txt:

Команды чувствительны к регистру. Например, вам нужна заглавная буква «D» в Disallow .
Всегда добавляйте пробел после двоеточия в команду.
При исключении всего каталога поставьте косую черту до и после имени каталога, например: /имя-каталога/
Все файлы, не исключенные специально, будут включены для сканирования ботами.

Тестер robots.txt

Всегда проверяйте файл robots.txt. Чаще всего вы думаете, что издатели веб-сайтов ошибаются, что может разрушить вашу стратегию SEO (например, если вы запретите сканирование важных страниц или всего веб-сайта).

Используйте инструмент Google robots.txt Tester. Вы можете найти информацию об этом здесь.

Руководство по протоколу исключения роботов

Если вам нужно более глубокое погружение, чем эта статья, загрузите наше Руководство по протоколу исключения роботов . Это бесплатный PDF-файл, который вы можете сохранить и распечатать для справки, чтобы получить подробную информацию о том, как создать файл robots.txt.

Заключительные мысли

Файл robots.txt на первый взгляд кажется простым, но он позволяет издателям веб-сайтов давать сложные директивы о том, как они хотят, чтобы боты сканировали веб-сайт. Правильное получение этого файла имеет решающее значение, так как оно может уничтожить вашу программу SEO, если все сделано неправильно.

Поскольку существует множество нюансов использования robots.txt, обязательно прочитайте введение Google в robots.txt.

У вас есть проблемы с индексацией или другие вопросы, требующие технических знаний SEO? Если вы хотите получить бесплатную консультацию и расценки на услуги, свяжитесь с нами сегодня.