Файлы robots.txt: почему это важно для SEO
Опубликовано: 2022-05-05Файлы robots.txt, также известные как протокол исключения роботов, являются незаменимым инструментом для SEO. Этот текстовый файл информирует сканеры поисковых систем, к каким страницам можно получить доступ и впоследствии проиндексировать. Файлы robots.txt также не позволяют сканерам получить доступ к определенным частям вашего веб-сайта. Это полезно, если вы хотите предотвратить индексацию непубличных страниц. Это могут быть страницы, которые все еще разрабатываются, или страницы онлайн-входа. Если ваш веб-сайт особенно обширен, файл robots.txt также полезен для обеспечения индексации наиболее релевантных страниц.
Изложив ваши запросы в файле Robots.txt, поисковые системы смогут получить доступ только к нужным вам страницам. Это не только обеспечивает высокую степень конфиденциальности, но и максимизирует краулинговый бюджет. Хотите узнать больше? Читайте подробное руководство о том, почему файлы Robots.txt необходимы для SEO.
Описание robots.txt
Основные поисковые системы, такие как Google и Bing, отправляют так называемые «краулеры» для поиска на веб-сайтах. Эти поисковые роботы, также известные как «роботы» или «пауки», предоставляют важную информацию поисковым системам, чтобы ваш сайт мог быть правильно проиндексирован на страницах результатов поисковых систем (SERP). Это облегчает пользователям Интернета поиск вашего сайта путем ввода запросов в поисковые системы. В файле Robots.txt четко указано, какие страницы можно искать, а какие страницы роботам следует избегать.
Хотите заблокировать доступ всех сканеров поисковых систем к вашей странице входа клиента? Можно использовать следующую команду Robots.txt:
Пользовательский агент: *
Запретить: имя_сайта.com/customer-login
Вы также можете адаптировать команды, чтобы сосредоточиться на конкретной поисковой системе. Если вы хотите запретить поисковым роботам Google доступ к вашим страницам, можно использовать следующую команду:
Агент пользователя: Googlebot
Запретить: имя_сайта.com/customer-login
Чтобы облегчить себе жизнь, вы можете добавить в список запрещенных столько страниц, сколько пожелаете. После того, как вы создали файл Robots.txt, его следует поместить в основной каталог вашего веб-сайта. Используя приведенные выше примеры в качестве руководства, URL-адрес файла Robots.txt должен выглядеть примерно так:
https://www.имясайта.com/robots.txt
Зачем блокировать доступ к веб-страницам?
Блокировка доступа к определенным веб-страницам поможет поддержать ваши усилия по SEO. Таким образом, вам нужно понимать, когда использовать файл Robots.txt. Если на вашем веб-сайте есть дубликаты страниц, вы не должны позволять поисковым роботам индексировать их. Почему? Индексация дублированного контента может нанести ущерб вашему SEO.
Хотя Google и другие поисковые системы не будут налагать на вас штрафы за дублированный контент, ненужная индексация дубликатов страниц может затруднить ранжирование ваших самых ценных страниц.
Файлы robots.txt также упрощают максимально эффективное использование краулингового бюджета. Сканирование ботов — это ценный товар, который может повысить вашу эффективность SEO. Однако одновременные обходы могут оказаться непосильными для небольших сайтов. Более крупные сайты или сайты с высоким авторитетом, как правило, имеют больший допуск на сканирование.
Однако менее известные сайты должны работать с относительно скромными бюджетами. Установка Robots.txt означает, что вы можете расставить приоритеты для самых важных страниц вашего веб-сайта, гарантируя, что ваш краулинговый бюджет не будет потрачен впустую на второстепенные страницы и лишний контент.
Также могут быть веб-страницы, к которым вы не хотите, чтобы каждый пользователь имел доступ. Если ваш веб-сайт предлагает услугу или включает воронку продаж, есть множество страниц, которые вы захотите показывать клиентам только после того, как они выполнят определенное действие. Если вы поощряете эти действия с помощью кодов скидок или вознаграждений за лояльность, вы хотите, чтобы к ним имели доступ только пользователи, которые завершили путь клиента. Блокируя эти страницы, вы не позволяете случайным пользователям наткнуться на эту информацию через поисковые запросы.
Файлы robots.txt также полезны для предотвращения индексации поисковыми системами определенных материалов, таких как частные изображения. Их также можно использовать для точного определения местоположения карты сайта, а также для предотвращения перегрузки ваших серверов, если боты пытаются одновременно индексировать изображения.

Как создать файл robots.txt
Теперь, когда мы изучили причины, по которым вам может понадобиться файл Robots.txt, мы можем выяснить, как его создать. Самый простой способ создать файл Robots.txt — использовать Инструменты Google для веб-мастеров. После того, как вы создали учетную запись, нажмите «Доступ для сканера», а затем перейдите к «Настройка сайта». Открыв эту часть меню, нажмите «Создать robots.txt». Этот инструмент позволяет быстро создать файл Robots.txt.
Чтобы заблокировать доступ к страницам для поискового робота, просто выберите опцию «заблокировать». Затем вы можете выбрать «User-Agent», чтобы указать, какие сканеры поисковых систем вы хотите заблокировать. Теперь вы можете ввести каталоги сайтов, к которым вы хотите ограничить доступ. Вместо того, чтобы вводить полный URL-адрес целевой страницы, вам нужно всего лишь добавить расширение в «каталоги и файлы». Другими словами, если вы хотите заблокировать доступ сканера к странице входа вашего клиента, вы просто набираете:
/Вход для клиентов
После того, как вы определились, какие страницы вы хотите заблокировать, вы можете нажать «Добавить правило», чтобы создать файл Robots.txt. Сгенерированный файл Robots.txt также даст вам возможность «Разрешить» исключения, что полезно, если вы хотите запретить определенным поисковым системам индексировать ваш сайт.
Когда все будет готово, вы можете щелкнуть значок загрузки, чтобы создать окончательный файл Robots.txt.
Как установить файл robots.txt?
Теперь вся тяжелая работа позаботилась о вас, пришло время установить файл Robots.txt. Вы можете сделать это самостоятельно, загрузив свой файл с помощью FTP-решения. Однако, если в ваших знаниях в области программирования есть несколько пробелов, лучше всего воспользоваться услугами эксперта. Если вы поручаете задачу программисту, обязательно укажите, какие именно страницы вы хотите заблокировать, и укажите любые исключения.
Файлы robots.txt: основные моменты, которые следует помнить
Чтобы убедиться, что вы используете файлы Robots.txt наилучшим образом, следует помнить о некоторых рекомендациях. Это может показаться очевидным, но убедитесь, что вы проводите инвентаризацию своих страниц и не блокируете доступ к ценным страницам, которые вы хотите просканировать и проиндексировать.
Хотя многие пользователи обращаются к файлу robots.txt, чтобы заблокировать отображение конфиденциальной информации на страницах результатов поиска, это не лучший способ скрыть такие материалы от посторонних глаз. Если другие страницы ссылаются на те, которые вы заблокировали, всегда есть шанс, что они могут быть проиндексированы. Используйте альтернативный подход, чтобы скрыть конфиденциальную информацию от глаз.
Последние мысли
Чтобы убедиться, что ваш файл Robots.txt не оказывает негативного влияния на вашу поисковую оптимизацию, вы должны обновлять его. Каждый раз, когда вы добавляете новые страницы, каталоги или файлы на свой веб-сайт, вам необходимо соответствующим образом обновлять файл Robots.txt. Хотя это необходимо только в том случае, если вы добавляете контент, который необходимо ограничить, пересмотр файла Robots.txt является хорошей практикой. Это не только гарантирует максимальную безопасность содержимого вашего сайта, но также может принести пользу вашей стратегии SEO.
Эффективно внедрив файл Robots.txt, вы сможете максимально увеличить бюджет сканирования и расставить приоритеты для самых важных страниц, предотвратить индексацию дублированного контента и свести к минимуму вероятность того, что одновременные сканирования могут привести к остановке ваших серверов.
Биография автора:
Грег Туохи (Greg Tuohy) — управляющий директор Docutec, производителя принтеров для бизнеса и программного обеспечения для автоматизации делопроизводства. Грег был назначен управляющим директором в июне 2011 года и является движущей силой команды Cantec Group. Сразу же после получения научной степени в UCC в 1995 году Грег присоединился к семейному бизнесу по производству копировальных аппаратов и принтеров. Docutec также производит принтеры для дома, например, многофункциональные принтеры.