O que é robots.txt? Guia de um iniciante para pregar com exemplos

Publicados: 2022-03-29

A figura do robô de madeira fica em um pedaço de grama.
Ah, robots.txt — um arquivo minúsculo com grandes implicações. Este é um elemento técnico de SEO que você não quer errar, pessoal.

Neste artigo, explicarei por que todo site precisa de um robots.txt e como criar um (sem causar problemas para SEO). Responderei a perguntas frequentes comuns e incluirei exemplos de como executá-lo corretamente para seu site. Também fornecerei um guia para download que abrange todos os detalhes.

Conteúdo:

O que é robots.txt?
Por que o robots.txt é importante?
Mas, o robots.txt é necessário?
Quais problemas podem ocorrer com o robots.txt?
Como funciona o robots.txt?
Dicas para criar um robots.txt sem erros
O testador robots.txt
Guia do Protocolo de Exclusão de Robôs (download gratuito)

O que é robots.txt?

Robots.txt é um arquivo de texto que os editores de sites criam e salvam na raiz do site. Seu objetivo é informar aos rastreadores da Web automatizados, como bots de mecanismos de pesquisa, quais páginas não devem ser rastreadas no site. Isso também é conhecido como protocolo de exclusão de robôs.

O Robots.txt não garante que os URLs excluídos não sejam indexados para pesquisa. Isso ocorre porque os spiders dos mecanismos de pesquisa ainda podem descobrir que essas páginas existem por meio de outras páginas da Web que estão vinculadas a elas. Ou, as páginas ainda podem ser indexadas do passado (mais sobre isso posteriormente).

Robots.txt também não garante absolutamente que um bot não rastreie uma página excluída, pois esse é um sistema voluntário. Seria raro que os principais bots de mecanismos de pesquisa não aderissem às suas diretrizes. Mas outros que são robôs ruins da web, como spambots, malware e spyware, geralmente não seguem ordens.

Lembre-se de que o arquivo robots.txt pode ser acessado publicamente. Você pode simplesmente adicionar /robots.txt ao final de um URL de domínio para ver seu arquivo robots.txt (como o nosso aqui). Portanto, não inclua arquivos ou pastas que possam incluir informações críticas para os negócios. E não confie no arquivo robots.txt para proteger dados privados ou confidenciais dos mecanismos de pesquisa.

OK, com essas ressalvas fora do caminho, vamos continuar…

Por que o robots.txt é importante?

Os bots de mecanismos de pesquisa têm a diretiva de rastrear e indexar páginas da web. Com um arquivo robots.txt, você pode excluir seletivamente páginas, diretórios ou todo o site do rastreamento.

Isso pode ser útil em muitas situações diferentes. Aqui estão algumas situações em que você deve usar seu robots.txt:

Para bloquear determinadas páginas ou arquivos que não devem ser rastreados/indexados (como páginas sem importância ou semelhantes)
Para parar de rastrear determinadas partes do site enquanto você as atualiza
Para informar aos mecanismos de pesquisa a localização do seu mapa do site
Para dizer aos mecanismos de pesquisa para ignorar determinados arquivos no site, como vídeos, arquivos de áudio, imagens, PDFs, etc., e não exibi-los nos resultados da pesquisa
Para ajudar a garantir que seu servidor não fique sobrecarregado com solicitações*

*Usar o robots.txt para bloquear o rastreamento desnecessário é uma forma de reduzir a pressão sobre o servidor e ajudar os bots a encontrar seu bom conteúdo com mais eficiência. O Google fornece um gráfico útil aqui. Além disso, o Bing oferece suporte à diretiva de atraso de rastreamento, que pode ajudar a evitar muitas solicitações e evitar sobrecarregar o servidor.

Claro, existem muitas aplicações do robots.txt, e vou descrever mais delas neste artigo.

Mas, o robots.txt é necessário?

Todo site deve ter um arquivo robots.txt, mesmo que esteja em branco. Quando os bots dos mecanismos de pesquisa chegam ao seu site, a primeira coisa que procuram é um arquivo robots.txt.

Se nenhum existir, os spiders receberão um erro 404 (não encontrado). Embora o Google diga que o Googlebot pode continuar e rastrear o site mesmo se não houver um arquivo robots.txt, acreditamos que é melhor ter o primeiro arquivo que um bot solicita carregar em vez de produzir um erro 404.

Quais problemas podem ocorrer com o robots.txt?

Este pequeno arquivo simples pode causar problemas para SEO se você não for cuidadoso. Aqui estão algumas situações a serem observadas.

1. Bloqueando todo o seu site por acidente

Essa pegadinha acontece com mais frequência do que você imagina. Os desenvolvedores podem usar o robots.txt para ocultar uma seção nova ou redesenhada do site enquanto o desenvolvem, mas esquecem de desbloqueá -lo após o lançamento. Se for um site existente, esse erro pode fazer com que os rankings dos mecanismos de pesquisa caiam repentinamente.

É útil poder desativar o rastreamento enquanto você prepara um novo site ou seção do site para lançamento. Apenas lembre-se de alterar esse comando em seu robots.txt quando o site for ao ar.

2. Excluindo páginas que já estão indexadas

O bloqueio em páginas do robots.txt que são indexadas faz com que elas fiquem presas no índice do Google.

Se você excluir páginas que já estão no índice do mecanismo de pesquisa, elas permanecerão lá. Para realmente removê-los do índice, você deve definir uma tag meta robots “noindex” nas próprias páginas e permitir que o Google rastreie e processe isso. Assim que as páginas forem retiradas do índice, bloqueie-as em robots.txt para evitar que o Google as solicite no futuro.

Como funciona o robots.txt?

Para criar um arquivo robots.txt, você pode usar um aplicativo simples como o Bloco de Notas ou o TextEdit. Salve-o com o nome de arquivo robots.txt e carregue-o na raiz do seu site como www.domain.com/robots.txt —— é aqui que os spiders o procurarão.

Um arquivo robots.txt simples seria algo assim:

Agente de usuário: *
Não permitir: /diretório-nome/

O Google dá uma boa explicação sobre o significado das diferentes linhas em um grupo no arquivo robots.txt em seu arquivo de ajuda sobre a criação de robots.txt:

Cada grupo consiste em várias regras ou diretivas (instruções), uma diretiva por linha.
Um grupo fornece as seguintes informações:
A quem o grupo se aplica (o agente do usuário)
Quais diretórios ou arquivos esse agente pode acessar
Quais diretórios ou arquivos que o agente não pode acessar

Explicarei mais sobre as diferentes diretivas em um arquivo robots.txt a seguir.

Diretivas Robots.txt

A sintaxe comum usada no robots.txt inclui o seguinte:

Agente de usuário

User-agent refere-se ao bot no qual você está dando os comandos (por exemplo, Googlebot ou Bingbot). Você pode ter várias diretivas para diferentes agentes de usuário. Mas quando você usa o caractere * (como mostrado na seção anterior), esse é um catch-all que significa todos os agentes do usuário. Você pode ver uma lista de agentes de usuário aqui.

Não permitir

A regra Disallow especifica a pasta, arquivo ou até mesmo um diretório inteiro a ser excluído do acesso de robôs da Web. Os exemplos incluem o seguinte:

Permitir que robôs rastreiem todo o site:

Agente de usuário: *
Não permitir:

Não permita todos os robôs de todo o site:

Agente de usuário: *
Não permitir: /

Não permita todos os robôs de “/myfolder/” e todos os subdiretórios de “myfolder”:

Agente de usuário: *
Não permitir: /minhapasta/

Não permita que todos os robôs acessem qualquer arquivo que comece com “myfile.html”:

Agente de usuário: *
Não permitir: /meuarquivo.html

Não permita que o Googlebot acesse arquivos e pastas que começam com "meu":

Agente do usuário: googlebot
Não permitir: /meu

Permitir

Esse comando é aplicável apenas ao Googlebot e informa que ele pode acessar uma pasta ou página da Web de um subdiretório mesmo quando seu diretório ou página da Web pai não for permitido.

Veja o exemplo a seguir: Não permita todos os robôs da pasta /scripts/exceto page.php:

Não permitir: /scripts/
Permitir: /scripts/page.php

Atraso de rastreamento

Isso informa aos bots quanto tempo devem esperar para rastrear uma página da web. Os sites podem usar isso para preservar a largura de banda do servidor. O Googlebot não reconhece esse comando e o Google solicita que você altere a taxa de rastreamento por meio do Search Console. Evite o atraso no rastreamento, se possível, ou use-o com cuidado, pois isso pode afetar significativamente o rastreamento oportuno e eficaz de um site.

Caracteres curinga

Existem dois caracteres que podem ajudar a direcionar os robôs sobre como lidar com tipos de URL específicos:

O personagem. Como mencionado anteriormente, ele pode aplicar diretivas a vários robôs com um conjunto de regras. O outro uso é corresponder a uma sequência de caracteres em um URL para proibir esses URLs.

Por exemplo, a regra a seguir impediria o Googlebot de acessar qualquer URL contendo "página":

Agente do usuário: googlebot
Não permitir: /*página

O caractere $. O $ diz aos robôs para corresponderem a qualquer sequência no final de uma URL. Por exemplo, você pode querer bloquear o rastreamento de todos os PDFs no site:

Agente de usuário: *
Não permitir: /*.pdf$

Observe que você pode combinar caracteres curinga $ e * e eles podem ser combinados para diretivas de permissão e proibição.

Por exemplo, não permitir todos os arquivos asp:

Agente de usuário: *
Não permitir: /*asp$

Isso não excluirá arquivos com strings de consulta ou pastas devido ao $ que designa o final
Excluído devido ao curinga anterior asp – /pretty-wasp
Excluído devido ao curinga anterior ao asp – /login.asp
Não excluído devido ao $ e ao URL incluindo uma string de consulta (?forgotten-password=1) – /login.asp?forgotten-password=1

Não Rastreamento x Não Indexação

Se você não quiser que o Google indexe uma página, há outras soluções para isso além do arquivo robots.txt. Como o Google aponta aqui:

Qual método devo usar para bloquear rastreadores?
robots.txt: use-o se o rastreamento do seu conteúdo estiver causando problemas em seu servidor. Por exemplo, talvez você queira não permitir o rastreamento de scripts de calendário infinitos. Você não deve usar o robots.txt para bloquear conteúdo privado (em vez disso, use autenticação do lado do servidor) ou manipular a canonização. Para garantir que um URL não seja indexado, use a metatag robots ou o cabeçalho HTTP X-Robots-Tag.
metatag robots: use-a se precisar controlar como uma página HTML individual é exibida nos resultados da pesquisa (ou para garantir que ela não seja exibida).
Cabeçalho HTTP X-Robots-Tag: Use-o se precisar controlar como o conteúdo não HTML é exibido nos resultados da pesquisa (ou para garantir que não seja exibido).

E aqui está mais orientações do Google:

Impedir que o Google rastreie uma página provavelmente removerá a página do índice do Google.
No entanto, o robots.txt Disallow não garante que uma página não aparecerá nos resultados: o Google ainda pode decidir, com base em informações externas, como links de entrada, que ela é relevante. Se você deseja bloquear explicitamente a indexação de uma página, use a metatag de robôs noindex ou o cabeçalho HTTP X-Robots-Tag. Nesse caso, você não deve proibir a página no robots.txt, pois a página deve ser rastreada para que a tag seja vista e obedecida.

Dicas para criar um robots.txt sem erros

Aqui estão algumas dicas para ter em mente ao criar seu arquivo robots.txt:

Os comandos diferenciam maiúsculas de minúsculas. Você precisa de um “D” maiúsculo em Disallow , por exemplo.
Sempre inclua um espaço após os dois pontos no comando.
Ao excluir um diretório inteiro, coloque uma barra antes e depois do nome do diretório, assim: /directory-name/
Todos os arquivos não excluídos especificamente serão incluídos para rastreamento dos bots.

O testador robots.txt

Sempre teste seu arquivo robots.txt. É mais comum que você pense que os editores de sites erram, o que pode destruir sua estratégia de SEO (como se você não permitir o rastreamento de páginas importantes ou de todo o site).

Use a ferramenta testador robots.txt do Google. Você pode encontrar informações sobre isso aqui.

Guia do Protocolo de Exclusão de Robôs

Se você precisar de um mergulho mais profundo do que este artigo, baixe nosso Guia do Protocolo de Exclusão de Robôs . É um PDF gratuito que você pode salvar e imprimir para referência para fornecer muitos detalhes sobre como criar seu robots.txt.

Considerações finais

O arquivo robots.txt é um arquivo aparentemente simples, mas permite que os editores de sites forneçam diretivas complexas sobre como eles desejam que os bots rastreiem um site. Acertar esse arquivo é fundamental, pois pode destruir seu programa de SEO se for feito de forma errada.

Como há muitas nuances sobre como usar o robots.txt, leia a introdução do Google ao robots.txt.

Você tem problemas de indexação ou outros problemas que precisam de conhecimentos técnicos de SEO? Se você gostaria de uma consulta gratuita e orçamento de serviços, entre em contato conosco hoje.