¿Qué es robots.txt? Una guía para principiantes para clavarlo con ejemplos

Publicado: 2022-03-29

La figura de un robot de madera se alza sobre un trozo de hierba.
Ah, robots.txt: un archivo diminuto con grandes implicaciones. Este es un elemento técnico de SEO en el que no querrán equivocarse, amigos.

En este artículo, explicaré por qué cada sitio web necesita un archivo robots.txt y cómo crear uno (sin causar problemas para el SEO). Responderé preguntas frecuentes comunes e incluiré ejemplos de cómo ejecutarlo correctamente para su sitio web. También te daré una guía descargable que cubre todos los detalles.

Contenido:

¿Qué es robots.txt?
¿Por qué es importante robots.txt?
Pero, ¿es necesario robots.txt?
¿Qué problemas pueden ocurrir con robots.txt?
¿Cómo funciona robots.txt?
Consejos para crear un archivo robots.txt sin errores
El probador de robots.txt
Guía del protocolo de exclusión de robots (descarga gratuita)

¿Qué es robots.txt?

Robots.txt es un archivo de texto que los editores de sitios web crean y guardan en la raíz de su sitio web. Su propósito es decirle a los rastreadores web automatizados, como los robots de los motores de búsqueda, qué páginas no deben rastrear en el sitio web. Esto también se conoce como protocolo de exclusión de robots.

Robots.txt no garantiza que las URL excluidas no se indexen para la búsqueda. Esto se debe a que las arañas de los motores de búsqueda aún pueden descubrir que esas páginas existen a través de otras páginas web que están vinculadas a ellas. O bien, las páginas aún pueden estar indexadas desde el pasado (más sobre eso más adelante).

Robots.txt tampoco garantiza absolutamente que un bot no rastreará una página excluida, ya que este es un sistema voluntario. Sería raro que los principales robots de los motores de búsqueda no se adhirieran a sus directivas. Pero otros que son robots web malos, como spambots, malware y spyware, a menudo no siguen órdenes.

Recuerde, el archivo robots.txt es de acceso público. Simplemente puede agregar /robots.txt al final de la URL de un dominio para ver su archivo robots.txt (como el nuestro aquí). Por lo tanto, no incluya ningún archivo o carpeta que pueda incluir información crítica para el negocio. Y no confíe en el archivo robots.txt para proteger datos privados o confidenciales de los motores de búsqueda.

OK, con esas advertencias fuera del camino, sigamos...

¿Por qué es importante robots.txt?

Los robots de los motores de búsqueda tienen la directiva de rastrear e indexar páginas web. Con un archivo robots.txt, puede excluir de manera selectiva páginas, directorios o todo el sitio para que no se rastree.

Esto puede ser útil en muchas situaciones diferentes. Aquí hay algunas situaciones en las que querrá usar su archivo robots.txt:

Para bloquear ciertas páginas o archivos que no deben rastrearse/indexarse (como páginas sin importancia o similares)
Para dejar de rastrear ciertas partes del sitio web mientras las actualiza
Para decirle a los motores de búsqueda la ubicación de su mapa del sitio
Para decirle a los motores de búsqueda que ignoren ciertos archivos en el sitio, como videos, archivos de audio, imágenes, archivos PDF, etc., y que no aparezcan en los resultados de búsqueda.
Para ayudar a garantizar que su servidor no se vea abrumado con solicitudes*

*Usar robots.txt para bloquear el rastreo innecesario es una forma de reducir la tensión en su servidor y ayudar a los bots a encontrar su buen contenido de manera más eficiente. Google proporciona un gráfico útil aquí. Además, Bing admite la directiva crawl-delay, que puede ayudar a evitar demasiadas solicitudes y evitar sobrecargar el servidor.

Por supuesto, hay muchas aplicaciones de robots.txt, y describiré más de ellas en este artículo.

Pero, ¿es necesario robots.txt?

Cada sitio web debe tener un archivo robots.txt incluso si está en blanco. Cuando los robots de los motores de búsqueda llegan a su sitio web, lo primero que buscan es un archivo robots.txt.

Si no existe ninguno, las arañas reciben un error 404 (no encontrado). Aunque Google dice que Googlebot puede continuar y rastrear el sitio incluso si no hay un archivo robots.txt, creemos que es mejor que se cargue el primer archivo que solicita un bot en lugar de producir un error 404.

¿Qué problemas pueden ocurrir con robots.txt?

Este pequeño archivo simple puede causar problemas para SEO si no tienes cuidado. Aquí hay un par de situaciones a tener en cuenta.

1. Bloquear todo tu sitio por accidente

Este problema ocurre con más frecuencia de lo que piensas. Los desarrolladores pueden usar robots.txt para ocultar una sección nueva o rediseñada del sitio mientras la están desarrollando, pero luego se olvidan de desbloquearla después del lanzamiento. Si se trata de un sitio existente, este error puede hacer que las clasificaciones de los motores de búsqueda se desplomen repentinamente.

Es útil poder desactivar el rastreo mientras prepara un nuevo sitio o sección de sitio para su lanzamiento. Solo recuerde cambiar ese comando en su archivo robots.txt cuando el sitio se active.

2. Excluyendo páginas que ya están indexadas

El bloqueo en páginas de robots.txt que están indexadas hace que se queden atascadas en el índice de Google.

Si excluye páginas que ya están en el índice del motor de búsqueda, permanecerán allí. Para eliminarlos realmente del índice, debe establecer una etiqueta "noindex" de meta robots en las propias páginas y dejar que Google rastree y procese eso. Una vez que las páginas se eliminen del índice, bloquéelas en robots.txt para evitar que Google las solicite en el futuro.

¿Cómo funciona robots.txt?

Para crear un archivo robots.txt, puede usar una aplicación simple como Notepad o TextEdit. Guárdelo con el nombre de archivo robots.txt y cárguelo en la raíz de su sitio web como www.domain.com/robots.txt —— aquí es donde las arañas lo buscarán.

Un archivo robots.txt simple se vería así:

Agente de usuario: *
No permitir: /nombre-directorio/

Google da una buena explicación de lo que significan las diferentes líneas en un grupo dentro del archivo robots.txt en su archivo de ayuda para crear robots.txt:

Cada grupo consta de varias reglas o directivas (instrucciones), una directiva por línea.

Un grupo da la siguiente información:
A quién se aplica el grupo (el agente de usuario)
A qué directorios o archivos puede acceder ese agente
A qué directorios o archivos no puede acceder ese agente

A continuación, explicaré más sobre las diferentes directivas en un archivo robots.txt.

Directivas de robots.txt

La sintaxis común utilizada en robots.txt incluye lo siguiente:

Agente de usuario

El agente de usuario se refiere al bot en el que está dando los comandos (por ejemplo, Googlebot o Bingbot). Puede tener varias directivas para diferentes agentes de usuario. Pero cuando usa el carácter * (como se muestra en la sección anterior), eso es un cajón de sastre que significa todos los agentes de usuario. Puede ver una lista de agentes de usuario aquí.

Rechazar

La regla Disallow especifica la carpeta, el archivo o incluso un directorio completo para excluir del acceso de los robots web. Los ejemplos incluyen lo siguiente:

Permita que los robots rastreen todo el sitio web:

Agente de usuario: *
Rechazar:

No permitir todos los robots de todo el sitio web:

Agente de usuario: *
No permitir: /

No permitir todos los robots de “/myfolder/” y todos los subdirectorios de “myfolder”:

Agente de usuario: *
No permitir: /micarpeta/

Impedir que todos los robots accedan a cualquier archivo que comience con "myfile.html":

Agente de usuario: *
No permitir: /miarchivo.html

No permita que Googlebot acceda a archivos y carpetas que comiencen con "mi":

Agente de usuario: googlebot
No permitir: /mi

Permitir

Este comando solo se aplica a Googlebot y le dice que puede acceder a una carpeta de subdirectorio o página web incluso cuando su directorio principal o página web no está permitido.

Tome el siguiente ejemplo: no permita todos los robots de la carpeta /scripts/excepto page.php:

No permitir: /guiones/
Permitir: /scripts/page.php

Demora de rastreo

Esto le dice a los bots cuánto tiempo deben esperar para rastrear una página web. Los sitios web pueden usar esto para preservar el ancho de banda del servidor. Googlebot no reconoce este comando y Google le pide que cambie la frecuencia de rastreo a través de Search Console. Evite el retraso del rastreo si es posible o utilícelo con cuidado, ya que puede afectar significativamente el rastreo oportuno y efectivo de un sitio web.

Caracteres comodín

Hay dos caracteres que pueden ayudar a dirigir a los robots sobre cómo manejar tipos de URL específicos:

El personaje. Como se mencionó anteriormente, puede aplicar directivas a múltiples robots con un conjunto de reglas. El otro uso es hacer coincidir una secuencia de caracteres en una URL para no permitir esas URL.

Por ejemplo, la siguiente regla impediría que Googlebot acceda a cualquier URL que contenga "página":

Agente de usuario: googlebot
No permitir: /*página

El carácter $. El $ le dice a los robots que coincidan con cualquier secuencia al final de una URL. Por ejemplo, es posible que desee bloquear el rastreo de todos los archivos PDF en el sitio web:

Agente de usuario: *
No permitir: /*.pdf$

Tenga en cuenta que puede combinar los caracteres comodín $ y *, y se pueden combinar para permitir y prohibir las directivas.

Por ejemplo, no permitir todos los archivos ASP:

Agente de usuario: *
No permitir: /*asp$

Esto no excluirá archivos con cadenas de consulta o carpetas debido al $ que designa el final
Excluido debido al comodín que precede a asp – /pretty-wasp
Excluido debido al comodín que precede a asp – /login.asp
No excluido debido a que el $ y la URL incluyen una cadena de consulta (?forgotten-password=1) – /login.asp?forgotten-password=1

No rastrear versus no indexar

Si no desea que Google indexe una página, existen otros remedios para eso además del archivo robots.txt. Como Google señala aquí:

¿Qué método debo usar para bloquear los rastreadores?
robots.txt: Úselo si el rastreo de su contenido está causando problemas en su servidor. Por ejemplo, es posible que desee prohibir el rastreo de secuencias de comandos de calendario infinitas. No debe usar robots.txt para bloquear contenido privado (en su lugar, use la autenticación del lado del servidor) o manejar la canonicalización. Para asegurarse de que una URL no esté indexada, utilice la metaetiqueta de robots o el encabezado HTTP X-Robots-Tag en su lugar.
Metaetiqueta robots: utilícela si necesita controlar cómo se muestra una página HTML individual en los resultados de búsqueda (o para asegurarse de que no se muestre).
Encabezado HTTP X-Robots-Tag: Úselo si necesita controlar cómo se muestra el contenido que no es HTML en los resultados de búsqueda (o para asegurarse de que no se muestre).

Y aquí hay más orientación de Google:

Es probable que bloquear a Google para que no rastree una página la elimine del índice de Google.
Sin embargo, robots.txt Disallow no garantiza que una página no aparecerá en los resultados: Google aún puede decidir, basándose en información externa, como enlaces entrantes, que es relevante. Si desea bloquear explícitamente una página para que no sea indexada, debe usar la metaetiqueta de robots noindex o el encabezado HTTP X-Robots-Tag. En este caso, no debe rechazar la página en robots.txt, ya que la página debe rastrearse para que la etiqueta se vea y se obedezca.

Consejos para crear un archivo robots.txt sin errores

Estos son algunos consejos que debe tener en cuenta al crear su archivo robots.txt:

Los comandos distinguen entre mayúsculas y minúsculas. Necesita una "D" mayúscula en Disallow , por ejemplo.
Siempre incluya un espacio después de los dos puntos en el comando.
Cuando excluya un directorio completo, coloque una barra inclinada antes y después del nombre del directorio, así: /nombre-del-directorio/
Todos los archivos no excluidos específicamente se incluirán para que los bots los rastreen.

El probador de robots.txt

Pruebe siempre su archivo robots.txt. Es más común que piense que los editores de sitios web se equivocan, lo que puede destruir su estrategia de SEO (como si no permite el rastreo de páginas importantes o de todo el sitio web).

Utilice la herramienta Probador de robots.txt de Google. Puede encontrar información al respecto aquí.

Guía del protocolo de exclusión de robots

Si necesita una inmersión más profunda que este artículo, descargue nuestra Guía del protocolo de exclusión de robots . Es un PDF gratuito que puede guardar e imprimir como referencia para brindarle muchos detalles sobre cómo crear su archivo robots.txt.

Pensamientos finales

El archivo robots.txt es un archivo aparentemente simple, pero permite a los editores de sitios web dar directivas complejas sobre cómo quieren que los bots rastreen un sitio web. Obtener este archivo correctamente es fundamental, ya que podría borrar su programa de SEO si se hace mal.

Debido a que hay tantos matices sobre cómo usar robots.txt, asegúrese de leer la introducción de Google a robots.txt.

¿Tiene problemas de indexación u otros problemas que necesitan experiencia técnica en SEO? Si desea una consulta gratuita y una cotización de servicios, contáctenos hoy.