Archivos robots.txt: por qué es crucial para el SEO

Publicado: 2022-05-05

Los archivos Robots.txt, también conocidos como protocolo de exclusión de robots, son una herramienta indispensable para el SEO. Este archivo de texto informa a los rastreadores de los motores de búsqueda a qué páginas se puede acceder y posteriormente indexar. Los archivos Robots.txt también evitan que los rastreadores accedan a ciertas partes de su sitio web. Esto es útil si desea evitar que se indexen páginas no públicas. Esto podría incluir páginas que aún se están desarrollando o páginas de inicio de sesión en línea. Si su sitio web es particularmente extenso, Robots.txt también es útil para garantizar que sus páginas más relevantes estén indexadas.

Al delinear sus solicitudes en un archivo Robots.txt, los motores de búsqueda solo podrán acceder a las páginas que desee. Esto no solo le brinda un alto grado de privacidad, sino que también maximiza su presupuesto de rastreo. ¿Interesado en aprender más? Siga leyendo para obtener una guía detallada sobre por qué los archivos Robots.txt son esenciales para el SEO.

Robots.txt explicado

Los principales motores de búsqueda como Google y Bing envían los llamados "rastreadores" para buscar en los sitios web. También conocidos como "robots" o "arañas", estos rastreadores brindan información vital a los motores de búsqueda para que su sitio pueda indexarse correctamente en las páginas de resultados del motor de búsqueda (SERP). Esto facilita que los usuarios de Internet descubran su sitio ingresando consultas en los motores de búsqueda. Un archivo Robots.txt describe claramente qué páginas se pueden buscar y qué páginas deben evitar los robots.

¿Quiere bloquear el acceso de todos los rastreadores de motores de búsqueda a su página de inicio de sesión de cliente? Se puede utilizar el siguiente comando Robots.txt:

Agente de usuario: *
No permitir: websitename.com/customer-login

También puede adaptar los comandos para centrarse en un motor de búsqueda en particular. Si solo desea evitar que los rastreadores de Google accedan a sus páginas, puede utilizar el siguiente comando:

Agente de usuario: robot de Google
No permitir: websitename.com/customer-login

Para facilitarle la vida, puede agregar tantas páginas como desee a la lista no permitida. Una vez que haya creado un archivo Robots.txt, debe colocarse en el directorio principal de su sitio web. Usando los ejemplos anteriores como guía, la URL de un archivo Robots.txt debería ser algo como esto:

https://www.nombredelsitioweb.com/robots.txt

¿Por qué bloquear el acceso a las páginas web?

Bloquear el acceso a ciertas páginas web ayudará a reforzar sus esfuerzos de SEO. Como tal, deberá comprender cuándo poner en juego un archivo Robots.txt. Si su sitio web incluye páginas duplicadas, no debe permitir que los rastreadores las indexen. ¿Por qué? La indexación de contenido duplicado puede ser perjudicial para su SEO.

Aunque Google y otros motores de búsqueda no le impondrán sanciones por contenido duplicado, la indexación innecesaria de páginas duplicadas puede dificultar que sus páginas más valiosas se clasifiquen bien.

Los archivos Robots.txt también facilitan el aprovechamiento máximo de su presupuesto de rastreo. El rastreo de bots es un producto valioso que puede mejorar su rendimiento de SEO. Sin embargo, los rastreos simultáneos pueden resultar abrumadores para sitios más pequeños. Los sitios más grandes, o aquellos con mucha autoridad, tienden a tener una mayor asignación de rastreo.

Sin embargo, los sitios menos establecidos deben trabajar con presupuestos relativamente modestos. Instalar Robots.txt significa que puede priorizar las páginas más importantes de su sitio web, asegurando que su presupuesto de rastreo no se desperdicie en páginas secundarias y contenido superfluo.

También puede haber páginas web a las que no desea que todos los usuarios puedan acceder. Si su sitio web ofrece un servicio o incluye un embudo de ventas, hay numerosas páginas que solo querrá mostrar a los clientes después de que hayan completado una determinada acción. Si incentiva estas acciones con códigos de descuento o recompensas de lealtad, solo querrá que accedan a ellos los usuarios que hayan completado un viaje de cliente. Al bloquear estas páginas, está evitando que los usuarios casuales encuentren esta información a través de consultas en los motores de búsqueda.

Los archivos Robots.txt también son útiles para evitar que los motores de búsqueda indexen cierto material, como imágenes privadas. También se pueden usar para identificar la ubicación de un mapa del sitio, así como para evitar que sus servidores se sobrecarguen si los bots intentan indexar imágenes simultáneamente.

Cómo crear un archivo Robots.txt

Ahora que hemos explorado las razones por las que puede necesitar un archivo Robots.txt, podemos investigar cómo crear uno. La forma más sencilla de crear un archivo Robots.txt es utilizar las Herramientas para webmasters de Google. Una vez que haya creado una cuenta, haga clic en 'acceso del rastreador' y luego diríjase a 'configuración del sitio'. Una vez que haya accedido a esta parte del menú, haga clic en 'generar robots.txt'. Esta herramienta agiliza la creación de un archivo Robots.txt.

Para bloquear las páginas de acceso del rastreador, simplemente seleccione la opción 'bloquear'. A continuación, puede seleccionar 'User-Agent' para especificar qué rastreadores de motores de búsqueda desea bloquear. Ahora, puede escribir los directorios del sitio a los que desea restringir el acceso. En lugar de escribir la URL completa de la página de destino, solo necesita agregar la extensión en 'directorios y archivos'. En otras palabras, si desea bloquear el acceso del rastreador a la página de inicio de sesión de su cliente, simplemente escriba:

/inicio-de-cliente

Una vez que haya finalizado qué páginas desea bloquear, puede hacer clic en 'agregar regla' para generar Robots.txt. El archivo Robots.txt que se genera también le dará la opción de 'Permitir' excepciones, lo cual es útil si solo desea restringir que ciertos motores de búsqueda indexen su sitio.

Con todo completado, ahora puede hacer clic en el icono de descarga para producir un archivo Robots.txt final.

¿Cómo instalo un archivo Robots.txt?

Ahora que todo el trabajo duro está hecho, es hora de instalar su archivo Robots.txt. Puede hacerlo usted mismo cargando su archivo con una solución FTP. Sin embargo, si hay algunos vacíos en su conocimiento de programación, podría ser mejor contratar los servicios de un experto. Si está asignando la tarea a un programador, asegúrese de indicar exactamente qué páginas desea bloquear y especifique las excepciones.

Archivos Robots.txt: cosas clave para recordar

Para asegurarse de que está haciendo el mejor uso de los archivos Robots.txt, hay algunas prácticas recomendadas que debe tener en cuenta. Puede parecer obvio, pero asegúrese de hacer un balance de sus páginas y no bloquear el acceso a las páginas de alto valor que desea rastrear e indexar.

Aunque muchos usuarios recurren a Robots.txt para bloquear la visualización de información confidencial en las páginas de resultados de los motores de búsqueda, no es la mejor manera de mantener dicho material fuera del alcance del público. Si otras páginas se vinculan a las que ha bloqueado, siempre existe la posibilidad de que terminen siendo indexadas. Utilice un enfoque alternativo para mantener la información confidencial oculta a la vista.

Pensamientos finales

Para asegurarse de que su archivo Robots.txt no tenga un impacto negativo en su SEO, debe mantenerlo actualizado. Cada vez que agregue nuevas páginas, directorios o archivos a su sitio web, deberá actualizar su archivo Robots.txt en consecuencia. Aunque esto solo es necesario si está agregando contenido que necesita ser restringido, revisar su archivo Robots.txt es una buena práctica. No solo garantiza que el contenido de su sitio sea lo más seguro posible, sino que también puede beneficiar su estrategia de SEO.

Al implementar Robots.txt de manera efectiva, puede maximizar su presupuesto de rastreo y priorizar sus páginas más importantes, evitar la indexación de contenido duplicado y minimizar la posibilidad de que los rastreos simultáneos obliguen a sus servidores a detenerse.

Biografía del autor:

Greg Tuohy es el director general de Docutec, un proveedor de software de automatización de oficinas e impresoras comerciales. Greg fue nombrado Director General en junio de 2011 y es la fuerza impulsora detrás del equipo del Grupo Cantec. Inmediatamente después de completar una licenciatura en Ciencias en UCC en 1995, Greg se unió al negocio familiar de fotocopiadoras e impresoras. Docutec también fabrica impresoras para hogares familiares, como impresoras multifunción.