Ningún lugar donde esconderse: bloqueo de contenido de las arañas de los motores de búsqueda

Publicado: 2022-06-12

TL;DR

Si está considerando excluir contenido de los motores de búsqueda, primero asegúrese de hacerlo por las razones correctas.
No cometa el error de suponer que puede ocultar contenido en un idioma o formato que los bots no comprenderán; esa es una estrategia miope. Sea sincero con ellos utilizando el archivo robots.txt o la etiqueta Meta Robots.
No olvides que solo porque estás usando los métodos recomendados para bloquear contenido, estás a salvo. Comprenda cómo el bloqueo de contenido hará que los bots vean su sitio.

Cuándo y cómo excluir contenido de un índice de motor de búsqueda

Una faceta importante del SEO es convencer a los motores de búsqueda de que su sitio web tiene buena reputación y proporciona un valor real a los buscadores. Y para que los motores de búsqueda determinen el valor y la relevancia de su contenido, deben ponerse en el lugar de un usuario.

Ahora, el software que analiza su sitio tiene ciertas limitaciones que los SEO han explotado tradicionalmente para mantener ciertos recursos ocultos a los motores de búsqueda. Sin embargo, los bots continúan desarrollándose y se vuelven cada vez más sofisticados en sus esfuerzos por ver su página web como lo haría un usuario humano en un navegador. Es hora de volver a examinar el contenido de su sitio que no está disponible para los robots de los motores de búsqueda, así como las razones por las que no está disponible. Todavía hay limitaciones en los bots y los webmasters tienen razones legítimas para bloquear o externalizar ciertas piezas de contenido. Dado que los motores de búsqueda buscan sitios que brinden contenido de calidad a los usuarios, deje que la experiencia del usuario guíe sus proyectos y el resto encajará.

¿Por qué bloquear contenido en absoluto?

cuándo bloquear las arañas de los motores de búsqueda — Foto de Steven Ferris (CC BY 2.0), modificada

Contenido privado. Tener páginas indexadas significa que están disponibles para aparecer en los resultados de búsqueda y, por lo tanto, son visibles para el público. Si tiene páginas privadas (información de la cuenta de los clientes, información de contacto de individuos, etc.) querrá mantenerlas fuera del índice. (Algunos sitios de tipo whois muestran la información del registrante en JavaScript para evitar que los robots rascadores roben información personal).
Contenido duplicado. Ya sean fragmentos de texto (información de marca comercial, eslóganes o descripciones) o páginas completas (por ejemplo, resultados de búsqueda personalizados dentro de su sitio), si tiene contenido que aparece en varias URL de su sitio, las arañas de los motores de búsqueda pueden verlo como de baja calidad. . Puede usar una de las opciones disponibles para bloquear esas páginas (o recursos individuales en una página) para que no se indexen. Puede mantenerlos visibles para los usuarios pero bloqueados de los resultados de búsqueda, lo que no afectará su clasificación para el contenido que desea que aparezca en la búsqueda.
Contenido de otras fuentes. El contenido, como los anuncios, generados por fuentes de terceros y duplicados en varios lugares de la web, no forman parte del contenido principal de una página. Si el contenido de ese anuncio se duplica muchas veces en la web, un webmaster puede querer evitar que los anuncios se vean como parte de la página.

Eso se encarga de por qué, ¿qué hay de cómo?

Estoy tan contenta de que hayas preguntado. Un método que se ha utilizado para mantener el contenido fuera del índice es cargar el contenido desde una fuente externa bloqueada mediante un lenguaje que los bots no pueden analizar ni ejecutar; es como cuando le deletreas palabras a otro adulto porque no quieres que el niño pequeño en la habitación sepa de lo que estás hablando. El problema es que el niño pequeño en esta situación se está volviendo más inteligente. Durante mucho tiempo, si quería ocultar algo de los motores de búsqueda, podía usar JavaScript para cargar ese contenido, lo que significa que los usuarios lo obtienen, los bots no.

Pero Google no está siendo nada tímido acerca de su deseo de analizar JavaScript con sus bots. Y están empezando a hacerlo; la herramienta Explorar como Google en las Herramientas para webmasters de Google le permite ver páginas individuales como las ven los bots de Google.

captura de pantalla de Explorar como herramienta para webmasters de Google

Si está utilizando JavaScript para bloquear contenido en su sitio, debe consultar algunas páginas de esta herramienta; lo más probable es que Google lo vea.

Sin embargo, tenga en cuenta que el hecho de que Google pueda representar contenido en JavaScript no significa que el contenido se almacene en caché. La herramienta "Obtener y renderizar" le muestra lo que el bot puede ver; para averiguar qué se está indexando, aún debe verificar la versión en caché de la página.

captura de pantalla de cómo encontrar el caché de Google de su sitio

Hay muchos otros métodos para externalizar contenido que la gente comenta: iframes, AJAX, jQuery. Pero ya en 2012, los experimentos mostraban que Google podía rastrear enlaces colocados en iframes; así que ahí va esa técnica. De hecho, los días de hablar un idioma que los bots no podían entender están llegando a su fin.

Pero, ¿qué pasa si le pides educadamente a los bots que eviten mirar ciertas cosas? Bloquear o rechazar elementos en su archivo robots.txt o una etiqueta de Meta Robots es la única forma segura (aparte de proteger los directorios del servidor con contraseña) de evitar que se indexen elementos o páginas.

John Mueller comentó recientemente que el contenido generado con fuentes AJAX/JSON sería "invisible para [Google] si no permitiera el rastreo de su JavaScript". Continúa aclarando que el simple hecho de bloquear CSS o JavaScript no necesariamente dañará su clasificación: "Definitivamente no hay una relación simple de 'CSS o JavaScript no está permitido rastrear, por lo tanto, los algoritmos de calidad ven el sitio de forma negativa'". Entonces, la mejor manera de mantener el contenido fuera del índice es simplemente pedirle a los motores de búsqueda que no indexen su contenido. Pueden ser direcciones URL individuales, directorios o archivos externos.

Esto, entonces, nos devuelve al principio: por qué. Antes de decidir bloquear cualquier parte de su contenido, asegúrese de saber por qué lo está haciendo, así como los riesgos. En primer lugar, bloquear sus archivos CSS o JavaScript (especialmente los que contribuyen sustancialmente al diseño de su sitio) es arriesgado; puede, entre otras cosas, evitar que los motores de búsqueda vean si sus páginas están optimizadas para dispositivos móviles. No solo eso, sino que después del lanzamiento de Panda 4.0, algunos sitios que se vieron fuertemente afectados pudieron recuperarse al desbloquear su CSS y JavaScript, lo que indicaría que fueron atacados específicamente por el algoritmo de Google para bloquear estos elementos de los bots.

Un riesgo más que corre al bloquear contenido: es posible que las arañas de los motores de búsqueda no puedan ver qué se está bloqueando, pero saben que algo se está bloqueando, por lo que pueden verse obligados a hacer suposiciones sobre qué contenido es. Saben que los anuncios, por ejemplo, suelen estar ocultos en iframes o incluso en CSS; por lo tanto, si tiene demasiado contenido bloqueado cerca de la parte superior de una página, corre el riesgo de ser golpeado por el algoritmo de diseño de página "Top Heavy". Cualquier webmaster que lea esto y esté considerando usar iframes debería considerar consultar primero con un SEO acreditado. (Inserte una promoción desvergonzada de BCI aquí).