Errores de rastreo en el Optimizer

Publicado: 2022-04-17

Puede haber ocasiones en las que SISTRIX Crawler no pueda capturar por completo todo el contenido de una página. Aquí, echamos un vistazo a las razones más comunes, así como a las razones, y le mostramos soluciones a estos problemas.

El rastreador SISTRIX

Todo el acceso relacionado con SISTRIX Toolbox lo realiza el rastreador SISTRIX. Este Crawler se puede identificar por dos rasgos distintos: por un lado, es el agente de usuario, que se envía cada vez que se accede a una página. Por defecto, el agente de usuario es:

 Mozilla/5.0 (compatible; SISTRIX Crawler; http://crawler.sistrix.net/)

Por otro lado, todas las direcciones IP de SISTRIX Crawler apuntan al nombre de host del dominio “sistrix.net”. Nuestro rastreador en la IP 136.243.92.8 , por ejemplo, devolvería la entrada de DNS inversa 136-243-92-8.crawler.sistrix.net .

SISTRIX Crawler supervisa continuamente la velocidad de carga de las páginas visitadas y ajustará la velocidad con la que se solicitan nuevas páginas a esta velocidad. De esta manera, podemos asegurarnos de no sobrecargar el servidor web. Hay más información disponible en crawler.sistrix.net.

En el Optimizer también tiene la capacidad de controlar el agente de usuario y la intensidad de rastreo del Optimizer Crawler. Encontrará esta configuración en cada proyecto en "Gestión de proyectos > Crawler" en los cuadros "Configuración de rastreo" y "Velocidad de rastreo".

robots.txt

Antes de acceder por primera vez a un sitio web, nuestro Crawler solicitará un archivo con el nombre "robots.txt" en el directorio raíz, así como en cada nombre de host del dominio. Si el Crawler encuentra este archivo, lo analiza y observa de cerca las reglas y restricciones encontradas en el archivo. Se aceptarán reglas que solo cuenten para „sistrix“, así como reglas generales con el identificador „*“. Si usa un archivo robots.txt, le pedimos que verifique el contenido para asegurarse de que el rastreador SISTRIX no haya sido restringido accidentalmente.

Si hace referencia a un mapa del sitio en robots.txt, nuestro rastreador accederá a él como base de rastreo.

Galletas

SISTRIX Crawler no guardará cookies mientras revisa una página. Asegúrese de que nuestro rastreador pueda acceder a todas las partes de una página sin tener que aceptar cookies. Encontrará la IP de nuestro rastreador dentro de "Gestión de proyectos" en "Configuración del rastreador".

JavaScript

Nuestro rastreador no utiliza JavaScript. Asegúrese de que se pueda acceder a todas las páginas como páginas HTML estáticas para que nuestro rastreador pueda analizarlas.

Restricciones del lado del servidor

El SISTRIX Crawler se puede restringir en el lado del servidor. En este caso, nuestro rastreador recibirá un mensaje de error con el código de estado HTTP 403 (restringido) cuando acceda por primera vez a una página. Después de eso, no podrá acceder a ninguna página en este servidor. Tal restricción del lado del servidor puede implementarse en diferentes niveles del sistema. Un buen punto de partida sería verificar el archivo ".htaccess" del servidor web Apache. Si no se encuentran pistas aquí, debe comunicarse con el proveedor o el anfitrión. Lamentablemente, no podemos desactivar estas restricciones nosotros mismos.

Ejemplos de restricciones comunes

restricciones de robots.txt

Si robots.txt restringe nuestro rastreador de Optimizer, obtendrá un error de "robots.txt bloquea el rastreo". Compruebe si existen restricciones generales (User-Agent: *) o específicas (User-Agent: Sistrix) en su archivo robots.txt. Si cambió su agente de usuario en la configuración del rastreador de su proyecto, compruébelo también.

Solo se rastreó una pequeña cantidad de páginas o ninguna.

Hay varias razones por las que nuestro rastreador solo puede rastrear un pequeño número o incluso ninguna página. En el proyecto Optimizer, vaya a "Analizar > Modo experto". Allí encontrará una extensa lista de todos los documentos HTML rastreados en el dominio. Puede encontrar el código de estado desplazándose un poco hacia la derecha en la tabla. Esto debería indicarle por qué no se han rastreado todas las páginas asociadas con este dominio.

200 : si el código de estado es 200 pero no se han rastreado otras páginas, el motivo suele ser uno de los siguientes:
- Faltan enlaces internos : nuestro rastreador sigue todos los enlaces internos que no están bloqueados para el rastreador. Verifique que haya enlaces internos en la página de inicio y si las páginas de destino pueden estar bloqueadas para nuestro rastreador por el archivo robots.txt o la configuración del rastreador.
- Configuración de Geo-IP : Para presentar el sitio web en el idioma correspondiente de cada usuario, se verifica la IP del país de origen. Todos nuestros rastreadores tienen su sede en Alemania, lo que hace que sea necesario incluir en la lista blanca nuestro Crawler-IP si desea que acceda a todos los contenidos de idiomas disponibles detrás de una Geo-IP-Barrier.
301 / 302 : si aparece el código de estado 301 o 302, verifique si el enlace conduce a un dominio diferente, por ejemplo, sistrix.at, que conduce a sistrix.de a través de una redirección 301. El rastreador de Optimizer siempre permanece en el dominio (o el host o directorio) ingresado en la configuración del proyecto. Si creo un proyecto para sistrix.at, nuestro rastreador reconocería la redirección 301 y la mostraría en el modo experto, pero no seguiría la redirección a sistrix.de, ya que este es un dominio diferente.
403 : si el código de estado 403 se entrega instantáneamente, o si después de algunas páginas rastreables (código de estado 200) solo se muestran códigos 403, debe verificar por qué el servidor restringe nuestro rastreador para que no solicite las páginas. Consulte la entrada de "Restricciones del lado del servidor".
5xx : si se muestra un código de estado 500 o 5xx en el campo de código de estado, esto significa que el servidor no pudo atender nuestra solicitud debido a un error del servidor. En este caso, debe esperar unos minutos y luego usar el botón "Reiniciar Crawler" en el menú "Gestión de proyectos". Si el código de estado 5xx sigue apareciendo, verifique por qué el servidor está sobrecargado y no puede entregar las páginas.

¿Por qué Google encuentra otro/más contenido que SISTRIX?

Nuestro rastreador siempre comienza con la página de inicio del proyecto, aunque se pueden agregar más páginas de inicio en la configuración del rastreador. A partir de este momento, seguiremos todos los enlaces internos que no estén bloqueados. En estas páginas enlazadas, seguiremos todos los enlaces internos hasta encontrar todos aquellos que aún no hemos solicitado.

Lo que puede pasar es que, por ejemplo, Landingpages de AdWords que no estén enlazadas internamente no aparezcan en los resultados. Esto se suele hacer para que no influyan en el Seguimiento de AdWords. Esto significará que dichas páginas serán invisibles para nuestro rastreador. Google, por supuesto, está al tanto de estas páginas.

Si ingresa un mapa del sitio de nuestro proyecto con Google, puede valer la pena vincularlo dentro de robots.txt. De esa manera, nuestro rastreador puede reconocerlo y usarlo como base de rastreo.

Otra razón por la que puede haber una diferencia de valores entre las páginas indexadas de la búsqueda de Google y el número de páginas rastreadas en su optimizador puede ser el contenido duplicado en el índice de búsqueda de Google.