Erreurs d'exploration dans l'optimiseur

Publié: 2022-04-17

Il peut arriver que le SISTRIX Crawler ne puisse pas capturer complètement tout le contenu d'une page. Ici, nous examinons les raisons les plus courantes ainsi que les raisons, et vous montrons des solutions à ces problèmes.

Le robot d'exploration SISTRIX

Tous les accès liés à la SISTRIX Toolbox sont effectués par le crawler SISTRIX. Ce Crawler peut être identifié par deux traits distincts : d'une part c'est le user-agent, qui est soumis à chaque accès à une page. Par défaut, le user-agent est :

 Mozilla/5.0 (compatible; SISTRIX Crawler; http://crawler.sistrix.net/)

D'autre part, toutes les adresses IP du SISTRIX Crawler pointent vers le nom d'hôte du domaine "sistrix.net". Notre Crawler sur l'IP 136.243.92.8 , par exemple, renverrait le Reverse-DNS-Entry 136-243-92-8.crawler.sistrix.net .

Le SISTRIX Crawler surveille en permanence de près la vitesse de chargement des pages visitées et ajustera la vitesse à laquelle de nouvelles pages sont demandées à ce rythme. De cette façon, nous pouvons nous assurer que nous ne surchargerons pas le serveur Web. Plus d'informations sont disponibles sur crawler.sistrix.net.

Dans l'optimiseur, vous avez également la possibilité de contrôler l'agent utilisateur et l'intensité d'analyse du robot d'exploration de l'optimiseur. Vous trouverez ces paramètres dans chaque projet sous « Project-Management > Crawler » dans les cases « Crawling Settings » et « Crawling Speed ».

robots.txt

Avant d'accéder pour la première fois à un site Web, notre Crawler demandera un fichier portant le nom "robots.txt" dans le répertoire racine, ainsi que sur chaque nom d'hôte, du domaine. Si le Crawler trouve ce fichier, il l'analyse et observe attentivement les règles et les restrictions trouvées dans le fichier. Les règles qui ne comptent que pour „sistrix“ seront acceptées ainsi que les règles générales avec l'identifiant „*“. Si vous utilisez un fichier robots.txt, nous vous demandons de vérifier le contenu pour vous assurer que le crawler SISTRIX n'a pas été accidentellement restreint.

Si vous vous référez à un sitemap dans le fichier robots.txt, notre crawler y accédera en tant que base de crawl.

Biscuits

Le SISTRIX Crawler n'enregistrera pas de cookies lors de la consultation d'une page. Veuillez vous assurer que notre robot d'exploration peut accéder à toutes les parties d'une page sans avoir à accepter les cookies. Vous trouverez l'adresse IP de notre crawler dans la section "Gestion de projet" sous "Paramètres du crawler".

Javascript

Notre robot d'exploration n'utilise pas JavaScript. Veuillez vous assurer que toutes les pages sont accessibles en tant que pages HTML statiques afin que notre robot puisse les analyser.

Restrictions côté serveur

Le SISTRIX Crawler peut être restreint du côté du serveur. Dans ce cas, notre robot d'exploration recevra un message d'erreur avec le code d'état HTTP 403 (restreint) lors du premier accès à une page. Par la suite, il ne pourra accéder à aucune page de ce serveur. Une telle restriction côté serveur peut être mise en place à différents niveaux du système. Un bon point de départ serait de vérifier le fichier « .htaccess » du serveur Web Apache. Si aucun indice n'est trouvé ici, vous devez contacter le fournisseur ou l'hôte. Malheureusement, nous ne sommes pas en mesure de désactiver ces restrictions nous-mêmes.

Exemples de restrictions courantes

restrictions robots.txt

Si le robots.txt restreint notre robot d'exploration Optimizer, vous obtiendrez une erreur "robots.txt bloque l'exploration". Veuillez vérifier s'il existe des restrictions générales (User-Agent : *) ou spécifiques (User-Agent : Sistrix) dans votre fichier robots.txt. Si vous avez modifié votre agent utilisateur dans les paramètres du robot d'exploration de votre projet, veuillez également vérifier ceux-ci.

Seul un petit nombre ou aucune page n'a été explorée

Il existe plusieurs raisons pour lesquelles notre robot d'exploration ne peut explorer qu'un petit nombre de pages, voire aucune. Dans le projet Optimizer, allez dans "Analyse > Mode Expert". Vous y trouverez une liste complète de tous les documents HTML explorés sur le domaine. Vous pouvez trouver le code d'état en faisant défiler un peu vers la droite dans le tableau. Cela devrait vous dire pourquoi toutes les pages associées à ce domaine n'ont pas été explorées.

200 : Si le code d'état est 200 mais qu'aucune autre page n'a été explorée, la raison est souvent l'une des suivantes :
- Liens internes manquants : Notre crawler suit tous les liens internes qui ne sont pas bloqués pour le crawler. Veuillez vérifier qu'il existe des liens internes sur la page de démarrage et si les pages cibles peuvent être bloquées pour notre robot d'exploration par le fichier robots.txt ou les paramètres du robot d'exploration.
- Paramètres géo-IP : Pour présenter le site Web dans la langue correspondante de chaque utilisateur, l'IP est vérifiée pour le pays d'origine. Tous nos crawlers sont basés en Allemagne, ce qui rend nécessaire la liste blanche de notre Crawler-IP si vous souhaitez qu'il accède à tous les contenus linguistiques disponibles derrière une barrière géo-IP.
301 / 302 : Si le code de statut 301 ou 302 apparaît, veuillez vérifier si le lien mène à un autre domaine – par exemple sistrix.at, qui mène à sistrix.de via une redirection 301. Le robot d'exploration Optimizer reste toujours sur le domaine (ou l'hôte ou le répertoire) saisi dans les paramètres du projet. Si je crée un projet pour sistrix.at, notre crawler reconnaîtra la redirection 301 et l'affichera en mode expert, mais ne suivra pas la redirection vers sistrix.de, car il s'agit d'un domaine différent.
403 : Si le code d'état 403 est délivré instantanément, ou si après quelques pages explorables (Code d'état 200) seuls les codes 403 sont affichés, vous devez vérifier pourquoi le serveur empêche notre robot d'exploration de demander les pages. Veuillez vous référer à l'entrée pour "Restrictions côté serveur".
5xx : Si un code d'état 500 ou 5xx s'affiche dans le champ du code d'état, cela signifie que le serveur n'a pas pu prendre en charge notre demande en raison d'une erreur du serveur. Dans ce cas, vous devez attendre quelques minutes puis utiliser le bouton "Restart Crawler" dans le menu "Project-Management". Si le code d'état 5xx continue de s'afficher, vérifiez pourquoi le serveur est surchargé et incapable de livrer les pages.

Pourquoi Google trouve-t-il autre/plus de contenu que SISTRIX ?

Notre crawler commence toujours par la page de démarrage du projet, bien que d'autres pages de démarrage puissent être ajoutées dans les paramètres du crawler. À partir de ce moment, nous suivrons tous les liens internes qui ne sont pas bloqués. Sur ces pages liées, nous suivrons tous les liens internes jusqu'à ce que nous trouvions tous ceux que nous n'avons pas encore demandés.

Ce qui peut arriver, par exemple, c'est que les pages de destination AdWords qui ne sont pas liées en interne n'apparaissent pas dans les résultats. Ceci est généralement fait pour qu'ils n'influencent pas le suivi AdWords. Cela signifie que ces pages sont invisibles pour notre robot d'exploration. Google, bien sûr, est au courant de ces pages.

Si vous entrez un plan du site de notre projet avec Google, il peut être avantageux de créer un lien vers celui-ci dans le fichier robots.txt. De cette façon, notre crawler peut le reconnaître et l'utiliser comme base de crawl.

Une autre raison pour laquelle il peut y avoir une différence de valeurs entre les pages indexées de la recherche Google et le nombre de pages explorées dans votre optimiseur peut être le contenu en double dans l'index de recherche de Google.