Comment optimiser son budget de crawl
Publié: 2017-07-05En mai, nous avons organisé un webinaire en français sur le budget de crawl de Google. Pour son deuxième webinaire avec OnCrawl, Erle Alberton, ex responsable SEO pour Orange & Sosh (un fournisseur Internet français) et maintenant Customer Success Manager pour OnCrawl présente le concept de crawl budget, les bonnes pratiques pour l'optimiser, ce qu'il faut éviter, etc. des exemples illustreront ce concept récemment confirmé par l'équipe de Google.
Ce que dit Google à propos du budget de crawl
Mi-janvier, Google a publié un article sur son blog déclarant : « nous n'avons pas un seul terme qui décrirait tout ce que « crawl budget » signifie en externe. » Autrement dit ce que nous, SEOs, considérons comme le crawl budget.
Le géant du web indique également que si vos nouvelles pages sont généralement crawlées le jour même de leur publication, alors vous n'avez pas vraiment à vous soucier du budget de crawl. Il indique également que si un site a moins de quelques milliers d'URL, il sera crawlé correctement car le budget de crawl est généralement réservé aux sites à fort volume… C'est à la fois vrai et faux car tous les sites de Google Search Console ont un budget de crawl. Nous pouvons facilement le voir dans les métriques de Google.
Nous découvrons également dans cet article que Google tente d'atteindre une "limite de taux de crawl" qui limite le taux de récupération maximal pour un site donné. On voit que, par exemple, lorsqu'un temps de chargement est trop long, Google coupe son budget presque en 2. Cela dit, il y a des facteurs qui peuvent impacter le budget de crawl comme une mauvaise architecture (système, codes de statut, structure interne ), contenu médiocre et/ou dupliqué, pièges à araignées, etc.
Comment fonctionne le budget de crawl de Google ?
Le crawl de Google est un ensemble d'étapes simples qui fonctionnent de manière récursive pour chaque site. Voici un graphique de Google où l'on voit que le crawl commence par un hit sur un robot txt puis il se sépare en un ensemble d'URL qui sont compilées dans une liste. Ensuite, Google tente de les récupérer en comparant avec les URL qu'il connaît déjà en plus de celles qu'il a déjà en sauvegarde.
Son objectif est de compléter de manière exhaustive et précise son index. On voit que même si le site est en JavaScript, Google enverra des crawlers de troisième niveau. Vous devez tout de même être prudent avec les sites JavaScript, car ils consomment beaucoup de ressources de bot et ne sont envoyés en moyenne qu'une fois par trimestre. Nous devons repenser notre méthode pour que Google ait accès à des pages en dehors d'une navigation JavaScript.
Google vérifiera alors l'état de la mise à jour de la page (comparaison avec le contenu indexé précédemment) pour évaluer si la page est importante ou moins importante. En effet, Google a besoin d'optimiser ses ressources de crawl car il ne peut pas crawler toutes les pages de tous les sites web. C'est ce qu'on appelle l'importance de la page… c'est un score très important à suivre et que nous verrons en détails plus bas !
Fait : si Google optimise, c'est parce qu'il y a une raison
Le budget de crawl dépend de :
- Capacité du site à répondre rapidement ;
- Santé mentale du site - 4xx, 5xx, 3xx (lorsqu'un site commence à avoir des 404 ou des 500, le budget de crawl sera affecté, car il vérifiera toujours si des correctifs ont été apportés) ;
- Qualité du contenu – sémantique et exhaustivité ;
- La diversité d'Anchor (une page est considérée comme importante lorsqu'elle reçoit beaucoup de liens. Avec l'InRank d'OnCrawl vous pouvez analyser l'ensemble) ;
- Popularité de la page – externe et interne ;
- Facteurs optimisables – simplifier le crawl (réduire la taille des images, capacité à avoir des css, js, gif, polices, etc.)
[Étude de cas] Augmenter le budget de crawl sur les pages stratégiques
Composants clés de Google Page Importance
La définition de l'importance de la page n'est pas la même que celle du Page Rank :
- Emplacement de la page sur le site Web - profondeur du taux de crawl ;
- Classement de la page : TF/CF de la page - Majestueux ;
- Page Rank interne – InRank d'OnCrawl ;
- Type de document : PDF, HTML, TXT (le PDF est généralement un document qualitatif final, il est donc beaucoup exploré) ;
- Inclusion dans sitemap.xml ;
- Nombre de liens internes :
- Qualité/importance de l'ancre ;
- Contenu qualitatif : nombre de mots, peu de quasi-doublons (Google pénalisera un contenu similaire si les pages sont trop proches dans le contenu) ;
- Importance de la page "accueil".
Comment planifier les URL importantes à explorer
Planification d' URL : quelles pages Google souhaite-t-il visiter et à quelle fréquence ?
Dans l'exemple ci-dessus, (observation d'une fréquence de crawl d'un même site) Google ne crawl pas à la même fréquence sur les différents groupes. On voit que lorsque Google crawle une partie du site, l'impact du classement se voit rapidement.
Plus d'informations sur le budget de crawl de Google
- 100 % des sites Web de Google Search Console ont des données de crawl ;
- Nous pouvons suivre son comportement de crawl grâce à une analyse de log qui vous aide à détecter rapidement une anomalie dans le comportement du bot ;
- Une mauvaise structure interne (pagination, pages orphelines, pièges à araignées) peut empêcher Google de crawler les bonnes pages ;
- Le budget de crawl est directement lié au classement.
La vitesse de la page d'abord
Le facteur le plus important est le temps de chargement d'une page car il joue un rôle déterminant sur le budget de crawl. En effet, nous sommes aujourd'hui dans un monde mobile. Votre meilleur atout est donc le temps de chargement de la page pour optimiser votre budget de crawl et votre référencement. Avec la révolution mobile, le temps de chargement est un facteur essentiel pour évaluer la qualité d'un site. Sa capacité à réagir rapidement, en particulier pour les mobiles et les index mobiles d'abord.
Pour l'optimiser, on peut utiliser des solutions CDN (Content Delivery Network) comme Cloudflare. Ces solutions permettent aux robots de Google d'être au plus près des ressources et de charger les pages le plus rapidement possible.
Google teste constamment la capacité d'un site à répondre rapidement. L'architecture et la qualité du codage ont un fort impact sur la notation de Google.

Temps de chargement
C'est le premier facteur d'allocation du crawl budget !
Côté serveur , vous devez :
- Évitez les redirections ;
- Autoriser la compression ;
- Améliorer le temps de réponse.
Ci-dessus, un exemple avec le site de Manageo qui avait un budget de crawl linéaire et où l'on peut constater une augmentation linéaire. En mai, on constate une baisse du nombre de pages crawlées par jour et par conséquent une modification de la vitesse du site. Google voit que le site répond moins rapidement donc il réduit de moitié son budget de crawl. Pour corriger tout cela, vous devez optimiser vos codes côté serveur, réduire les redirections, utiliser la compression, etc.
Côté face , vous devez :
- Utiliser la mise en cache du navigateur
- Réduire la taille des ressources (optimisation de l'image, utiliser CDN/lazy loading/supprimer JS qui bloquent l'affichage ;
- Utilisez des scripts asynchrones.
Baisse de qualité = plus d'amour = plus de budget
Il faut vérifier les status codes renvoyés aux robots de Google pour s'assurer que le SI est propre. C'est le seul moyen pour Google de valider que la qualité de votre code et de votre architecture est propre.
Le suivi de leur évolution dans le temps garantit que les mises à jour du code sont optimisées pour le référencement. Google dépense beaucoup en ressources (css, img, js) alors assurez-vous qu'elles sont irréprochables.
Contenu unique et riche
Plus une page est importante, plus son texte est riche. Comme indiqué ci-dessus, le nombre de pages explorées et non explorées par Google est lié au nombre de mots qui se trouvent sur la page. Vos pages doivent donc être enrichies et mises à jour le plus régulièrement possible.
Méfiez-vous des canoniques et du contenu dupliqué
Google dépensera deux fois plus de budget lorsque deux pages similaires ne pointent pas vers la même URL canonique. Ainsi, la gestion canonique peut devenir critique pour les sites à facettes, ou liens externes avec queryString.
La gestion de contenu en quasi-duplicata et les canoniques deviennent des aspects importants de l'optimisation du budget de crawl.
Structure interne et répartition InRank
Les pages qui génèrent des visites SEO sont considérées comme actives. Ce sont ceux qui sont au sommet de l'architecture du site. Par contre, on voit ici qu'à la page 15 il y a un groupe de pages qui émerge. Peut-être que ces pages sont beaucoup plus recherchées par vos utilisateurs que vous ne le pensiez et devraient être mises à niveau dans l'architecture pour améliorer leur classement.
On le sait, plus les pages sont profondes, moins Google les visitera !
Mes pages d'argent sont-elles bien situées ?
Astuce : Si vous souhaitez optimiser la profondeur de certains groupes de pages, n'hésitez pas à créer des plans de site html, c'est-à-dire des pages cruciales pour gérer votre profondeur.
Google comparera les pages de votre structure vs crawlées vs actives. Cela dit, il serait à votre avantage de résoudre le problème des pages orphelines pour lesquelles Google dépense inutilement du budget et de corriger l'architecture du site pour renvoyer des liens vers des pages actives mais hors structure.
Parfois les pages ne reçoivent plus de liens, on les appelle des pages orphelines. D'autre part, Google ne les a pas oubliés. Il continuera à leur rendre visite. Elles ne reçoivent plus de liens donc elles perdent de l'importance, mais dans le bon graphique, certaines pages orphelines continuent de recevoir des visites SEO. Ce que vous devez savoir, c'est comment les identifier rapidement et résoudre les problèmes de liaison qui se trouvent dans l'architecture. C'est un excellent moyen d'optimiser votre budget de crawl.
Erreurs à éviter
- Robots.txt en 404 ;
- Sitemap.xml & sitemap.html obsolètes ;
- 50x / 40x / erreurs 404 logicielles ;
- Avoir des redirections en chaîne ;
- Erreurs canoniques ;
- Contenu dupliqué (pied de page) / presque dupliqué / HTTP vs HTTPS ;
- Temps de réponse trop long ;
- Poids de la page trop important ;
- AMP/erreurs. Ce protocole est largement utilisé par Google notamment pour les sites e-commerce (pas seulement les sites médias) ;
- Mauvais maillage interne + Rel=nofollow ;
- Utiliser JS sans aucune autre alternative.
conclusion
Pour optimiser votre budget de crawl, vous devez :
- Connaissez vos pages d'argent et connaissez les réactions de Google ;
- Améliorer le temps de chargement ;
- Optimisez votre maillage interne : placez toutes vos pages d'argent en haut de la structure ;
- Corrigez vos pages orphelines ;
- Ajoutez du texte à vos pages d'argent ;
- Mettez à jour au maximum vos pages d'argent - fraîcheur ;
- Réduisez votre contenu médiocre et vos doublons ;
- Optimisez vos canoniques, images, poids de ressources ;
- Évitez les redirections en chaîne ;
- Surveillez vos logs et réagissez en cas d'anomalies (voir ce cas d'usage de Manageo lors du SEOcamp Lyon sur le sujet).
Pour optimiser votre budget de crawl, vous devez surveiller précisément le crawler de Google
Certains moments du parcours de Google sur votre site sont plus importants que d'autres donc il faut savoir les optimiser.
Pour optimiser votre budget de crawl, il est nécessaire de bien gérer votre migration HTTPS (HTTP2)
Vous devez être en mesure de le suivre et de le surveiller. Mettez vos équipes informatiques au défi de migrer vers HTTP2 avec HTTPS.
OnCrawl vous aide à suivre au jour le jour le budget de crawl de Google et cible rapidement les correctifs et changements structurels pour améliorer vos performances SEO.