Qu'est-ce que robots.txt ? Un guide du débutant pour le clouer avec des exemples

Publié: 2022-03-29

La figure de robot en bois se dresse sur une parcelle d'herbe.
Ah, robots.txt - un tout petit fichier avec de grandes implications. C'est un élément SEO technique que vous ne voulez pas vous tromper, les amis.

Dans cet article, je vais vous expliquer pourquoi chaque site Web a besoin d'un robots.txt et comment en créer un (sans causer de problèmes pour le référencement). Je répondrai aux FAQ courantes et j'inclurai des exemples sur la façon de l'exécuter correctement pour votre site Web. Je vais également vous donner un guide téléchargeable qui couvre tous les détails.

Contenu:

Qu'est-ce que robots.txt ?
Pourquoi le fichier robots.txt est-il important ?
Mais, est-ce que robots.txt est nécessaire ?
Quels problèmes peuvent survenir avec robots.txt ?
Comment fonctionne robots.txt ?
Conseils pour créer un fichier robots.txt sans erreurs
Le testeur robots.txt
Guide du protocole d'exclusion des robots (téléchargement gratuit)

Qu'est-ce que robots.txt ?

Robots.txt est un fichier texte que les éditeurs de sites Web créent et enregistrent à la racine de leur site Web. Son but est d'indiquer aux robots d'exploration Web automatisés tels que les robots des moteurs de recherche quelles pages ne pas explorer sur le site Web. Ceci est également connu sous le nom de protocole d'exclusion des robots.

Robots.txt ne garantit pas que les URL exclues ne seront pas indexées pour la recherche. En effet, les robots des moteurs de recherche peuvent toujours découvrir que ces pages existent via d'autres pages Web qui y sont liées. Ou, les pages peuvent encore être indexées du passé (plus à ce sujet plus tard).

Robots.txt ne garantit pas non plus qu'un bot n'explorera pas une page exclue, car il s'agit d'un système volontaire. Il serait rare que les principaux robots des moteurs de recherche ne respectent pas vos directives. Mais d'autres qui sont de mauvais robots Web, comme les spambots, les logiciels malveillants et les logiciels espions, ne suivent souvent pas les ordres.

N'oubliez pas que le fichier robots.txt est accessible au public. Vous pouvez simplement ajouter /robots.txt à la fin d'une URL de domaine pour voir son fichier robots.txt (comme le nôtre ici). N'incluez donc aucun fichier ou dossier pouvant contenir des informations critiques pour l'entreprise. Et ne comptez pas sur le fichier robots.txt pour protéger les données privées ou sensibles des moteurs de recherche.

OK, avec ces mises en garde à l'écart, continuons…

Pourquoi le fichier robots.txt est-il important ?

Les robots des moteurs de recherche ont pour directive d'explorer et d'indexer les pages Web. Avec un fichier robots.txt, vous pouvez exclure de manière sélective des pages, des répertoires ou le site entier de l'exploration.

Cela peut être pratique dans de nombreuses situations différentes. Voici quelques situations dans lesquelles vous voudrez utiliser votre fichier robots.txt :

Pour bloquer certaines pages ou certains fichiers qui ne doivent pas être explorés/indexés (comme les pages sans importance ou similaires)
Pour arrêter d'explorer certaines parties du site Web pendant que vous les mettez à jour
Pour indiquer aux moteurs de recherche l'emplacement de votre sitemap
Pour dire aux moteurs de recherche d'ignorer certains fichiers sur le site comme les vidéos, les fichiers audio, les images, les PDF, etc., et de ne pas les faire apparaître dans les résultats de la recherche
Pour vous assurer que votre serveur n'est pas submergé de demandes*

* L'utilisation de robots.txt pour bloquer les explorations inutiles est un moyen de réduire la pression sur votre serveur et d'aider les bots à trouver plus efficacement votre bon contenu. Google fournit un tableau pratique ici. En outre, Bing prend en charge la directive crawl-delay, qui peut aider à éviter un trop grand nombre de requêtes et à éviter de surcharger le serveur.

Bien sûr, il existe de nombreuses applications de robots.txt, et j'en décrirai d'autres dans cet article.

Mais, est-ce que robots.txt est nécessaire ?

Chaque site Web doit avoir un fichier robots.txt même s'il est vide. Lorsque les robots des moteurs de recherche accèdent à votre site Web, la première chose qu'ils recherchent est un fichier robots.txt.

S'il n'en existe pas, les spiders reçoivent une erreur 404 (introuvable). Bien que Google indique que Googlebot peut continuer et explorer le site même s'il n'y a pas de fichier robots.txt, nous pensons qu'il est préférable d'avoir le premier fichier qu'un bot demande à charger plutôt que de produire une erreur 404.

Quels problèmes peuvent survenir avec robots.txt ?

Ce simple petit fichier peut poser des problèmes pour le référencement si vous ne faites pas attention. Voici quelques situations à surveiller.

1. Bloquer tout votre site par accident

Ce piège arrive plus souvent que vous ne le pensez. Les développeurs peuvent utiliser robots.txt pour masquer une section nouvelle ou repensée du site pendant qu'ils le développent, mais oublient ensuite de le débloquer après le lancement. S'il s'agit d'un site existant, cette erreur peut entraîner une chute soudaine du classement des moteurs de recherche.

Il est pratique de pouvoir désactiver l'exploration pendant que vous préparez un nouveau site ou une nouvelle section de site pour le lancement. N'oubliez pas de modifier cette commande dans votre fichier robots.txt lorsque le site sera mis en ligne.

2. Exclure les pages déjà indexées

Le blocage dans les pages robots.txt qui sont indexées entraîne leur blocage dans l'index de Google.

Si vous excluez des pages qui sont déjà dans l'index du moteur de recherche, elles y resteront. Afin de les supprimer réellement de l'index, vous devez définir une balise "noindex" de méta-robots sur les pages elles-mêmes et laisser Google explorer et traiter cela. Une fois les pages supprimées de l'index, bloquez-les dans robots.txt pour empêcher Google de les demander à l'avenir.

Comment fonctionne robots.txt ?

Pour créer un fichier robots.txt, vous pouvez utiliser une application simple comme Notepad ou TextEdit. Enregistrez-le avec le nom de fichier robots.txt et téléchargez-le à la racine de votre site Web sous www.domain.com/robots.txt —— c'est là que les araignées le chercheront.

Un simple fichier robots.txt ressemblerait à ceci :

Agent utilisateur: *
Interdire : /nom-répertoire/

Google donne une bonne explication de ce que signifient les différentes lignes d'un groupe dans le fichier robots.txt dans son fichier d'aide sur la création de robots.txt :

Chaque groupe se compose de plusieurs règles ou directives (instructions), une directive par ligne.

Un groupe donne les informations suivantes :
À qui le groupe s'applique (l'agent utilisateur)
À quels répertoires ou fichiers cet agent peut accéder
Les répertoires ou fichiers auxquels l'agent ne peut pas accéder

J'expliquerai plus en détail les différentes directives dans un fichier robots.txt ensuite.

Directives robots.txt

La syntaxe courante utilisée dans robots.txt inclut les éléments suivants :

Agent utilisateur

L'agent utilisateur fait référence au bot dans lequel vous donnez les commandes (par exemple, Googlebot ou Bingbot). Vous pouvez avoir plusieurs directives pour différents agents utilisateurs. Mais lorsque vous utilisez le caractère * (comme indiqué dans la section précédente), c'est un fourre-tout qui signifie tous les agents utilisateurs. Vous pouvez voir une liste des agents utilisateurs ici.

Refuser

La règle Disallow spécifie le dossier, le fichier ou même un répertoire entier à exclure de l'accès des robots Web. Les exemples incluent ce qui suit :

Autoriser les robots à parcourir l'intégralité du site Web :

Agent utilisateur: *
Refuser:

Interdire tous les robots de l'ensemble du site :

Agent utilisateur: *
Interdire : /

Interdire tous les robots de « /mondossier/ » et tous les sous-répertoires de « mondossier » :

Agent utilisateur: *
Interdire : /mondossier/

Interdire à tous les robots d'accéder à tout fichier commençant par "monfichier.html":

Agent utilisateur: *
Interdire : /monfichier.html

Interdire à Googlebot d'accéder aux fichiers et dossiers commençant par "mon" :

Agent utilisateur : googlebot
Interdire :/mon

Permettre

Cette commande ne s'applique qu'à Googlebot et lui indique qu'il peut accéder à un dossier ou à une page Web de sous-répertoire même lorsque son répertoire ou sa page Web parent n'est pas autorisé.

Prenons l'exemple suivant : Interdire tous les robots du dossier /scripts/sauf page.php :

Interdire : /scripts/
Autoriser : /scripts/page.php

Délai d'exploration

Cela indique aux robots combien de temps attendre pour explorer une page Web. Les sites Web peuvent l'utiliser pour préserver la bande passante du serveur. Googlebot ne reconnaît pas cette commande et Google vous demande de modifier la vitesse de crawl via la Search Console. Évitez le délai d'exploration si possible ou utilisez-le avec précaution, car cela peut avoir un impact significatif sur l'exploration rapide et efficace d'un site Web.

Caractères génériques

Deux caractères peuvent aider les robots à gérer des types d'URL spécifiques :

Le personnage. Comme mentionné précédemment, il peut appliquer des directives à plusieurs robots avec un ensemble de règles. L'autre utilisation consiste à faire correspondre une séquence de caractères dans une URL pour interdire ces URL.

Par exemple, la règle suivante interdirait à Googlebot d'accéder à toute URL contenant "page" :

Agent utilisateur : googlebot
Interdire : /*page

Le caractère $. Le $ indique aux robots de faire correspondre n'importe quelle séquence à la fin d'une URL. Par exemple, vous pouvez bloquer l'exploration de tous les PDF sur le site Web :

Agent utilisateur: *
Interdire : /*.pdf$

Notez que vous pouvez combiner les caractères génériques $ et *, et ils peuvent être combinés pour les directives allow et disallow.

Par exemple, Interdire tous les fichiers asp :

Agent utilisateur: *
Interdire : /*asp$

Cela n'exclura pas les fichiers avec des chaînes de requête ou des dossiers en raison du $ qui désigne la fin
Exclu en raison du caractère générique précédant asp – /pretty-wasp
Exclu en raison du caractère générique précédant asp – /login.asp
Non exclu en raison du $ et de l'URL incluant une chaîne de requête (?forgotten-password=1) – /login.asp?forgotten-password=1

Pas d'exploration ou pas d'indexation

Si vous ne souhaitez pas que Google indexe une page, il existe d'autres solutions que le fichier robots.txt. Comme le souligne Google ici :

Quelle méthode dois-je utiliser pour bloquer les robots ?
robots.txt : utilisez-le si l'exploration de votre contenu cause des problèmes sur votre serveur. Par exemple, vous pouvez interdire l'exploration des scripts de calendrier infinis. Vous ne devez pas utiliser le robots.txt pour bloquer le contenu privé (utilisez plutôt l'authentification côté serveur) ou gérer la canonisation. Pour vous assurer qu'une URL n'est pas indexée, utilisez plutôt la balise Meta robots ou l'en-tête HTTP X-Robots-Tag.
Balise méta robots : utilisez-la si vous avez besoin de contrôler la façon dont une page HTML individuelle s'affiche dans les résultats de recherche (ou pour vous assurer qu'elle ne s'affiche pas).
En-tête HTTP X-Robots-Tag : utilisez-le si vous avez besoin de contrôler la façon dont le contenu non HTML est affiché dans les résultats de recherche (ou pour vous assurer qu'il n'est pas affiché).

Et voici d'autres conseils de Google :

Empêcher Google d'explorer une page est susceptible de supprimer la page de l'index de Google.
Cependant, robots.txt Disallow ne garantit pas qu'une page n'apparaîtra pas dans les résultats : Google peut toujours décider, sur la base d'informations externes telles que des liens entrants, qu'elle est pertinente. Si vous souhaitez bloquer explicitement l'indexation d'une page, vous devez plutôt utiliser la balise meta noindex robots ou l'en-tête HTTP X-Robots-Tag. Dans ce cas, vous ne devez pas interdire la page dans robots.txt, car la page doit être explorée pour que la balise soit vue et respectée.

Conseils pour créer un fichier robots.txt sans erreurs

Voici quelques conseils à garder à l'esprit lorsque vous créez votre fichier robots.txt :

Les commandes sont sensibles à la casse. Vous avez besoin d'un "D" majuscule dans Disallow , par exemple.
Incluez toujours un espace après les deux-points dans la commande.
Lors de l'exclusion d'un répertoire entier, placez une barre oblique avant et après le nom du répertoire, comme ceci : /nom-répertoire/
Tous les fichiers non spécifiquement exclus seront inclus pour que les bots puissent les explorer.

Le testeur robots.txt

Testez toujours votre fichier robots.txt. Il est plus courant que vous pensiez que les éditeurs de sites Web se trompent, ce qui peut détruire votre stratégie de référencement (comme si vous interdisiez l'exploration de pages importantes ou de l'ensemble du site Web).

Utilisez l'outil de test robots.txt de Google. Vous pouvez trouver des informations à ce sujet ici.

Guide du protocole d'exclusion des robots

Si vous avez besoin d'une plongée plus approfondie que cet article, téléchargez notre Guide du protocole d'exclusion des robots . Il s'agit d'un PDF gratuit que vous pouvez enregistrer et imprimer pour référence afin de vous donner de nombreuses informations sur la manière de créer votre fichier robots.txt.

Réflexions finales

Le fichier robots.txt est un fichier apparemment simple, mais il permet aux éditeurs de sites Web de donner des directives complexes sur la manière dont ils souhaitent que les bots explorent un site Web. Obtenir ce fichier correctement est essentiel, car il pourrait anéantir votre programme de référencement s'il était mal fait.

Parce qu'il y a tellement de nuances sur la façon d'utiliser robots.txt, assurez-vous de lire l'introduction de Google à robots.txt.

Avez-vous des problèmes d'indexation ou d'autres problèmes qui nécessitent une expertise technique en référencement ? Si vous souhaitez une consultation gratuite et un devis de services, contactez-nous dès aujourd'hui.