Fichiers robots.txt : pourquoi c'est crucial pour le référencement

Publié: 2022-05-05

Les fichiers robots.txt, autrement connus sous le nom de protocole d'exclusion de robots, sont un outil indispensable pour le référencement. Ce fichier texte informe les robots des moteurs de recherche des pages accessibles et indexées par la suite. Les fichiers robots.txt empêchent également les robots d'exploration d'accéder à certaines parties de votre site Web. Ceci est utile si vous souhaitez empêcher l'indexation des pages non publiques. Cela peut inclure des pages en cours de développement ou des pages de connexion en ligne. Si votre site Web est particulièrement étendu, Robots.txt est également utile pour s'assurer que vos pages les plus pertinentes sont indexées.

En décrivant vos requêtes dans un fichier Robots.txt, les moteurs de recherche ne pourront accéder qu'aux pages auxquelles vous souhaitez qu'ils accèdent. Cela vous offre non seulement un degré élevé de confidentialité, mais maximise également votre budget de crawl. Intéressé à en savoir plus? Lisez la suite pour un guide détaillé sur les raisons pour lesquelles les fichiers Robots.txt sont essentiels pour le référencement.

Robots.txt expliqué

Les principaux moteurs de recherche comme Google et Bing envoient des soi-disant «crawlers» pour effectuer des recherches sur les sites Web. Autrement appelés « robots » ou « araignées », ces crawlers fournissent des informations vitales aux moteurs de recherche afin que votre site puisse être correctement indexé dans les pages de résultats des moteurs de recherche (SERP). Cela permet aux internautes de découvrir plus facilement votre site en saisissant des requêtes dans les moteurs de recherche. Un fichier Robots.txt indique clairement quelles pages peuvent être recherchées et quelles pages les robots doivent éviter.

Vous souhaitez empêcher tous les robots d'exploration des moteurs de recherche d'accéder à votre page de connexion client ? La commande Robots.txt suivante peut être utilisée :

Agent utilisateur: *
Interdire : nomdusite.com/client-login

Vous pouvez également personnaliser les commandes pour vous concentrer sur un moteur de recherche particulier. Si vous souhaitez uniquement empêcher les robots Google d'accéder à vos pages, la commande suivante peut être utilisée :

Agent utilisateur : Googlebot
Interdire : nomdusite.com/client-login

Pour vous faciliter la vie, vous pouvez ajouter autant de pages que vous le souhaitez à la liste d'interdiction. Une fois que vous avez créé un fichier Robots.txt, il doit être placé dans le répertoire principal de votre site Web. En utilisant les exemples ci-dessus comme guide, l'URL d'un fichier Robots.txt devrait ressembler à ceci :

https://www.nomdusite.com/robots.txt

Pourquoi bloquer l'accès aux pages Web ?

Le blocage de l'accès à certaines pages Web vous aidera à renforcer vos efforts de référencement. En tant que tel, vous devrez comprendre quand mettre en jeu un fichier Robots.txt. Si votre site Web comprend des pages en double, vous ne devez pas autoriser les robots d'indexation à les indexer. Pourquoi? L'indexation du contenu dupliqué peut être préjudiciable à votre référencement.

Bien que Google et les autres moteurs de recherche ne vous imposeront pas de pénalités pour le contenu en double, l'indexation inutile des pages en double peut rendre plus difficile le bon classement de vos pages les plus précieuses.

Les fichiers robots.txt permettent également de tirer le meilleur parti de votre budget de crawl. L'exploration de robots est un bien précieux qui peut améliorer vos performances de référencement. Cependant, les explorations simultanées peuvent s'avérer écrasantes pour les petits sites. Les sites plus grands, ou ceux qui ont une autorité élevée, ont tendance à avoir une plus grande marge d'exploration.

Cependant, les sites moins établis doivent travailler avec des budgets relativement modestes. L'installation de Robots.txt signifie que vous pouvez hiérarchiser les pages les plus importantes de votre site Web, en vous assurant que votre budget de crawl n'est pas gaspillé sur des pages secondaires et du contenu superflu.

Il peut également y avoir des pages Web auxquelles vous ne voulez pas que tous les utilisateurs puissent accéder. Si votre site Web propose un service ou comprend un entonnoir de vente, il existe de nombreuses pages que vous ne voudrez jamais afficher aux clients qu'après avoir effectué une certaine action. Si vous encouragez ces actions avec des codes de réduction ou des récompenses de fidélité, seuls les utilisateurs ayant terminé un parcours client pourront y accéder. En bloquant ces pages, vous empêchez les utilisateurs occasionnels de tomber sur ces informations via les requêtes des moteurs de recherche.

Les fichiers robots.txt sont également utiles pour empêcher les moteurs de recherche d'indexer certains éléments, tels que les images privées. Ils peuvent également être utilisés pour localiser l'emplacement d'un sitemap, ainsi que pour empêcher la surcharge de vos serveurs si des bots tentent d'indexer des images simultanément.

Comment créer un fichier Robots.txt

Maintenant que nous avons exploré les raisons pour lesquelles vous pourriez avoir besoin d'un fichier Robots.txt, nous pouvons étudier comment en créer un. Le moyen le plus simple de créer un fichier Robots.txt consiste à utiliser Google Webmaster Tools. Une fois que vous avez créé un compte, cliquez sur 'accès au robot' puis dirigez-vous vers 'configuration du site'. Une fois que vous avez accédé à cette partie du menu, cliquez sur 'générer robots.txt'. Cet outil permet de créer rapidement un fichier Robots.txt.

Pour bloquer les pages d'accès au robot d'exploration, sélectionnez simplement l'option "bloquer". Vous pouvez ensuite sélectionner "User-Agent" pour spécifier les robots des moteurs de recherche que vous souhaitez bloquer. Maintenant, vous pouvez saisir les répertoires de sites auxquels vous souhaitez restreindre l'accès. Plutôt que de saisir l'intégralité de l'URL de la page cible, il vous suffit d'ajouter l'extension dans les "répertoires et fichiers". En d'autres termes, si vous souhaitez bloquer l'accès des robots d'exploration à votre page de connexion client, il vous suffit de saisir :

/connexion-client

Une fois que vous avez finalisé les pages que vous souhaitez bloquer, vous pouvez cliquer sur "ajouter une règle" pour générer Robots.txt. Le fichier Robots.txt généré vous donnera également la possibilité d'autoriser les exceptions, ce qui est utile si vous souhaitez uniquement empêcher certains moteurs de recherche d'indexer votre site.

Une fois tout terminé, vous pouvez maintenant cliquer sur l'icône de téléchargement pour produire un fichier Robots.txt final.

Comment installer un fichier Robots.txt ?

Maintenant que tout le travail acharné est pris en charge, il est temps d'installer votre fichier Robots.txt. Vous pouvez le faire vous-même en téléchargeant votre fichier avec une solution FTP. Cependant, s'il y a quelques lacunes dans vos connaissances en programmation, il peut être préférable de faire appel aux services d'un expert. Si vous confiez la tâche à un programmeur, assurez-vous de décrire exactement les pages que vous souhaitez bloquer et de spécifier les exceptions.

Fichiers robots.txt : éléments clés à retenir

Pour vous assurer que vous utilisez au mieux les fichiers Robots.txt, vous devez garder à l'esprit certaines bonnes pratiques. Cela peut sembler évident, mais assurez-vous de faire le point sur vos pages et de ne pas bloquer l'accès aux pages de grande valeur que vous souhaitez explorer et indexer.

Bien que de nombreux utilisateurs se tournent vers Robots.txt pour bloquer l'affichage d'informations sensibles sur les pages de résultats des moteurs de recherche, ce n'est pas la meilleure façon de garder ce matériel hors de vue du public. Si d'autres pages renvoient à celles que vous avez bloquées, il y a toujours une chance qu'elles finissent par être indexées. Utilisez une approche alternative pour garder les informations sensibles cachées.

Dernières pensées

Pour vous assurer que votre fichier Robots.txt n'a pas d'impact négatif sur votre référencement, vous devez le maintenir à jour. Chaque fois que vous ajoutez de nouvelles pages, répertoires ou fichiers à votre site Web, vous devez mettre à jour votre fichier Robots.txt en conséquence. Bien que cela ne soit nécessaire que si vous ajoutez du contenu qui doit être restreint, la révision de votre fichier Robots.txt est une bonne pratique. Cela garantit non seulement que le contenu de votre site est aussi sécurisé que possible, mais peut également bénéficier à votre stratégie de référencement.

En implémentant efficacement Robots.txt, vous pouvez maximiser votre budget de crawl et hiérarchiser vos pages les plus importantes, empêcher l'indexation du contenu dupliqué et minimiser le risque que des crawls simultanés forcent vos serveurs à s'arrêter.

Biographie de l'auteur :

Greg Tuohy est le directeur général de Docutec, un fournisseur de logiciels d'impression et de bureautique. Greg a été nommé directeur général en juin 2011 et est le moteur de l'équipe du Groupe Cantec. Immédiatement après avoir obtenu un diplôme en sciences à l'UCC en 1995, Greg a rejoint l'entreprise familiale de copieurs/imprimantes. Docutec fabrique également des imprimantes pour les maisons familiales, telles que des imprimantes multifonctions.