Robots.txt : notre guide pour bien l’implémenter !
Une stratégie de référencement naturel repose sur trois piliers : la popularité, les contenus, le socle technique du site. Pour cette dernière partie, de nombreux éléments doivent être optimisés, dont le fichier robots.txt. Vous souhaitez optimiser le SEO de votre site (Search Engine Optimization, ou optimisation pour les moteurs de recherche) ? Découvrez le rôle du robots.txt, son utilité, les bonnes pratiques à respecter.
Qu’est-ce qu’un fichier robots.txt ?
robots.txt est un fichier texte placé sur un site web. Il indique aux robots d’exploration des moteurs de recherche comment parcourir le site. C’est le premier élément visité par ces robots. Grâce à lui, ils connaissent les pages à indexer ou à ignorer.
Le fichier robots.txt fait partie du protocole d’exclusion des robots (REP : Robots Exclusion Protocol). Le REP réglemente notamment la manière dont les robots explorent le web, ou indexent les pages.
Voici plusieurs informations supplémentaires à connaître :
- Un site Internet contient un seul fichier robots.txt.
- Il doit toujours être écrit de cette manière, en minuscule : « robots.txt ».
- Il ne doit jamais dépasser la taille de 512 ko.
- Il est accessible au public ; tout le monde peut le consulter, connaître son contenu.
À quoi sert-il ?
Les moteurs de recherche, comme Google, déploient des robots pour parcourir le web. Ils passent sur chaque site pour en comprendre le contenu, puis l’indexer. Cette action permet ensuite de proposer des contenus pertinents pour répondre aux requêtes des internautes. Implémenter un fichier robots.txt donne la possibilité d’interdire ou d’autoriser l’exploration, puis l’indexation des pages sur votre site. Ces consignes peuvent concerner l’ensemble des robots ou seulement une partie. Vous n’avez aucune obligation d’ajouter un fichier robots.txt, mais cela est recommandé. Si vous ne le faites pas, l’intégralité des pages de votre site sera indexée dans la SERP. Il s’agit de l’acronyme pour Search Engine Result Page, ou page des résultats des moteurs de recherche.
Pourquoi empêcher des robots d’explorer votre site, d’indexer des contenus ? Il existe plusieurs cas de figure où cela peut se révéler utile. Par exemple :
- Certaines pages peuvent être privées. Dans ce cas, vous n’avez pas envie de les voir accessibles directement depuis les moteurs de recherche.
- Des pages ne sont pas sécurisées. Si elles sont indexées, cela peut faire baisser votre référencement naturel.
- Votre site contient des pages en double ou similaires. Google pourrait les identifier comme du plagiat. Il choisira alors de lui-même le contenu à ajouter à la SERP, au détriment des autres. Cela a une incidence sur le référencement des pages exclues. Il peut s’agir de celles à valoriser selon votre stratégie SEO.
Le fichier robots.txt joue un autre rôle. Il indique aux robots l’emplacement du fichier sitemap : celui-ci contient la liste de chaque URL de votre site à explorer puis indexer. Un fichier robots.txt optimisé permet aussi une analyse des logs plus efficace.
Où doit-on placer le fichier robots.txt ?
Le fichier robots.txt doit être placé à un endroit précis : la racine de votre site. S’il est mis ailleurs, par exemple dans un répertoire, il ne pourra pas être trouvé par les robots. Ces derniers ne pourront donc pas suivre les consignes données. Comment savoir si le fichier robots.txt est déjà ajouté ? Voici une astuce simple pour le savoir :
- Allez dans la barre d’adresse de votre navigateur ;
- Entrez l’URL de votre site, suivi de la mention « robots.txt », comme ceci : http://www.votreadresse.fr/robots.txt ;
- Le fichier s’affiche directement s’il est présent. S’il est absent, vous verrez apparaître une « erreur 404 », signifiant « page introuvable ». Vous devez alors créer un fichier robots.txt.
Certains CMS (Content Management System, ou système de gestion de contenu) comme WordPress ne génèrent pas de fichier robots.txt nativement. Vous devrez donc le créer vous-même, ou via une extension comme Yoast SEO.
Syntaxe technique du robots.txt
Plusieurs instructions apparaissent dans un fichier robots.txt :
- User-agent : elle définit les entités auxquelles s’appliquent les règles précisées. Par exemple, Google, Yahoo !, Bing…
- Disallow : elle indique les pages ou répertoires ne devant pas être explorés par les robots. Si elle est laissée vide, cela signifie : tous les contenus peuvent être explorés. Au contraire, un simple/, sans précision, permet d’interdire l’exploration de tous les répertoires et pages.
- Allow : c’est l’inverse du Disallow. Cette instruction est utilisée pour autoriser l’accès à un contenu précis dans un répertoire interdit.
- Sitemap : cette commande indique l’adresse URL où se trouve le fichier sitemap.
Vous pouvez aussi utiliser la valeur * dans le fichier. Elle sert à indiquer « tous les robots d’exploration de tous les moteurs de recherche ».
Une autre valeur à connaître est le #. Il est placé en début de ligne. Il n’est pas lu par les robots. Il sert à ajouter un commentaire dans le fichier, par exemple pour garder trace d’une modification.
Exemples de robots.txt
Voici plusieurs exemples de fichiers robots.txt :
- Vous voulez autoriser l’intégralité des moteurs de recherche à accéder à tous les contenus sans exception :
User-agent : *
Disallow :
- Vous ne voulez pas voir votre site, toutes pages confondues, être indexé dans les SERP. Vous devez bloquer tous les robots d’exploration de l’intégralité des moteurs :
User-agent : *
Disallow : /
- Vous souhaitez interdire aux robots Google en particulier d’explorer deux pages précises sur vote site :
User-agent : Googlebot
Disallow : /page-3.html
Disallow : /page-9.html
- Vous voulez interdire à tous les moteurs de recherche l’exploration de plusieurs répertoires précis, les A, C et E :
User-agent : *
Disallow : /repertoire-a/
Disallow : /repertoire-c/
Disallow : /repertoire-e/
- Vous voulez interdire à Google, mais pas aux autres, l’exploration d’un répertoire particulier :
User-agent : Googlebot
Disallow : /repertoire-b/
User-agent : *
Disallow :
- Vous voulez interdire l’exploration d’un contenu spécifique, par exemple le répertoire C et la page 8 :
User-agent : *
Disallow : /repertoire-c/
Disallow : /page-8.html
- Vous voulez bloquer l’accès à des contenus spécifiques commençant par un terme précis :
User-agent : *
Disallow : /merci*
Correspondance à des patterns de RegEX
RegEX signifie « expressions régulières ». Cette commande sert à cibler des éléments spécifiques au sein d’un ensemble plus large.
Elles ne sont pas valides dans robots.txt. Les robots sont tout de même capables, dans la plupart des cas, de les interpréter. Google autorise notamment l’utilisation de RegEx dans la Search Console.
Voici deux exemples d’expressions régulières autorisées par Google : * et $. La valeur $ sert à regrouper tous les URL se terminant par un terme spécifique. Il se place à la fin de l’extension concernée. Par exemple, vous souhaitez bloquer toutes les pages dont l’URL se termine par « .xls ». Au lieu de toutes les lister, indiquez simplement, sur une seule ligne : « Disallow : /*.xls$ ».
Comment tester et vérifier l’implémentation du robots.txt ?
Avant toute chose, vous devez créer votre site, puis l’authentifier sur Google Search Console. Une fois votre compte créé, vous aurez accès à une multitude de fonctionnalités, dont l’outil de test du fichier robots.txt.
Son utilisation est d’une grande simplicité :
- Indiquez l’URL de la page à tester.
- Choisissez dans la liste déroulante le user-agent Google à vérifier. Par exemple, Googlebot, ou Googlebot-Image.
- Cliquez sur le bouton « Tester ».
- Si la mention « Bloquée » apparaît, les robots n’ont pas réussi à accéder à l’URL indiquée. Si au contraire la mention « Acceptée » est indiquée, ils ont pu y accéder.
- Directement sur la page, le nombre d’erreurs et d’avertissements dans le fichier robots.txt est indiqué. Si le compteur est à 0, vous n’avez rien à corriger. S’il montre plusieurs problèmes, faites défiler le fichier pour prendre connaissance des messages d’avertissements et d’erreurs relevés par Google.
- Procédez aux modifications nécessaires si besoin, puis relancez un test. Recommencez cette étape jusqu’à ne plus avoir de messages d’alerte.
Une fois votre fichier robots.txt corrigé, pensez à le modifier sur votre serveur. Google n’enregistre pas les changements directement sur le fichier présent sur votre site.
robots.txt et SEO : les bonnes pratiques
Optimisez votre SEO en utilisant au mieux votre fichier robots.txt. Celui-ci permet notamment de :
- Ne pas indexer des contenus dupliqués sur votre site. Vous évitez ainsi de voir ces pages considérées comme du plagiat. Cela pénaliserait votre référencement.
- Donner le sitemap aux robots. Ils savent comment naviguer sur votre site, les pages à explorer, celles à ignorer. Vous facilitez leur passage, et au long-terme, cela peut améliorer votre positionnement dans la SERP.
- Vous gagnez du temps : les robots de Google se concentrent sur les pages utiles, celles devant être référencées. Ils ignorent les pages dupliquées, mais aussi toutes celles peu intéressantes pour votre classement.
Suivez ces recommandations pour bien utiliser votre fichier robots.txt dans une optique SEO :
- Vérifiez bien les contenus bloqués et autorisés sur votre site. Vous éviterez ainsi de bloquer par erreur des pages à indexer.
- Si vous bloquez une URL, les liens présents dessus ne seront pas explorés par les robots. Si ces pages en lien sont accessibles par d’autres moyens, cela ne posera pas de problème. Les robots les trouveront, ils pourront tout de même les explorer. Dans le cas contraire, ces pages ne seront pas indexées. Cela peut aussi poser un souci pour votre “link juice”. Les pages bloquées ne pourront pas transmettre ou recevoir de popularité. Pour contourner ce problème, utilisez un mécanisme de blocage différent, comme le no-index.
- Les moteurs de recherche sont susceptibles d’utiliser différents user-agents pour explorer votre site. Par exemple, Google utilise Googlebot pour le référencement naturel. Pour la recherche par images, il emploie Googlebot-Image. Ces user-agents suivent généralement les mêmes règles, vous n’avez pas besoin de leur donner des consignes spécifiques. Vous pouvez tout de même le faire pour affiner la manière dont ils explorent votre site.
- Les moteurs de recherche placent en cache le fichier robots.txt. Ils le mettent à jour quotidiennement. Lorsque vous modifiez votre fichier, un léger délai peut survenir avant de voir les modifications prises en compte. Pour accélérer ce processus, soumettez le robots.txt directement aux moteurs de recherche.
Le fichier robots.txt aide les robots des moteurs de recherche à explorer, puis indexer les contenus de votre site. Il vous permet de garder le contrôle sur les pages devant ou non être présentes dans la SERP. S’il n’est pas obligatoire, il est recommandé d’en créer un. Sa présence et son contenu peuvent améliorer votre référencement naturel.
Les 3 points clés à retenir :
- Le fichier robots.txt est un fichier texte placé à la racine d’un site web ;
- Il contient des indications à destination des robots des moteurs de recherche ;
- Il permet de leur spécifier les pages à explorer, indexer, ou ignorer.
Guides et astuces pour le SEO
Découvrez nos guides SEO. Vous trouverez ici tous nos conseils, ainsi que des tutoriels détaillés qui vous permettront d’étendre vos connaissances en référencement naturel !