Pouvez-vous expliquer ce qu'est le fichier robots.txt et quel rôle il joue dans le référencement sur les sites web ?

Harmoniv - le 19 Avril 2025
Je me demandais, comment on fait pour dire aux robots d'indexation quelles pages ne pas visiter sur un site ? J'ai entendu parler du fichier robots.txt, mais j'aimerais bien comprendre son fonctionnement exact et comment il peut influencer le SEO.
Commentaires (18)
Harmoniv, quand tu dis "quelles pages ne pas visiter", tu penses à des pages très spécifiques ou plutôt à des types de pages (genre les pages d'admin, les pages de confirmation de commande...) ? 🤔 Et est-ce que tu as déjà regardé le robots.txt d'un site pour voir comment c'était foutu ? 🤔
Vanessa Charles, c'est surtout pour les types de pages, comme tu dis. Les pages d'admin, les résultats de recherche interne, des trucs comme ça. Je me demandais si on pouvait bloquer l'accès à tout un dossier facilement, ou s'il fallait lister chaque page une par une. Non, j'avoue, j'ai pas encore regardé des exemples concrets de robots.txt... C'est peut-être le plus simple, en fait, non ?
Harmoniv, regarder des exemples, c'est le top pour comprendre comment ça marche ! En gros, pour bloquer un dossier entier, tu utilises la syntaxe "Disallow: /nom-du-dossier/". Ça empêchera les robots d'accéder à tout ce qu'il y a dedans. Après, faut faire attention à ce que tu bloques, hein, pas de bêtises !
Zephyr783 a raison, la syntaxe avec le slash c'est la base. Pensez aussi à utiliser des wildcards (*) si vous avez des URLs qui suivent un certain pattern mais avec des variations (genre des IDs de session ou des paramètres dynamiques). Ça évite de lister chaque URL individuellement. Et surtout, testez bien votre robots.txt avec l'outil de Google Search Console, ça vous évitera des mauvaises surprises.
Duc a mis le doigt dessus. L'outil de test de Google, c'est super important. Moi, la première fois, j'avais mis un "Allow: /" au lieu d'un "Disallow: /"... autant dire que j'ai bien rigolé (jaune) quand j'ai vu le résultat dans les SERP. Et pour compléter, Harmoniv, si tu veux bloquer TOUT le site à certains robots (genre les robots de spam), tu peux utiliser l'User-agent: spécifique à ce robot et "Disallow: /".
BerryGoodDesign, ton histoire de "Allow" au lieu de "Disallow" me rappelle une bêvue similaire que j'ai faite il y a quelques années. J'avais inversé deux lignes dans une règle de pare-feu, résultat : le site était accessible depuis la Chine mais pas depuis la France. L'outil de test de Google, c'est vraiment un must-have pour éviter ce genre de soucis. J'ajouterais qu'il faut aussi surveiller régulièrement les logs pour voir si des robots malveillants essaient d'accéder à des zones bloquées et adapter le robots.txt en conséquence.
AnalyseurPro39, ton anecdote sur le pare-feu me fait penser à une fois où j'avais... bref, passons. Revenons à nos moutons, comme dirait l'autre. Surveiller les logs, c'est une excellente idée. On peut aussi mettre en place des alertes pour être prévenu en cas d'activité suspecte. Comme ça, on réagit vite.
Clair et net.
Ok, si je résume bien, l'idée c'est que le fichier robots.txt sert à indiquer aux robots d'indexation les parties d'un site qu'on ne veut pas qu'ils visitent (genre admin, résultats de recherche...). Pour bloquer un dossier, on utilise "Disallow: /nom-du-dossier/". Il faut tester son fichier avec l'outil de Google et surveiller les logs pour voir si des robots font des choses pas normales. C'est ça ?
C'est ça, Harmoniv, t'as tout pigé. Nickel ! 👍
Harmoniv, Duc a raison, t'as tout bon ! 😎 Juste un petit truc en plus : si jamais tu as des images que tu ne veux pas indexer, tu peux aussi les bloquer via le robots.txt. C'est pas toujours nécessaire, mais ça peut être utile dans certains cas (genre des images temporaires ou des visuels pas finis). 😉
Exactement, BerryGoodDesign. Bloquer les images, c'est un truc auquel on ne pense pas toujours, mais ça peut être pertinent pour optimiser le crawl budget. Bien vu !
Ah oui, le crawl budget ! On dirait un truc sorti d'un film de SF, non ? Genre, "Attention, le crawl budget diminue, il faut agir vite !" 😂 Plus sérieusement, c'est vrai que c'est un facteur à prendre en compte, surtout sur les gros sites. Merci Vanessa Charles pour le rappel !
BerryGoodDesign, ta remarque sur le crawl budget qui sonne comme un film de SF m'a bien fait marrer ! C'est vrai que dit comme ça, ça a un côté dystopique. Mais derrière le jargon, y'a une vraie logique, surtout avec la quantité astronomique de pages qui existent aujourd'hui. Google, par exemple, doit faire des choix. On estime qu'il "gaspille" environ 40% de son crawl budget sur des pages de mauvaise qualité ou inutiles. C'est énorme. Donc, optimiser son robots.txt, c'est un peu comme faire le tri dans son dressing avant un grand voyage : on ne prend que l'essentiel pour ne pas se retrouver avec une valise trop lourde. Et concrètement, ça se traduit par quoi ? Ben, au-delà des pages d'admin et des résultats de recherche interne dont on parlait au début, ça peut être aussi exclure les versions "imprimables" des pages, les flux RSS (sauf si on a une bonne raison de les laisser crawler), ou même certaines archives trop anciennes. L'idée, c'est de concentrer le crawl budget sur les pages qui apportent le plus de valeur et qui ont le plus de chances de se positionner. Faut que Google se concentre sur les 60% restants, quoi. Et Vanessa Charles a raison de le souligner, bloquer les images est un levier souvent négligé, alors que ça peut avoir un impact significatif, particulièrement sur les sites avec beaucoup de visuels. Imaginez un site e-commerce avec des milliers de photos de produits, dont certaines sont de qualité médiocre ou dupliquées. En les excluant du crawl, on libère du budget pour les pages produits elles-mêmes, ce qui améliore leur indexation et donc leur visibilité. C'est un peu de la logique, en fait.
Duc, ton explication est top, et chiffrée en plus ! C'est vrai que le coup des 40% de crawl budget "gaspillé", ça fait réfléchir. On se dit qu'il y a de la marge pour optimiser. Et c'est pas juste pour les gros sites, hein. Même un site plus modeste, s'il est mal foutu, il peut vite bouffer son crawl budget pour des broutilles. Pour l'histoire des images, c'est un peu pareil. On a tendance à penser que Google est super intelligent et qu'il va forcément choisir les bonnes images à indexer. Mais en réalité, si on lui laisse le champ libre, il risque de se perdre dans des vignettes de mauvaise qualité ou des images dupliquées, comme tu dis. Et là, c'est du crawl budget gâché pour rien. Après, faut pas non plus tomber dans la parano et bloquer tout et n'importe quoi. L'idée, c'est de trouver le bon équilibre entre laisser Google explorer ce qui est important et lui éviter de se perdre dans les méandres inutiles du site. Et comme tu le disais, l'outil de Google Search Console est notre meilleur allié pour ça. Sans lui, c'est un peu comme naviguer à l'aveugle. En parlant de gaspillage, je me demande si les sites qui utilisent des carrousels d'images à outrance, ils réalisent l'impact sur leur crawl budget ? Parce que souvent, les images du carrousel sont à peine visibles, et pourtant Google va les crawler quand même. C'est peut-être un truc à creuser, non ?
Bien vu pour le carrousel, Zephyr783, j'y avais pas pensé.
Clairement, Zephyr783, les carrousels sont un gouffre. Une analyse s'impose pour quantifier l'impact réel et arbitrer.
Zephyr783, ton interrogation sur les carrousels, c'est le genre de questions qui me titille. AnalyseurPro39 a raison, faut quantifier. Mais au-delà de la quantité brute, je me demande si la *façon dont* ces carrousels sont implémentés joue pas un rôle majeur. Genre, si chaque image est chargée *d'emblée* (mode "bourrin") ou si c'est du chargement progressif (lazy loading), ça doit pas avoir le même impact sur le crawl budget. Logiquement, si t'as 10 images dans un carrousel et que les 10 se chargent direct, Google va crawler les 10, même si l'utilisateur n'en voit que 2 ou 3. Mais si t'as du lazy loading, il ne crawlera que celles qui sont effectivement affichées, non ? Faudrait tester ça avec l'outil de Google pour voir. Et puis, est-ce que la *qualité* de ces images est optimisée ? Parce que si on balance des images de 5 Mo dans un carrousel, c'est sûr que ça va plomber le crawl budget et la performance du site en général. Faut penser à compresser les images, utiliser le bon format (WebP, par exemple), et optimiser leur taille pour le web. On pourrait imaginer un test A/B : un carrousel "optimisé" (lazy loading + images compressées) vs un carrousel "standard", et mesurer l'impact sur le crawl budget et le positionnement des pages. En gros, avant de virer tous les carrousels, je pense qu'il faudrait creuser ces aspects techniques. C'est comme pour le robots.txt, c'est pas juste une question de bloquer ou d'autoriser, c'est une question d'optimisation fine. Et puis, faut pas oublier que les carrousels peuvent aussi avoir un intérêt pour l'expérience utilisateur, donc faut pas jeter le bébé avec l'eau du bain ! 😉