Robots.txt : guide complet pour contrôler l'indexation

Dans cet article

Le fichier robots.txt est lu par tous les moteurs de recherche avant chaque session de crawl sur votre site
Une seule ligne mal rédigée peut désindexer des centaines de pages en quelques jours
Les directives Disallow ne bloquent pas l’indexation à 100 % : seule la balise noindex garantit le retrait complet
Un robots.txt optimisé peut réduire le gaspillage de budget crawl de 30 à 60 % sur les gros sites
Google propose un outil de test gratuit dans la Search Console pour valider votre fichier en temps réel
Associer robots.txt et sitemap XML reste la combinaison la plus efficace pour piloter l’exploration

Sommaire

Qu’est-ce que le fichier robots.txt ?
Syntaxe et directives essentielles
Créer et déployer son robots.txt
Robots.txt et budget crawl : optimiser l’exploration
Robots.txt sur WordPress et autres CMS
Erreurs fréquentes et comment les éviter
Tester et valider son fichier robots.txt
Robots.txt vs noindex vs nofollow : quel outil pour quel besoin
Bonnes pratiques et recommandations

Après douze ans à configurer des sites pour mes clients dans la Loire, je peux vous affirmer que le fichier robots.txt reste l’un des leviers SEO les plus sous-estimés et les plus mal compris. Beaucoup de propriétaires de sites ignorent même son existence, tandis que d’autres l’utilisent à mauvais escient et bloquent involontairement des pages stratégiques. Dans ce guide, je vous explique concrètement comment maîtriser ce petit fichier texte qui influence directement la façon dont Google et les autres moteurs explorent votre site.

Qu’est-ce que le fichier robots.txt ?

Le fichier robots.txt est un fichier texte brut placé à la racine de votre site web. Son rôle est simple : indiquer aux robots d’exploration (crawlers) quelles parties de votre site ils peuvent visiter et lesquelles ils doivent ignorer. Concrètement, lorsque Googlebot ou Bingbot arrive sur votre domaine, la première chose qu’il fait est de chercher ce fichier à l’adresse https://votresite.fr/robots.txt.

Ce protocole existe depuis 1994. Il a été formalisé par Martijn Koster et repose sur le RFC 9309 publié par l’IETF, qui standardise le Robots Exclusion Protocol. Google, Bing, Yahoo et la plupart des crawlers respectent ces conventions, même si le fichier n’a aucune force juridique contraignante.

En pratique, le robots.txt sert à :

Économiser le budget crawl en évitant l’exploration de pages inutiles (pages d’administration, filtres de recherche, pages de tri)
Protéger des ressources sensibles comme les répertoires privés ou les environnements de staging
Orienter les moteurs vers les contenus à forte valeur ajoutée plutôt que vers des doublons ou du contenu technique

Attention toutefois : bloquer une URL via robots.txt n’empêche pas son indexation. Si d’autres pages pointent vers cette URL, Google peut quand même l’afficher dans ses résultats avec la mention « Aucune information n’est disponible pour cette page ». Pour comprendre comment accélérer le processus d’indexation de vos pages importantes, je vous recommande de consulter mon guide sur comment indexer rapidement ses pages sur Google.

Les robots d'exploration parcourent les serveurs web en suivant les directives du robots.txt — Les robots d’exploration parcourent les serveurs web en suivant les directives du robots.txt

Syntaxe et directives essentielles

La syntaxe du robots.txt est volontairement minimaliste. Chaque bloc de règles commence par une ligne User-agent qui identifie le robot ciblé, suivie d’une ou plusieurs directives. Voici les commandes fondamentales que j’utilise quotidiennement :

User-agent : désigne le crawler visé. L’astérisque * cible tous les robots.

User-agent: *

Disallow : interdit l’accès à un chemin spécifique ou à un répertoire entier.

Disallow: /admin/
Disallow: /wp-admin/
Disallow: /panier/

Allow : autorise l’accès à un sous-répertoire d’un chemin bloqué. Cette directive est surtout utilisée par Googlebot.

Disallow: /repertoire/
Allow: /repertoire/page-publique.html

Sitemap : indique l’emplacement de votre sitemap XML. C’est une directive que je recommande systématiquement d’inclure. Si vous n’avez pas encore de sitemap, suivez mon tutoriel pour créer un sitemap XML et le soumettre à Google.

Sitemap: https://votresite.fr/sitemap.xml

Crawl-delay : demande au robot d’attendre un certain nombre de secondes entre chaque requête. Googlebot ignore cette directive (il faut utiliser la Search Console pour limiter sa fréquence), mais Bingbot et Yandex la respectent.

Crawl-delay: 10

Les caractères génériques sont également très utiles. L’astérisque * remplace n’importe quelle séquence de caractères, et le dollar $ marque la fin d’une URL :

Disallow: /*.pdf$
Disallow: /*?sort=
Disallow: /*&filter=

Créer et déployer son robots.txt

Créer un robots.txt est d’une simplicité déconcertante. Ouvrez un éditeur de texte (Notepad++, VS Code, ou même le Bloc-notes de Windows), rédigez vos directives, puis enregistrez le fichier sous le nom exact robots.txt en encodage UTF-8. Ensuite, déposez-le à la racine de votre hébergement via FTP ou votre gestionnaire de fichiers.

Voici un exemple de fichier robots.txt que j’utilise comme base pour la plupart de mes projets :

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /cgi-bin/
Disallow: /?s=
Disallow: /search/
Disallow: /*?replytocom=
Disallow: /tag/
Disallow: /author/

Sitemap: https://votresite.fr/sitemap_index.xml

Quelques règles impératives à respecter lors du déploiement :

Le fichier doit être accessible à l’URL https://votresite.fr/robots.txt, jamais dans un sous-répertoire
Un seul fichier robots.txt par domaine (ou sous-domaine)
Le nom doit être en minuscules : robots.txt, pas Robots.txt ni ROBOTS.TXT
Si votre site est en HTTPS (et il devrait l’être, comme je l’explique dans mon guide de migration SSL), le fichier doit être servi sur la version HTTPS
Chaque sous-domaine a besoin de son propre robots.txt : blog.votresite.fr/robots.txt est distinct de www.votresite.fr/robots.txt

Robots.txt et budget crawl : optimiser l’exploration

Le budget crawl représente le nombre de pages que Google est prêt à explorer sur votre site pendant une période donnée. Pour un petit site de 50 pages, ce n’est jamais un problème. Mais dès que vous dépassez les 10 000 URLs (boutique e-commerce, annuaire, site média), chaque requête gaspillée sur une page inutile est une requête en moins pour vos contenus stratégiques.

L'analyse du budget crawl permet d'identifier les pages inutilement explorées par Google — L’analyse du budget crawl permet d’identifier les pages inutilement explorées par Google

Voici les types de pages que je bloque systématiquement pour préserver le budget crawl de mes clients :

Pages de résultats de recherche interne : elles créent potentiellement des milliers d’URLs sans valeur SEO
Filtres et tris de catalogue : les combinaisons de paramètres génèrent des pages quasi-dupliquées
Pages de pagination profondes au-delà de la page 5 ou 10
Versions d’impression ou de prévisualisation
Pages de tags WordPress quand elles font doublon avec les catégories
Répertoires techniques : /cgi-bin/, /tmp/, /cache/

Sur un site e-commerce que j’ai optimisé l’an dernier, le simple fait de bloquer les URL à paramètres de tri et de filtres a réduit le nombre de pages crawlées inutilement de 42 %, permettant à Googlebot de découvrir les nouvelles fiches produits en 48 heures au lieu de 2 semaines.

Pour que cette optimisation fonctionne pleinement, votre site doit aussi être rapide. Un temps de réponse serveur élevé réduit mécaniquement le nombre de pages crawlées. Je vous invite à lire mes conseils pour améliorer la vitesse de votre site WordPress.

Robots.txt sur WordPress et autres CMS

WordPress génère un robots.txt virtuel par défaut depuis la version 5.7. Ce fichier basique contient simplement le blocage de /wp-admin/ avec l’autorisation de admin-ajax.php. C’est un strict minimum qui ne suffit pas pour un site optimisé.

Pour personnaliser le robots.txt sur WordPress, vous avez trois options :

Plugin Yoast SEO ou Rank Math : les deux proposent un éditeur intégré accessible depuis leur interface. C’est la méthode la plus simple pour la majorité des utilisateurs.
Fichier physique : créez un fichier robots.txt et déposez-le via FTP à la racine. Ce fichier physique prend le pas sur le fichier virtuel généré par WordPress.
Hook WordPress : pour les développeurs, le filtre robots_txt permet de modifier dynamiquement le contenu du fichier virtuel.

Si vous hésitez encore entre WordPress et d’autres plateformes pour votre projet, mon comparatif WordPress vs Shopify vs Webflow en 2026 peut vous aider dans votre décision. Pour les sites statiques, la gestion est encore plus simple puisque vous créez manuellement le fichier. Consultez mon article sur les générateurs de sites statiques en 2026 si cette approche vous intéresse.

CMS / Plateforme	Robots.txt par défaut	Méthode de personnalisation	Niveau de contrôle
WordPress	Virtuel basique	Plugin SEO, fichier FTP, hook PHP	Complet
Shopify	Généré automatiquement	Fichier robots.txt.liquid (depuis 2021)	Modéré
Wix	Généré automatiquement	Éditeur intégré (SEO > robots.txt)	Limité
Webflow	Généré automatiquement	Paramètres SEO du projet	Modéré
PrestaShop	Fichier physique basique	Édition directe FTP ou module SEO	Complet
Site statique	Aucun	Création manuelle du fichier	Total

Erreurs fréquentes et comment les éviter

En douze ans de pratique, j’ai vu des robots.txt provoquer des catastrophes SEO parfaitement évitables. Voici le palmarès des erreurs que je rencontre le plus souvent :

Bloquer tout le site par accident : c’est l’erreur la plus grave et malheureusement la plus courante lors des mises en production. Un simple Disallow: / laissé par un développeur après une phase de staging suffit à désindexer l’intégralité de votre site en quelques semaines. Lors d’une refonte, cette vérification fait partie de ma checklist complète de refonte de site.

Confondre Disallow et noindex : bloquer une page dans le robots.txt n’empêche pas Google de l’indexer si elle reçoit des liens. Le robot ne viendra pas la crawler, mais il peut l’afficher dans les résultats avec un extrait vide. Pour réellement empêcher l’indexation, utilisez la balise meta noindex ou l’en-tête HTTP X-Robots-Tag.

Bloquer les fichiers CSS et JavaScript : c’est une pratique héritée des années 2000 qui nuit aujourd’hui à votre SEO. Google a besoin d’accéder à vos ressources front-end pour faire le rendu de vos pages et évaluer l’expérience utilisateur. Si vous bloquez vos CSS, Googlebot voit une page brute sans mise en forme.

Oublier la directive Sitemap : même si vous avez déclaré votre sitemap dans la Search Console, indiquer son URL dans le robots.txt est une bonne pratique complémentaire. Les autres moteurs de recherche (Bing, Yandex) s’appuient sur cette information.

Utiliser des chemins relatifs : les URLs dans la directive Sitemap doivent être absolues (commençant par https://). Les chemins relatifs dans les directives Disallow/Allow sont relatifs à la racine du domaine, ce qui est correct, mais une erreur de chemin passera inaperçue sans test.

Tester et valider chaque modification du robots.txt avant le déploiement en production

Tester et valider son fichier robots.txt

Ne déployez jamais un robots.txt sans le tester. Une directive mal formulée peut rester en place des mois avant que vous ne remarquiez une chute de trafic. Voici les outils que j’utilise systématiquement :

Google Search Console : l’outil officiel de Google propose un testeur de robots.txt intégré qui vous permet de vérifier si une URL spécifique est bloquée ou autorisée. C’est mon premier réflexe à chaque modification.

Screaming Frog : cet outil de crawl permet de simuler le comportement de Googlebot et d’identifier les pages bloquées par le robots.txt dans un rapport dédié. Indispensable pour les sites de plus de 500 pages.

Vérification manuelle : tapez simplement https://votresite.fr/robots.txt dans votre navigateur. Si vous obtenez une erreur 404, c’est que le fichier n’existe pas (les robots traiteront cela comme une autorisation totale). Si vous obtenez une erreur 5xx, Google considérera que toutes les URLs sont bloquées par précaution.

Après chaque modification du robots.txt, je recommande de :

Tester le fichier dans la Search Console
Vérifier les 5 à 10 URLs les plus importantes de votre site
Contrôler les pages que vous souhaitez bloquer ET celles que vous souhaitez garder accessibles
Surveiller le rapport de couverture d’indexation dans les jours suivants

Robots.txt vs noindex vs nofollow : quel outil pour quel besoin

C’est la question que l’on me pose le plus souvent : quelle est la différence entre bloquer une page dans le robots.txt, ajouter une balise noindex, ou utiliser nofollow sur les liens ? Ces trois mécanismes ont des fonctions distinctes et complémentaires :

Critère	Robots.txt (Disallow)	Meta noindex	Nofollow (lien)
Action principale	Bloque le crawl de la page	Bloque l’indexation de la page	Bloque le suivi d’un lien spécifique
La page peut apparaître dans Google ?	Oui, si des liens pointent vers elle	Non, retirée des résultats	Sans effet sur l’indexation de la page cible
Le contenu est crawlé ?	Non	Oui (le robot doit lire la balise)	La page source est crawlée
Effet sur le budget crawl	Économise le crawl	Consomme une requête de crawl	Aucun effet direct
Cas d’usage idéal	Pages techniques, filtres, admin	Pages à faible valeur SEO mais accessibles aux utilisateurs	Liens vers contenus non fiables ou sponsorisés
Combinaison recommandée	Ne pas combiner avec noindex (paradoxe)	Laisser le crawl ouvert pour que la balise soit lue	Peut se combiner avec tout

Le piège classique : bloquer une page dans le robots.txt ET lui ajouter une balise noindex. C’est contradictoire. Si le robot ne peut pas crawler la page, il ne lira jamais la balise noindex. Google a explicitement confirmé ce comportement dans sa documentation officielle. Vous voulez que la page disparaisse des résultats ? Autorisez le crawl et utilisez noindex.

Pour aller plus loin sur l’optimisation de l’expérience utilisateur qui accompagne ces réglages techniques, consultez mon article sur comment réduire le taux de rebond.

Bonnes pratiques et recommandations

Après des centaines de fichiers robots.txt configurés, voici les principes que j’applique systématiquement pour mes clients :

Adoptez une approche permissive par défaut. Ne bloquez que ce qui doit l’être. Un robots.txt trop restrictif est plus dangereux qu’un robots.txt trop permissif. En cas de doute, laissez le crawl ouvert et utilisez noindex si nécessaire.

Documentez vos choix avec des commentaires. Le robots.txt supporte les commentaires avec le caractère #. Prenez l’habitude d’expliquer pourquoi vous bloquez chaque chemin :

# Blocage des résultats de recherche interne (contenu dupliqué)
Disallow: /?s=

# Blocage des pages de tri e-commerce
Disallow: /*?orderby=

Pensez aux crawlers non Google. GPTBot (OpenAI), ClaudeBot (Anthropic), Bytespider (TikTok) : les robots d’intelligence artificielle se multiplient. Si vous souhaitez contrôler l’utilisation de vos contenus par ces systèmes, vous pouvez les bloquer spécifiquement. La CNIL propose des recommandations sur la maîtrise des robots d’exploration liés à l’IA.

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Bytespider
Disallow: /

Versionnez votre robots.txt. Intégrez-le à votre système de gestion de versions (Git). Chaque modification doit être traçable. J’ai déjà vu des agences perdre des semaines à comprendre pourquoi un site avait chuté dans Google, simplement parce que personne ne savait qui avait modifié le robots.txt ni quand.

Auditez régulièrement. Je programme un audit du robots.txt tous les trois mois pour chaque client. Les sites évoluent : de nouvelles sections apparaissent, des URL changent de structure, des répertoires deviennent obsolètes. Votre robots.txt doit suivre ces évolutions.

Si vous êtes en phase de création de site ou de blog, intégrez la configuration du robots.txt dès le départ dans votre plan de lancement. Mon guide pour créer un blog rentable en 2026 aborde cette étape dans le cadre d’une stratégie SEO globale.

À retenir

Placez toujours votre robots.txt à la racine du domaine en UTF-8, avec le nom en minuscules
Ne bloquez jamais vos fichiers CSS et JavaScript : Google en a besoin pour le rendu des pages
Utilisez noindex (et non Disallow) pour empêcher réellement l’apparition d’une page dans les résultats
Testez systématiquement dans la Google Search Console après chaque modification du fichier
Associez votre robots.txt à un sitemap XML déclaré dans le fichier pour guider efficacement les moteurs

Questions fréquentes

Le fichier robots.txt est-il encore utile en 2026 ?

Absolument. Même si Google a introduit de nombreuses autres méthodes de contrôle du crawl, le robots.txt reste le standard universel reconnu par tous les moteurs de recherche et tous les robots d’exploration, y compris ceux de l’intelligence artificielle. Il est indispensable pour gérer le budget crawl des sites volumineux et constitue la première ligne de communication entre votre serveur et les crawlers.

Comment fonctionne un robot d’indexation ?

Un robot d’indexation (crawler) parcourt le web en suivant les liens d’une page à l’autre. Il commence par vérifier le fichier robots.txt du domaine visité, puis télécharge le contenu HTML des pages autorisées, extrait les liens qu’elles contiennent, et ajoute les nouvelles URLs découvertes à sa file d’attente. Le contenu récupéré est ensuite analysé, indexé et classé par l’algorithme du moteur de recherche.

Le fichier robots.txt est-il juridiquement contraignant ?

Non, le robots.txt n’a pas de valeur juridique contraignante en tant que tel. C’est une convention que les robots bien intentionnés respectent volontairement. Cependant, plusieurs décisions de justice en Europe et aux États-Unis ont considéré le non-respect du robots.txt comme un élément aggravant dans des affaires de scraping abusif. Pour protéger réellement des contenus sensibles, il faut utiliser une authentification serveur (mot de passe, IP whitelisting).

Que se passe-t-il si mon site n’a pas de fichier robots.txt ?

Si votre serveur retourne une erreur 404 pour l’URL /robots.txt, les moteurs de recherche considèrent que l’ensemble du site est ouvert au crawl. Toutes les pages accessibles seront explorées sans restriction. Ce n’est pas problématique pour un petit site, mais pour un site de plus de 1 000 pages, l’absence de robots.txt peut entraîner un gaspillage significatif du budget crawl sur des pages sans intérêt SEO.

Peut-on utiliser le robots.txt pour bloquer les crawlers d’IA comme GPTBot ?

Oui, les principaux crawlers d’IA respectent le robots.txt. OpenAI (GPTBot), Anthropic (ClaudeBot), Google (Google-Extended) et ByteDance (Bytespider) ont chacun un User-agent déclaré que vous pouvez cibler avec une directive Disallow. Il suffit d’ajouter un bloc dédié dans votre fichier pour chaque crawler que vous souhaitez bloquer. Vérifiez régulièrement la liste des nouveaux User-agents car ce domaine évolue rapidement.

Faut-il bloquer /wp-admin/ dans le robots.txt de WordPress ?

Oui, c’est une bonne pratique standard que WordPress applique d’ailleurs par défaut depuis la version 5.7. Bloquer /wp-admin/ empêche les crawlers de perdre du temps sur votre interface d’administration. En revanche, pensez à autoriser /wp-admin/admin-ajax.php avec une directive Allow, car ce fichier est utilisé par de nombreux thèmes et plugins pour charger du contenu dynamique côté front-end.

Nathan Morel

Nathan Morel est développeur web freelance depuis 12 ans dans la Loire. Spécialisé WordPress et solutions sur mesure, il a accompagné plus de 200 PME et partage son expérience technique et entrepreneuriale sur NA Web.

Robots.txt : guide complet pour contrôler l’indexation