SEO Technique 10 min de lecture

Maîtriser le robots.txt : contrôlez ce que Google peut explorer

Le fichier robots.txt est votre premier outil pour communiquer avec les moteurs de recherche. Apprenez à le configurer correctement pour optimiser le crawl de votre site.

Le fichier robots.txt est souvent le grand oublié des stratégies SEO. Pourtant, ce petit fichier texte joue un rôle crucial dans la façon dont les moteurs de recherche explorent votre site. Mal configuré, il peut bloquer l'accès à des pages importantes ou, au contraire, laisser Googlebot gaspiller son temps sur des sections inutiles. Voici le guide complet pour maîtriser cet outil essentiel.

Qu'est-ce que le robots.txt ?

Le robots.txt est un fichier texte placé à la racine de votre site web qui indique aux robots des moteurs de recherche (comme Googlebot) quelles parties de votre site ils peuvent ou ne peuvent pas explorer. C'est le premier fichier que les crawlers consultent lorsqu'ils visitent votre domaine.

"Le fichier robots.txt est comme un panneau d'affichage à l'entrée de votre site. Il donne des instructions aux robots, mais ceux-ci peuvent choisir de les suivre ou non."

Documentation Google Search Central

Ce fichier utilise le Robots Exclusion Protocol (REP), un standard web créé en 1994 et toujours utilisé aujourd'hui. Les principaux moteurs de recherche (Google, Bing, Yahoo, Yandex) respectent ce protocole.

Important Le robots.txt est une directive, pas une barrière de sécurité. Les robots malveillants peuvent l'ignorer.

Comment fonctionne le robots.txt ?

Lorsqu'un robot de moteur de recherche arrive sur votre site, il suit ce processus :

  1. Il cherche le fichier https://votresite.com/robots.txt
  2. S'il trouve le fichier, il lit les directives qui le concernent
  3. Il applique ces directives pendant son exploration
  4. S'il ne trouve pas de robots.txt, il explore tout le site

Chaque robot s'identifie par un User-agent spécifique. Voici les principaux :

Moteur de recherche User-agent principal
Google (recherche web) Googlebot
Google (images) Googlebot-Image
Bing Bingbot
Yahoo Slurp
Yandex YandexBot
Baidu Baiduspider

Syntaxe et directives essentielles

Le robots.txt utilise une syntaxe simple mais précise. Voici les directives principales :

User-agent

Spécifie à quel robot s'appliquent les règles suivantes :

User-agent: Googlebot
User-agent: *

L'astérisque (*) signifie "tous les robots".

Disallow

Interdit l'accès à une URL ou un répertoire :

Disallow: /admin/
Disallow: /private/page.html
Disallow: /search

Allow

Autorise l'accès (utile pour créer des exceptions) :

Disallow: /dossier/
Allow: /dossier/page-importante.html

Sitemap

Indique l'emplacement de votre sitemap XML :

Sitemap: https://votresite.com/sitemap.xml

Crawl-delay (non supporté par Google)

Demande un délai entre les requêtes (supporté par Bing et Yandex) :

Crawl-delay: 10
Google ignore la directive Crawl-delay. Pour limiter la fréquence de crawl de Googlebot, utilisez les paramètres dans Google Search Console.

Utilisation des wildcards

Google et Bing supportent les caractères génériques :

  • * : correspond à n'importe quelle séquence de caractères
  • $ : indique la fin de l'URL
# Bloquer toutes les URLs contenant "?print"
Disallow: /*?print

# Bloquer tous les fichiers .pdf
Disallow: /*.pdf$

Exemples pratiques par type de site

Site WordPress standard

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /*?s=
Disallow: /*?p=
Disallow: /author/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://votresite.com/sitemap_index.xml

Site e-commerce

User-agent: *
Disallow: /panier/
Disallow: /checkout/
Disallow: /mon-compte/
Disallow: /wishlist/
Disallow: /*?filter=
Disallow: /*?sort=
Disallow: /*?page=
Disallow: /recherche/
Disallow: /comparateur/

Allow: /

Sitemap: https://boutique.com/sitemap.xml

Site avec espace membre

User-agent: *
Disallow: /membre/
Disallow: /dashboard/
Disallow: /profile/
Disallow: /settings/
Disallow: /api/
Disallow: /login
Disallow: /register

Sitemap: https://votresite.com/sitemap.xml

Bloquer un robot spécifique

# Règles pour tous les robots
User-agent: *
Disallow: /private/

# Bloquer complètement un robot spécifique
User-agent: AhrefsBot
Disallow: /

# Bloquer un autre robot
User-agent: SemrushBot
Disallow: /

Erreurs courantes à éviter

Voici les erreurs les plus fréquentes qui peuvent gravement impacter votre robots txt SEO :

1. Bloquer accidentellement tout le site

# ERREUR FATALE - bloque tout le site !
User-agent: *
Disallow: /

Cette configuration empêche tous les robots d'explorer votre site. Vérifiez toujours votre robots.txt après une migration ou mise à jour.

2. Bloquer les fichiers CSS et JavaScript

Google a besoin d'accéder à vos fichiers CSS et JS pour comprendre comment votre page s'affiche. Ne les bloquez pas :

# À ÉVITER
Disallow: /css/
Disallow: /js/
Disallow: *.css$
Disallow: *.js$

3. Confondre blocage de crawl et désindexation

Le robots.txt ne désindexe pas vos pages. Une page bloquée peut toujours apparaître dans Google si elle a des backlinks. Pour désindexer, utilisez :

  • La balise <meta name="robots" content="noindex">
  • L'en-tête HTTP X-Robots-Tag: noindex

4. Oublier le slash final

# Bloque uniquement la page /admin
Disallow: /admin

# Bloque tout le répertoire /admin/
Disallow: /admin/

5. Placer le fichier au mauvais endroit

Le robots.txt doit être accessible à https://votresite.com/robots.txt. Il ne fonctionnera pas dans un sous-répertoire comme /public/robots.txt.

Attention : bloquer une page dans robots.txt empêche Google de voir une éventuelle balise noindex sur cette page. Résultat : la page peut rester indexée indéfiniment.

Tester et valider votre robots.txt

Avant de déployer votre robots.txt en production, testez-le toujours :

1. Google Search Console

L'outil officiel de Google pour tester votre robots.txt se trouve dans Search Console > Paramètres > robots.txt. Vous pouvez :

  • Voir la version actuelle de votre fichier
  • Tester si une URL spécifique est bloquée
  • Vérifier les erreurs de syntaxe

2. Outils tiers

Des outils comme Screaming Frog, Ahrefs ou SEMrush permettent également de tester votre robots.txt et d'identifier les pages bloquées.

3. Test manuel

Accédez directement à votresite.com/robots.txt dans votre navigateur pour vérifier que le fichier est bien accessible et contient les bonnes directives.

Optimisez votre indexation au-delà du robots.txt

Un robots.txt bien configuré optimise le crawl, mais pour accélérer réellement l'indexation de vos nouveaux contenus, RSS AutoIndex soumet automatiquement vos pages à Google.

Essayer gratuitement

Robots.txt et indexation : la différence cruciale

C'est la confusion la plus répandue en SEO technique : bloquer le crawl n'empêche pas l'indexation. Voici la différence :

Action Outil Effet
Bloquer le crawl robots.txt Google ne peut pas explorer la page, mais peut l'indexer via les liens
Empêcher l'indexation meta noindex La page est explorée mais non indexée
Supprimer de l'index noindex + crawl autorisé Google voit le noindex et retire la page de l'index

Le scénario problématique : vous bloquez une page dans robots.txt, mais elle a des backlinks. Google voit ces liens, connaît l'existence de la page, et peut l'afficher dans ses résultats avec un message "Aucune information disponible pour cette page".

Solution recommandée par Google

Pour bloquer Googlebot efficacement d'indexer une page :

  1. Gardez la page accessible (pas de blocage robots.txt)
  2. Ajoutez une balise <meta name="robots" content="noindex">
  3. Attendez que Google recrawle et désindexe la page
  4. Optionnellement, bloquez ensuite dans robots.txt

Bonnes pratiques 2026

Voici les recommandations actuelles pour un robots txt SEO optimisé :

1. Gardez votre robots.txt simple

Un fichier trop complexe augmente les risques d'erreurs. Bloquez uniquement ce qui est nécessaire.

2. Toujours inclure votre sitemap

Sitemap: https://votresite.com/sitemap.xml

Cela aide les moteurs de recherche à découvrir rapidement toutes vos pages importantes.

3. Ne bloquez pas les ressources de rendu

Laissez accès aux CSS, JavaScript et images pour que Google puisse comprendre votre mise en page (important pour le Mobile-First Indexing).

4. Surveillez régulièrement

Vérifiez votre robots.txt après chaque mise à jour majeure du site. Des plugins ou migrations peuvent le modifier sans prévenir.

5. Utilisez le robots.txt pour optimiser le budget crawl

Bloquez les sections sans valeur SEO (filtres, recherche interne, pages de connexion) pour que Google se concentre sur votre contenu important. En savoir plus sur l'optimisation du budget crawl.

6. Documentez vos choix

Ajoutez des commentaires dans votre robots.txt pour expliquer chaque blocage :

# Blocage des pages de filtres e-commerce
Disallow: /*?filter=

# Espace membre - contenu privé
Disallow: /membre/

Conclusion

Le fichier robots.txt est un outil fondamental pour contrôler comment les moteurs de recherche explorent votre site. Bien utilisé, il vous permet de :

  • Optimiser votre budget crawl en bloquant les sections inutiles
  • Protéger certaines zones de votre site du crawl (tout en sachant que ce n'est pas une mesure de sécurité)
  • Guider Googlebot vers votre contenu le plus important
  • Indiquer l'emplacement de votre sitemap

Cependant, n'oubliez jamais que le robots.txt ne contrôle pas l'indexation. Pour empêcher une page d'apparaître dans Google, utilisez la balise meta noindex.

Testez toujours votre robots.txt avant déploiement, surveillez-le régulièrement, et gardez-le aussi simple que possible. Un robots.txt bien configuré est une brique essentielle de votre stratégie SEO technique.

Accélérez l'indexation de votre contenu

Votre robots.txt est optimisé ? Passez à l'étape suivante : soumettez automatiquement vos nouveaux contenus à Google avec RSS AutoIndex.

Créer mon compte gratuit