robots.txt
Le fichier robots.txt est un fichier texte placé à la racine d'un site web qui indique aux robots d'exploration (Googlebot, Bingbot) quelles pages ils peuvent ou ne peuvent pas explorer. Il ne bloque pas l'indexation — il contrôle le crawl.
robots.txt : définition complète
Syntaxe : User-agent: * (tous les bots), Disallow: /admin/ (bloquer une section), Allow: / (autoriser tout), Sitemap: https://site.fr/sitemap.xml. En 2026, pensez aussi aux crawlers IA : User-agent: GPTBot, User-agent: ClaudeBot.
Attention : Disallow empêche le crawl mais pas l'indexation. Si une page bloquée par robots.txt a des backlinks, Google peut l'indexer quand même (sans voir son contenu).
Exemple concret
Notre robots.txt autorise Googlebot, GPTBot, ClaudeBot, PerplexityBot sur tout le site, bloque /admin/, et référence le sitemap.
Concepts associés
Crawl
Le crawl est le processus par lequel les robots de Google (Googlebot) parcourent les pages d'un site web en suivant les liens.
SEOSitemap XML
Un sitemap XML est un fichier qui liste toutes les URLs d'un site web pour faciliter le crawl par Google.
SEOIndexation
L'indexation est le processus par lequel Google ajoute une page web à sa base de données (index).
SEOSEO
Le SEO (Search Engine Optimization) désigne l'ensemble des techniques d'optimisation d'un site web pour améliorer sa visibilité dans les résultats organiques des moteurs de recherche comme Google.
AEOllms.txt
Le fichier llms.
Besoin d’aide pour votre stratégie digitale ?
Audit offert. Recommandations en 48h. Zéro engagement.