Derniers événements

Plus de vidéos
Fil d'actualités / Robots.txt et bots IA : comment protéger votre contenu sans disparaître des moteurs génératifs

Publié le 25/03/2026 à 10:23:46 par Neper

Robots.txt et bots IA : comment protéger votre contenu sans disparaître des moteurs génératifs

Depuis février 2026, les trois principaux fournisseurs de LLM (OpenAI, Anthropic, Perplexity) proposent chacun des crawlers distincts pour l’entraînement de leurs modèles et pour leurs fonctionnalités de recherche. Cette séparation change la donne : il est désormais possible de refuser que votre contenu nourrisse les futurs modèles, tout en restant visible dans les réponses de ChatGPT Search, Claude Search ou Perplexity. Encore faut-il configurer son robots.txt en conséquence.

Le problème : selon une étude BuzzStream relayée par Search Engine Journal en janvier 2026, 71 % des grands sites d’actualité qui bloquent un bot d’entraînement bloquent aussi, par erreur ou par excès de prudence, un bot de recherche. Ils s’excluent donc des citations dans les moteurs génératifs sans le vouloir.

Cet article pose la logique, identifie les agents à connaître, et propose des configurations prêtes à l’emploi selon votre profil.

Entraînement, recherche, récupération : trois catégories, trois décisions

La clé de voûte de toute stratégie robots.txt face aux bots IA repose sur une distinction que tous les acteurs majeurs ont désormais formalisée. On distingue trois catégories fonctionnelles de crawlers.

  • Les bots d’entraînement (training bots) collectent du contenu pour constituer les jeux de données qui serviront aux prochains cycles d’entraînement des modèles. Les bloquer empêche votre contenu d’alimenter les futures versions du modèle, mais n’efface pas ce que le modèle a déjà appris. L’impact de cette décision est donc différé : selon les estimations de Scrunch.com, les données collectées aujourd’hui ne se retrouvent dans les réponses du modèle que 6 à 12 mois plus tard.
  • Les bots de recherche (search bots) alimentent les fonctionnalités de recherche en temps réel des LLM : ChatGPT Search, Claude Search, etc. Les bloquer, c’est disparaître des réponses générées dès maintenant. L’impact est immédiat et mesurable.
  • Les bots de récupération (retrieval bots) interviennent quand un utilisateur demande explicitement à l’IA d’accéder à une URL. Leur respect du robots.txt varie selon les acteurs, ce qui les rend plus difficiles à contrôler.

La recommandation de base pour la majorité des sites est simple : bloquer les bots d’entraînement, autoriser les bots de recherche et de récupération. Vous protégez votre propriété intellectuelle tout en maintenant votre visibilité dans l’écosystème GEO (Generative Engine Optimization, l’optimisation pour les moteurs de recherche génératifs).

Inventaire des agents par acteur

Voici les user agents déclarés par les principaux acteurs, classés selon la taxonomie entraînement / recherche / récupération.

OpenAI opère trois agents :

  • GPTBot : entraînement. C’est le crawler IA le plus actif du web selon les données Cloudflare de juillet 2025, avec une croissance de 305 % en volume de requêtes entre mai 2024 et mai 2025
  • OAI-SearchBot : recherche. Le bloquer exclut votre site des réponses de ChatGPT Search. OpenAI précise que GPTBot et OAI-SearchBot partagent des informations pour éviter le double crawling quand les deux sont autorisés
  • ChatGPT-User : récupération. Déclenché quand un utilisateur demande à ChatGPT d’accéder à une URL. OpenAI indique que cet agent ne suit pas nécessairement les directives robots.txt

Anthropic a formalisé son framework à trois bots le 20 février 2026 :

  • ClaudeBot : entraînement. Successeur des agents dépréciés Claude-Web et Anthropic-AI
  • Claude-SearchBot : recherche. Alimente Claude Search en contenu indexé
  • Claude-User : récupération. Contrairement à ChatGPT-User, Anthropic affirme que Claude-User respecte les directives robots.txt, y compris la directive non standard Crawl-delay

Perplexity opère deux agents :

  • PerplexityBot : indexation périodique
  • Perplexity-User : récupération en temps réel. La documentation officielle de Perplexity indique que cet agent peut ignorer le robots.txt quand un utilisateur fournit une URL spécifique

Autres agents à intégrer dans votre configuration :

  • Google-Extended...