Google teste un nouveau protocole pour distinguer les bons bots des imposteurs

Les propriétaires de sites web peinent depuis des années à identifier avec certitude les robots qui les crawlent. Google expérimente une nouvelle approche fondée sur la cryptographie, appelée Web Bot Auth, qui pourrait changer durablement la façon dont les bots prouvent leur identité en ligne.

Ce qu'il faut retenir :

Web Bot Auth est un protocole cryptographique expérimental qui permet aux sites de vérifier qu'un bot est bien ce qu'il prétend être, au-delà du simple user-agent.
Il repose sur des signatures numériques que les faux bots ne peuvent pas reproduire, contrairement aux noms ou chaînes user-agent qui sont facilement usurpables.
Le protocole est encore partiel : Google ne signe pas encore toutes les requêtes, et les méthodes classiques (IP, reverse DNS, user-agent) restent indispensables en parallèle.
Des CDN, WAF et services de détection de bots majeurs commencent déjà à le prendre en charge.

Le problème que Web Bot Auth cherche à résoudre

Aujourd'hui, n'importe quel bot malveillant peut se faire passer pour Googlebot ou tout autre crawler légitime. Il suffit de copier le bon user-agent. Les propriétaires de sites n'ont alors que peu de moyens fiables pour faire la différence entre un robot de confiance et un imposteur.

Les méthodes actuelles reposent essentiellement sur trois signaux : le user-agent (une simple chaîne de texte déclarative), l'adresse IP et la vérification DNS inverse. Ces approches ont leurs limites. Elles peuvent être contournées, elles demandent des configurations manuelles entre chaque site et chaque service, et elles deviennent de plus en plus difficiles à maintenir à l'échelle.

C'est précisément ce problème que Google cherche à adresser avec Web Bot Auth.

Ce qu'est concrètement Web Bot Auth

Web Bot Auth, dont le nom technique complet est HTTP Message Signatures Directory, est un protocole proposé dans le cadre de l'IETF (Internet Engineering Task Force). Son objectif est d'automatiser la relation de confiance entre les sites web et les services automatisés qui les contactent.

Le principe est simple à comprendre : plutôt que de se contenter de déclarer son identité via un user-agent, un bot utilisant Web Bot Auth doit prouver cryptographiquement qu'il est bien ce qu'il prétend être. Un robot malveillant qui copie le nom d'un crawler légitime ne pourra pas reproduire cette preuve.

Concrètement, le protocole fonctionne en trois étapes.

Des fichiers de clés standardisés. Les clés publiques sont stockées dans un format universel, le JSON Web Key Set (JWKS), lisible par n'importe quel serveur.
Des adresses connues à l'avance. Ces clés sont hébergées à un emplacement prévisible sur le domaine du service, dans le répertoire /.well-known/, ce qui évite toute négociation préalable entre le site et le bot.
Des requêtes auto-identifiantes. Chaque requête HTTP envoyée par un bot participant inclut un nouvel en-tête, Signature-Agent, qui joue le rôle de carte de visite numérique et pointe directement vers le répertoire de clés du service concerné.

Pour l'agent de Google, ce répertoire est accessible à l'adresse https://agent.bot.goog/.well-known/http-message-signatures-directory.

Pourquoi la cryptographie change les choses

La vraie nouveauté de Web Bot Auth est de remplacer une identité déclarative par une identité vérifiable. Aujourd'hui, la reconnaissance d'un bot repose sur ce qu'il dit de lui-même. Demain, avec ce protocole généralisé, elle pourra reposer sur ce qu'il peut démontrer.

Un bot usurpateur peut copier un nom, un user-agent ou même une adresse IP. Il ne peut pas reproduire la signature cryptographique associée aux clés privées d'un service légitime. C'est cette asymétrie qui rend le protocole potentiellement bien plus robuste que les mécanismes actuels.

Le protocole n'est toutefois pas un système de liste blanche ou noire automatique. Il ne décide pas à lui seul si un bot doit être autorisé ou bloqué. Il fournit un signal fiable sur lequel les administrateurs peuvent s'appuyer pour prendre cette décision.

Les bénéfices au-delà de la sécurité

Web Bot Auth ne se limite pas à bloquer les mauvais acteurs. Il apporte aussi une meilleure observabilité : les propriétaires de sites peuvent obtenir une vision plus claire de la façon dont les agents automatisés interagissent avec leur contenu.

Il simplifie...

Derniers événements

Derniers Articles