Crawlers Google : Fonctionnement interne de Googlebot et changement d’emplacement des plages IP

Sur Google Search Central, Gary Illyes nous en dit plus sur fonctionnement interne de Googlebot et annonce un changement d'emplacement pour ses fichiers de plages IP. Des informations concrètes qui peuvent directement impacter la façon dont votre site est crawlé et indexé.

Ce qu'il faut retenir :

Googlebot n'est pas un robot unique : il s'appuie sur une infrastructure centralisée partagée par des dizaines de services Google (Shopping, AdSense, etc.).
Googlebot ne télécharge que les 2 premiers Mo d'une page HTML (hors PDF) : tout ce qui dépasse ce seuil est ignoré, pas fetché, pas rendu, pas indexé.
Les fichiers de plages IP des crawlers Google changent d'emplacement : il faut migrer vers /crawling/ipranges/ dans les 6 prochains mois.
L'ordre des éléments dans votre HTML a une importance réelle : les balises critiques doivent apparaître le plus haut possible dans le code.

Googlebot n'a jamais été un seul robot

C'est l'un des mythes les plus tenaces du SEO. Dans les années 2000, Google ne disposait que d'un produit et donc d'un seul crawler, et le nom « Googlebot » est resté. Mais aujourd'hui, Googlebot désigne en réalité un client parmi d'autres au sein d'une infrastructure de crawl centralisée.

Quand vous voyez « Googlebot » dans vos logs serveur, vous observez uniquement le trafic de Google Search. Des dizaines d'autres services, comme Google Shopping ou AdSense, utilisent cette même infrastructure sous des noms de crawlers distincts. La liste des principaux crawlers est documentée sur le site Google Crawling infrastructure.

La limite des 2 Mo : comprendre ce que Google télécharge réellement

Déjà évoqué par Google il y a quelques semaines, c'est le point le plus technique, et probablement le plus important pour les webmasters. Googlebot ne télécharge que les 2 premiers Mo de chaque URL HTML, en-têtes HTTP compris. Pour les PDF, la limite est fixée à 64 Mo. Pour les crawlers qui ne spécifient pas de limite, la valeur par défaut est de 15 Mo.

Ce qui se passe concrètement :

Le fetch s'arrête net à 2 Mo. Googlebot ne rejette pas la page, il coupe simplement le téléchargement au seuil exact de 2 Mo. La portion récupérée est ensuite transmise aux systèmes d'indexation et au Web Rendering Service (WRS) comme s'il s'agissait du fichier complet.
Tout ce qui dépasse est invisible. Les octets situés au-delà de ce seuil ne sont pas fetchés, pas rendus, pas indexés. Pour Googlebot, ils n'existent tout simplement pas.
Les ressources liées sont fetchées séparément. Chaque ressource référencée dans le HTML (hors médias, polices et quelques fichiers exotiques) est téléchargée par le WRS avec son propre compteur d'octets, indépendamment de la page parente.

Pour la grande majorité des sites, 2 Mo de HTML représente un volume considérable. Mais certaines pratiques peuvent poser problème : des images en base64 intégrées directement dans le HTML, de larges blocs de CSS ou JavaScript inline, ou des menus volumineux placés en début de code. Si ces éléments repoussent votre contenu textuel ou vos données structurées au-delà du seuil, Googlebot ne les verra jamais.

Le rendu : ce que fait le Web Rendering Service avec ces octets

Une fois les octets récupérés, le WRS prend le relais. Il exécute le JavaScript et le CSS côté client, à la manière d'un navigateur moderne, pour comprendre l'état final de la page. Il traite également les requêtes XHR pour mieux cerner le contenu textuel et la structure de la page, mais ne charge pas les images ni les vidéos.

Deux points importants à garder en tête : le WRS ne peut exécuter que le code effectivement téléchargé par le fetcher, et il fonctionne sans état. Il efface les données de stockage local et de session entre chaque requête, ce qui peut avoir des conséquences sur l'interprétation des éléments dynamiques dépendants de JavaScript.

Bonnes pratiques pour optimiser le crawl de vos pages

Google formule plusieurs recommandations directement actionnables :

Gardez votre HTML allégé. Externalisez...

Derniers événements

Derniers Articles