Derniers Articles
Google déploie la fonctionnalité « sources préférées » dans toutes les langues Google Search en hausse de 19 % au premier trimestre 2026 : l’IA booste les requêtes à un niveau record Entités et Knowledge Graph : comment construire une présence documentée Google Search et IA : ce que Liz Reid révèle de la transformation en cours Optimiser un site pour les agents IA : les angles morts du GEO Danny Sullivan : le contenu interchangeable est mort, vive le contenu non-réplicable Google déplace les IP de ses crawlers et oublie de prévenir les équipes infra GEO Summit 2026 : le premier événement SEO/GEO belge, le 11 juin à Louvain-la-Neuve ! Comment “ranker” dans ChatGPT et les LLMs : retour d’expérience terrain Goossips SEO : Complexité et Guru du SEOLire l'article complet : Crawlers Google : Fonctionnement interne de Googlebot et changement d’emplacement des plages IP
Publié le 01/04/2026 à 07:54:21 par Abondance
Crawlers Google : Fonctionnement interne de Googlebot et changement d’emplacement des plages IP
Sur Google Search Central, Gary Illyes nous en dit plus sur fonctionnement interne de Googlebot et annonce un changement d'emplacement pour ses fichiers de plages IP. Des informations concrètes qui peuvent directement impacter la façon dont votre site est crawlé et indexé.
Ce qu'il faut retenir :
- Googlebot n'est pas un robot unique : il s'appuie sur une infrastructure centralisée partagée par des dizaines de services Google (Shopping, AdSense, etc.).
- Googlebot ne télécharge que les 2 premiers Mo d'une page HTML (hors PDF) : tout ce qui dépasse ce seuil est ignoré, pas fetché, pas rendu, pas indexé.
- Les fichiers de plages IP des crawlers Google changent d'emplacement : il faut migrer vers /crawling/ipranges/ dans les 6 prochains mois.
- L'ordre des éléments dans votre HTML a une importance réelle : les balises critiques doivent apparaître le plus haut possible dans le code.
Googlebot n'a jamais été un seul robot
C'est l'un des mythes les plus tenaces du SEO. Dans les années 2000, Google ne disposait que d'un produit et donc d'un seul crawler, et le nom « Googlebot » est resté. Mais aujourd'hui, Googlebot désigne en réalité un client parmi d'autres au sein d'une infrastructure de crawl centralisée.
Quand vous voyez « Googlebot » dans vos logs serveur, vous observez uniquement le trafic de Google Search. Des dizaines d'autres services, comme Google Shopping ou AdSense, utilisent cette même infrastructure sous des noms de crawlers distincts. La liste des principaux crawlers est documentée sur le site Google Crawling infrastructure.
La limite des 2 Mo : comprendre ce que Google télécharge réellement
Déjà évoqué par Google il y a quelques semaines, c'est le point le plus technique, et probablement le plus important pour les webmasters. Googlebot ne télécharge que les 2 premiers Mo de chaque URL HTML, en-têtes HTTP compris. Pour les PDF, la limite est fixée à 64 Mo. Pour les crawlers qui ne spécifient pas de limite, la valeur par défaut est de 15 Mo.
Ce qui se passe concrètement :
- Le fetch s'arrête net à 2 Mo. Googlebot ne rejette pas la page, il coupe simplement le téléchargement au seuil exact de 2 Mo. La portion récupérée est ensuite transmise aux systèmes d'indexation et au Web Rendering Service (WRS) comme s'il s'agissait du fichier complet.
- Tout ce qui dépasse est invisible. Les octets situés au-delà de ce seuil ne sont pas fetchés, pas rendus, pas indexés. Pour Googlebot, ils n'existent tout simplement pas.
- Les ressources liées sont fetchées séparément. Chaque ressource référencée dans le HTML (hors médias, polices et quelques fichiers exotiques) est téléchargée par le WRS avec son propre compteur d'octets, indépendamment de la page parente.
Pour la grande majorité des sites, 2 Mo de HTML représente un volume considérable. Mais certaines pratiques peuvent poser problème : des images en base64 intégrées directement dans le HTML, de larges blocs de CSS ou JavaScript inline, ou des menus volumineux placés en début de code. Si ces éléments repoussent votre contenu textuel ou vos données structurées au-delà du seuil, Googlebot ne les verra jamais.
Le rendu : ce que fait le Web Rendering Service avec ces octets
Une fois les octets récupérés, le WRS prend le relais. Il exécute le JavaScript et le CSS côté client, à la manière d'un navigateur moderne, pour comprendre l'état final de la page. Il traite également les requêtes XHR pour mieux cerner le contenu textuel et la structure de la page, mais ne charge pas les images ni les vidéos.
Deux points importants à garder en tête : le WRS ne peut exécuter que le code effectivement téléchargé par le fetcher, et il fonctionne sans état. Il efface les données de stockage local et de session entre chaque requête, ce qui peut avoir des conséquences sur l'interprétation des éléments dynamiques dépendants de JavaScript.
Bonnes pratiques pour optimiser le crawl de vos pages
Google formule plusieurs recommandations directement actionnables :
- Gardez votre HTML allégé. Externalisez...