Google clarifie les limites d’exploration de Googlebot : 2 Mo par fichier

Google a récemment mis à jour sa documentation technique afin de clarifier les limites de fichiers explorés par Googlebot. La limite est désormais fixée à 2 Mo pour chaque type de fichier supporté par Google Search (HTML, CSS, JavaScript, etc.), contre 15 Mo mentionnés auparavant dans l'ancienne documentation. Les fichiers PDF bénéficient quant à eux d'une limite maintenue à 64 Mo.

Toutefois, comme l'ont souligné plusieurs experts SEO anglo-saxons, il ne s'agit pas d'un changement brutal de politique, mais plutôt d'une clarification documentaire qui distingue désormais les limites des différents crawlers Google. La limite de 15 Mo reste la limite par défaut pour l'infrastructure générale de crawl de Google, tandis que Googlebot applique une limite plus stricte de 2 Mo lors de l'exploration pour l'indexation dans Google Search.

Une clarification documentaire, pas un nouveau changement

Selon Search Engine Journal, cette mise à jour fait partie d'une réorganisation plus large de la documentation de Google amorcée fin 2025. Barry Schwartz de Search Engine Roundtable précise que ces limites pourraient avoir existé depuis longtemps, mais qu'elles sont maintenant officiellement documentées de manière plus claire.

John Mueller, chez Google, a confirmé sur Reddit que « 2 Mo d'HTML, c'est déjà beaucoup » et qu'il est extrêmement rare que des sites rencontrent des problèmes avec cette limite. Selon les données HTTP Archive citées par Mueller, environ 90 % des pages web ont moins de 151 KB de HTML.

Ce qui change concrètement

Cette limite de 2 Mo s'applique à chaque fichier exploré individuellement (et non pas à la page dans son ensemble), notamment :

Les fichiers HTML
Les feuilles de style CSS
Les scripts JavaScript
Les autres formats supportés par Google Search

Les fichiers PDF bénéficient d'une exception avec une limite maintenue à 64 Mo. Important à noter : cette restriction concerne les données non compressées, et chaque ressource référencée dans le HTML (CSS, JS) est récupérée séparément avec sa propre limite de 2 Mo.

Lorsque Googlebot atteint cette limite de 2 Mo, il interrompt le téléchargement et n'indexe que la partie déjà récupérée du fichier. Le reste du contenu est tout simplement ignoré.

Selon la documentation officielle de Google :

« Lors de l'exploration pour la recherche Google, Googlebot explore les 2 premiers Mo d'un type de fichier compatible et les 64 premiers Mo d'un fichier PDF. Du point de vue du rendu, chaque ressource référencée dans le code HTML (CSS ou JavaScript, par exemple) est récupérée séparément, et chaque récupération de ressource est soumise à la même limite de taille de fichier que celle qui s'applique aux autres fichiers (à l'exception des fichiers PDF). Une fois la limite atteinte, Googlebot interrompt la récupération et n'envoie que la partie déjà téléchargée du fichier pour l'indexation. »

Impact réel : la majorité des sites ne sont pas concernés

Dans la pratique, est-ce si grave ? Non, pour l'écrasante majorité des sites web. Selon HTTP Archive Web Almanac, le poids médian d'un fichier HTML est d'environ 33 KB selon les données citées par John Mueller, soit environ 60 fois moins que la limite des 2 Mo. De plus, 90 % des pages web ont moins de 151 KB de HTML.

Pour mettre les choses en perspective : 2 Mo de texte brut équivaut à environ 2 millions de caractères, soit l'équivalent de plusieurs centaines de pages d'un roman standard. Il faut vraiment faire des efforts pour créer une page aussi volumineuse.

Quels sites sont concernés ?

Certains sites utilisant des frameworks CSS ou JavaScript un peu trop lourds peuvent toutefois être impactés. Les sites les plus susceptibles de dépasser les 2 Mo sont ceux qui :

Intègrent massivement du JavaScript directement dans le HTML (plutôt que via des fichiers externes)
Utilisent des bibliothèques...

Derniers événements

Derniers Articles