Common Crawl : la métrique cachée qui pourrait influencer votre visibilité dans les IA

Pendant que les éditeurs se battent pour protéger leurs contenus, une question plus profonde demeure : Common Crawl, l'archive web qui alimente l'entraînement de la majorité des grands modèles de langage, utilise des métriques d'autorité pour prioriser ses crawls. Ces scores, appelés Harmonic Centrality et PageRank, pourraient-ils influencer la fréquence à laquelle les IA citent certaines sources ? Une analyse de 607 millions de domaines révèle des corrélations troublantes.

Ce qu'il faut retenir :

64% des modèles de langage analysés entre 2019 et 2023 ont été entraînés avec des données filtrées de Common Crawl, incluant plus de 80% des tokens de GPT-3.
Common Crawl utilise l'Harmonic Centrality pour prioriser quels domaines crawler et combien de pages capturer, créant une surreprésentation des sites à haute autorité dans les données d'entraînement.
Les domaines les plus cités par les IA (Wikipedia, Reddit, YouTube) figurent également parmi les mieux classés dans le WebGraph de Common Crawl, soulevant la question d'une influence indirecte.
Une enquête de The Atlantic révèle que Common Crawl a contourné les paywalls et ignoré les demandes de retrait de contenu depuis 2016, alimentant une controverse majeure sur les droits d'auteur.

La controverse Common Crawl explose en 2025

En novembre 2025, le journaliste Alex Reisner publie une enquête explosive pour The Atlantic qui met Common Crawl sous les projecteurs. Cette organisation à but non lucratif, fondée par un ancien employé de Google et sponsorisée par Amazon Web Services (AWS), archive l'intégralité du web accessible publiquement depuis des années.

L'investigation révèle que Common Crawl a fourni des millions d'articles protégés par paywall aux entreprises d'IA, contournant les protections techniques en ne chargeant pas le code JavaScript qui vérifie les abonnements. Plus troublant encore, malgré les demandes de retrait de publications majeures comme The New York Times (juillet 2023) et la Danish Rights Alliance (juillet 2024), aucun fichier d'archive n'a été modifié depuis 2016.

Le directeur exécutif de Common Crawl, Rich Skrenta, défend une position aussi radicale que surprenante : « Les robots sont des gens aussi » et « si vous ne vouliez pas que votre contenu soit sur Internet, vous n'auriez pas dû le publier ». Malgré ces déclarations, l'organisation a publié un démenti le jour même de l'enquête, affirmant ne jamais contourner de restrictions d'accès.

L'influence financière des géants de l'IA

Les liens financiers entre Common Crawl et l'industrie de l'IA soulèvent des questions d'indépendance. En 2023, OpenAI et Anthropic ont chacun versé 250 000 dollars à l'organisation. NVIDIA figure également comme collaborateur sur le site de Common Crawl.

Ces donations surviennent alors que Common Crawl héberge 9,5+ pétaoctets de données et est cité dans plus de 10 000 publications académiques. Le Washington Post a analysé le dataset C4 de Google (une version filtrée de Common Crawl) et découvert 15 millions de sites web, incluant des sources comme patents.google.com, nytimes.com (4e position), ainsi que des sites controversés comme RT.com et Breitbart.

L'Harmonic Centrality : le signal d'autorité méconnu

Au-delà de la controverse sur les droits d'auteur, une dimension technique reste largement ignorée. Common Crawl ne se contente pas d'archiver : il publie également des données WebGraph contenant des métriques d'autorité pour 607 millions de domaines.

Depuis 2017, Common Crawl utilise l'Harmonic Centrality pour déterminer quels domaines crawler en priorité. Cette métrique mesure en fait la « proximité » d'un domaine par rapport à tous les autres dans le graphe de liens du web. Plus le score est élevé, plus le domaine est crawlé fréquemment et plus de pages sont capturées.

L'ingénieur principal de Common Crawl explique que cette approche est privilégiée au PageRank de Google, car elle résiste mieux au spam. Le score d'Harmonic Centrality n'est pas seulement utilisé pour décider quels domaines crawler, mais aussi combien d'URLs inclure.

Les domaines dominants du WebGraph

Les 15 premiers domaines du WebGraph Common Crawl (octobre-décembre 2025) révèlent une domination des plateformes sociales et infrastructures Google :

Rang	Domaine	Rang... Les Cookies 🍪 En savoir plus En savoir plus Oui Non Acceptez-vous les cookies analytiques ? Oui Non Acceptez-vous les cookies de suivi ? Oui Non Acceptez-vous les publicités ciblées ? Oui Non Acceptez-vous les cookies des réseaux sociaux ? Afficher les détails Masquer les détails

Derniers événements

Derniers Articles