Tandis que des éditeurs cherchent à restreindre l’usage de leurs articles, une question fondamentale persiste : **Common Crawl**, l’archive massive qui alimente une grande partie des **données d’entraînement** des **modèles de langage**, applique des métriques d’autorité pour prioriser ses explorations. Des scores comme la **Harmonic Centrality** et le **PageRank** pourraient-ils biaiser la fréquence à laquelle les **IA** citent certaines sources ? Une analyse portant sur 607 millions de domaines met en lumière des corrélations préoccupantes.
Points clés à retenir :
- Entre 2019 et 2023, 64 % des **modèles de langage** étudiés indiquent un entraînement partiel ou total sur des contenus filtrés issus de **Common Crawl**, représentant notamment plus de 80 % des tokens employés pour GPT‑3.
- **Common Crawl** applique la **Harmonic Centrality** pour ordonner ses sessions de crawl et décider du nombre de pages à capturer, ce qui favorise une surreprésentation des sites à forte autorité dans les ensembles de données.
- Les sites les plus fréquemment repris par les systèmes d’IA — **Wikipedia**, **Reddit**, **YouTube** — se retrouvent également aux premiers rangs du **WebGraph** publié par **Common Crawl**, posant la question d’une influence indirecte sur les citations automatisées.
- Une enquête pour The Atlantic révèle que **Common Crawl** a, selon les allégations, contourné des paywalls et ignoré des demandes de retrait depuis plusieurs années, relançant le débat sur la propriété intellectuelle des contenus indexés.
La controverse autour de Common Crawl en 2025
En novembre 2025, une enquête publiée dans The Atlantic a placé **Common Crawl** sous les projecteurs. Cette organisation à but non lucratif, lancée par un ancien ingénieur de Google et soutenue techniquement par Amazon Web Services, collecte et diffuse des copies massives du web public depuis plusieurs années.
L’investigation avance que **Common Crawl** aurait fourni aux acteurs de l’industrie de l’IA des millions d’articles protégés derrière des paywalls, en ne rendant pas exécutable le code JavaScript chargé de vérifier les abonnements. D’autres révélations indiquent que, malgré des demandes de retrait formulées par des médias et des associations (par exemple The New York Times en juillet 2023, la Danish Rights Alliance en juillet 2024), les archives publiques de l’organisation n’auraient pas été modifiées depuis 2016.
Face à ces accusations, le directeur exécutif de **Common Crawl**, Rich Skrenta, a défendu une position tranchée en déclarant notamment que « les robots sont des personnes aussi » et que « si un contenu est publié sur le web, il est raisonnable qu’il puisse être archivé ». Le même jour, l’organisation a publié un communiqué démentant toute pratique consistant à contourner volontairement des protections d’accès.
Les liens financiers entre Common Crawl et l’industrie de l’IA
Les soutiens financiers et partenariats techniques soulignent des tensions sur l’indépendance de la ressource. En 2023, des acteurs majeurs comme OpenAI et Anthropic ont chacun fait des dons substantiels (250 000 dollars), et NVIDIA figure parmi les collaborateurs répertoriés sur le site de l’organisation.
À l’échelle des volumes, **Common Crawl** héberge plus de 9,5 pétaoctets d’informations et est fréquemment cité dans la littérature académique (plus de 10 000 publications). Le Washington Post, qui a étudié le jeu de données C4 (une version filtrée dérivée de **Common Crawl**) a constaté la présence de dizaines de millions de sites, incluant des sources institutionnelles telles que patents.google.com et nytimes.com, mais aussi des plateformes controversées.
La **Harmonic Centrality** : un indicateur d’autorité peu connu
Outre la polémique juridique, il existe une dimension algorithmique rarement exposée : **Common Crawl** ne se contente pas d’archiver des pages ; l’organisation publie aussi des représentations du graphe du web, le **WebGraph**, accompagnées de métriques d’autorité couvrant plus de 607 millions de domaines.
Depuis 2017, l’équipe d’archivage utilise la **Harmonic Centrality** pour choisir les domaines à prioriser lors des sessions de crawl. Cette métrique mesure la proximité moyenne d’un noeud (un domaine) à l’ensemble des autres noeuds d’un graphe de liens : plus la valeur est élevée, plus le domaine est considéré comme central et donc susceptible d’être exploré fréquemment et en profondeur.
Selon les ingénieurs de **Common Crawl**, la **Harmonic Centrality** est préférée au **PageRank** dans ce contexte car elle serait plus résistante au spam et à certaines manipulations. Dans leur configuration, le score n’est pas uniquement utilisé pour ordonner la file d’attente des domaines, mais aussi pour déterminer combien d’URLs internes d’un domaine doivent être capturées.
Qui domine le **WebGraph** de Common Crawl ?
Le classement des principaux domaines dans le **WebGraph** (période octobre-décembre 2025) met en évidence la prééminence des plateformes sociales et des services d’infrastructure fournis par Google :
| Rang | Domaine | Rang HC | PageRank |
|---|---|---|---|
| 1 | facebook.com | #1 | #3 |
| 2 | googleapis.com | #2 | #2 |
| 3 | google.com | #3 | #1 |
| 4 | instagram.com | #4 | #5 |
| 5 | googletagmanager.com | #5 | #4 |
| 6 | youtube.com | #6 | #8 |
| 7 | twitter.com | #7 | #10 |
| 8 | gstatic.com | #8 | #7 |
| 9 | linkedin.com | #9 | #12 |
| 10 | gmpg.org | #10 | #9 |
| 11 | cloudflare.com | #11 | #6 |
| 12 | gravatar.com | #12 | #14 |
| 13 | wordpress.org | #13 | #13 |
| 14 | wikipedia.org | #14 | #37 |
| 15 | apple.com | #15 | #19 |
Un constat intéressant : **Wikipedia** apparaît au 14e rang selon la **Harmonic Centrality**, mais loin derrière en **PageRank** (37e). Pourtant **Wikipedia** constitue une source majeure dans les sorties des **modèles de langage**, représentant une part significative des citations émises par des systèmes comme ChatGPT.
Tendances de citation observées dans les sorties d’IA
Plusieurs analyses publiques et indépendantes ont tenté de cartographier quelles sources sont reprises par les **IA** lorsqu’elles génèrent des réponses ou fournissent des références. Une étude menée par Semrush, portant sur plus de 150 000 citations, identifie **Reddit** comme la source la plus citée (40,1 %), suivie de **Wikipedia** (26,3 %) et de Google (23 %). Le fort poids de **Reddit** est en partie lié à des accords commerciaux et à la disponibilité de données structurées via des APIs.
Un autre acteur, Profound, a compilé 680 millions de citations entre août 2024 et juin 2025 et a constaté des variations importantes selon les plateformes : **Wikipedia** représente 7,8 % des citations pour ChatGPT tandis que **Reddit** domine sur Perplexity avec 6,6 %. Les extensions de domaine jouent aussi un rôle : les .com représentent environ 80 % des citations, alors que les .org comptent pour près de 11 %.
L’analyse de Search Atlas, couvrant plus de 5 millions de citations et plus de 900 000 domaines uniques, confirme la prédominance des sites commerciaux sur l’ensemble des plateformes, avec une sous-représentation des sources académiques et gouvernementales.
L’autorité Web traditionnelle n’explique pas tout
Un résultat marquant issu de travaux récents est la faiblesse — voire l’absence — de corrélation robuste entre les indicateurs classiques d’autorité SEO (Domain Rating, Domain Authority) et la visibilité effective dans les réponses fournies par les **modèles de langage**.
Par exemple, une étude de Search Atlas portant sur 21 767 domaines montre une corrélation négative modeste pour Perplexity (‑0,18) entre le Domain Power et la visibilité, tandis que Gemini affiche ‑0,09. Autrement dit, un site avec un score d’autorité élevé n’est pas automatiquement plus cité par les **IA**. À l’inverse, des sites de niveau intermédiaire peuvent maintenir une visibilité régulière selon la pertinence contextuelle.
Cette observation suggère que les **IA** privilégient la pertinence contextuelle, la diversité des sources et la qualité du contenu pour déterminer quelles références intégrer dans leurs réponses, plutôt que de se baser exclusivement sur la réputation construite par les backlinks.
Le volume de recherche de marque, un facteur prédictif
Contrairement aux métriques de liens, le volume de recherche de marque apparaît souvent comme le prédicteur le plus fiable de la probabilité d’être cité par une **IA**. Des analyses montrent une corrélation positive notable (≈0,334) entre la notoriété mesurée par les volumes de recherche et la fréquence des citations.
Par ailleurs, la présence multi‑plateforme influe fortement : un site présent sur quatre plateformes ou plus multiplie environ par 2,8 ses chances d’apparaître dans les réponses de ChatGPT. Des expérimentations SEO indiquent également que des optimisations ciblées peuvent accroître la visibilité en sorties d’IA de l’ordre de 30 à 40 % ; l’ajout de statistiques et de citations directes favorise la réutilisation des contenus par les systèmes automatiques.
Effets sur la longue traîne et les communautés marginalisées
Le rapport de la Mozilla Foundation (février 2024) met en garde : l’usage de la **Harmonic Centrality** pour prioriser les crawls tend à concentrer l’échantillonnage sur des domaines centraux, tandis que des millions de sites moins connectés — la **longue traîne** — sont capturés moins souvent, voire pas du tout.
Sur les 607 millions de domaines indexés, plus de 100 millions se trouvent dans cette longue traîne (rang supérieur à 1 million). La conséquence est double : d’une part, les points de vue et contenus produits par des communautés numériques marginalisées ont moins de chances d’entrer dans les **données d’entraînement** ; d’autre part, les modèles entraînés sur des jeux de données biaisés risquent de reproduire ces déséquilibres.
L’équipe de **Common Crawl** reconnaît que son corpus n’est pas exhaustif et que la mission d’archivage implique des arbitrages techniques et éthiques, notamment en conservant des contenus problématiques pour servir la recherche sur les discours haineux et autres phénomènes sociaux. Pourtant, ces mêmes données peuvent être indésirables si elles ne sont pas filtrées lors de l’entraînement de systèmes destinés au grand public.
Les données structurées comme levier d’optimisation
Le balisage sémantique et les formats structurés (par exemple **schema.org**) jouent un rôle important dans la manière dont les systèmes automatisés extraient et réutilisent l’information. Des expérimentations de terrain montrent qu’un site correctement balisé est nettement plus susceptible d’être identifié et cité par les **IA** et les surcouches d’indexation.
Par exemple, l’utilisation d’un schema FAQPage ou de tableaux HTML bien formatés améliore la récupération de réponses factuelles et augmente la probabilité d’apparition dans les synthèses générées par les moteurs d’IA. Des tests révèlent des taux de citation supérieurs de l’ordre de 20 à 50 % lorsqu’un contenu est structuré et annoté de manière appropriée.
De plus, des sources comme **Wikidata**, qui alimente le Knowledge Graph de Google avec des centaines de milliards de faits, facilitent la reconnaissance d’entités et la mise en correspondance via la propriété sameAs. L’intégration de données structurées permet donc d’accroître la reconnaissance, la fiabilité perçue et la réutilisation des contenus par des architectures basées sur des graphes de connaissances.
Une équation multifactorielle pour la sélection des citations
La sélection des sources par les **modèles de langage** résulte d’une combinaison complexe de facteurs. Parmi les variables avérées figurent :
- La pertinence contextuelle du contenu par rapport à la requête ;
- La fraîcheur et la récence de l’information (les sources citées peuvent varier fortement d’un mois à l’autre) ;
- Le formatage et la structuration des pages (données structurées, balises sémantiques) ;
- La capacité des systèmes à récupérer des données en temps réel ou via des index mis à jour ;
- Les préférences propres à chaque plateforme (un même contenu peut être privilégié sur ChatGPT mais pas sur Perplexity).
Parmi les facteurs hypothétiques ou contributifs : l’existence historique d’une source dans les jeux de données d’entraînement, des associations d’autorité héritées du **WebGraph**, et des signaux indirects liés à la centralité du domaine (par exemple via la **Harmonic Centrality** ou d’autres mesures de graphe).
Conséquences pratiques pour les responsables de contenu et le référencement
Pour les professionnels du contenu et du référencement, ces constats impliquent d’élargir la stratégie au‑delà des métriques classiques :
- Ne pas négliger l’autorité : même si l’autorité de domaine n’est pas le seul déterminant, elle reste un élément de l’équation. Maintenir une bonne réputation et des signaux de confiance est utile, notamment pour la découverte et l’indexation à grande échelle.
<li><strong>Mesurer plusieurs axes</strong> : intégrer des indicateurs comme le volume de recherche de marque, la présence multi‑plateforme et des métriques propres aux jeux de données publics (par ex. CC Rank) comme points de comparaison et non comme une vérité absolue.</li>
<li><strong>Prioriser la structuration</strong> : adopter **schema.org**, structurer les FAQ, les tableaux comparatifs et les attributs sémantiques afin d'améliorer la lisibilité machine et la réutilisation par des pipelines d'extraction d'information.</li>
<li><strong>Favoriser la diversité contextuelle</strong> : travailler les connexions thématiques et contextuelles plutôt que de viser uniquement une hausse de Domain Rating. Les relations éditoriales pertinentes (citations contextuelles, co‑occurrence d'entités) semblent favoriser la visibilité dans les synthèses IA.</li>
En synthèse, une approche multi‑canaux et techniquement orientée vers la structuration des contenus augmente probabilistiquement les chances d’apparaître dans les sorties d’IA, sans garantir toutefois une place fixe compte tenu de la volatilité des sources citées.
La problématique persistante de la longue traîne
Les sites se situant dans la **longue traîne** de **Common Crawl** (rang supérieur à 1 million) doivent évaluer si cet éloignement corrèle avec une moindre probabilité d’être cité. Selon les observateurs, la mission d’archivage axée sur la centralité n’est pas nécessairement compatible avec l’objectif d’entraîner des systèmes d’IA équitables et représentatifs.
Dans la pratique, cela se traduit par une nécessité pour les acteurs concernés (éditeurs, chercheurs, plateformes) d’envisager des mécanismes complémentaires de mise à disposition de données : curations manuelles, jeux de données labellisés, ou partenariats visant à intégrer volontairement des voix sous‑représentées afin d’atténuer les biais.
Vers davantage de transparence et de gouvernance
Des organismes comme **Mozilla** recommandent que **Common Crawl** précise davantage les limites et les biais de ses archives et qu’une gouvernance plus transparente soit mise en place. Parmi les propositions figurent :
- Une documentation claire sur les critères de sélection et de priorisation (notamment l’usage de la **Harmonic Centrality**) ;
- Des méthodes publiques et reproductibles pour indiquer la présence ou l’absence d’éléments protégés par paywall ;
- Des cadres favorisant la traçabilité de l’usage des datasets par les constructeurs d’IA, afin de savoir dans quelle mesure des copies d’archives ont contribué à l’entraînement.
À plus long terme, Mozilla et d’autres acteurs plaident pour un moindre recours à des compilations massives « à l’aveugle » et pour la promotion de jeux de données construits, nettoyés et étiquetés par des équipes humaines, avec un contrôle éthique et une rémunération équitable des créateurs originaux.
Limites des analyses actuelles et besoins de recherche
Plusieurs éléments restent peu documentés et nécessitent des études empiriques rigoureuses :
- L’ampleur réelle de l’impact de la **Harmonic Centrality** sur le contenu présent dans les jeux de données accessibles aux acteurs commerciaux ;
- La corrélation entre présence historique dans **Common Crawl** et probabilité d’être cité par des modèles contemporains ;
- Les effets combinés des optimisations techniques (schema, FAQs, structure) et des facteurs commerciaux (accords d’accès, licences) ;
- Les mesures d’atténuation des biais et de promotion de l’inclusion des contenus minoritaires dans les pipelines d’entraînement.
Des outils publics comme le CC Rank Checker rendent certaines métriques plus accessibles, mais ils ne remplacent pas la nécessité d’une transparence accrue de la part des entreprises d’IA sur la composition exacte de leurs datasets et sur les traitements appliqués aux données issues d’archives publiques.
Conclusion : un écosystème à rééquilibrer
La relation entre les métriques d’autorité publiées par **Common Crawl** et la fréquence de citation par les **modèles de langage** est complexe et multifactorielle. Si la centralité du graphe favorise la capture récurrente de certains domaines, d’autres variables — notoriété de marque, structuration des données, pertinence contextuelle — exercent une influence substantielle sur les sorties d’IA.
Pour les créateurs de contenu et les organisations, la stratégie la plus robuste consiste à combiner :
- Une attention soutenue à la qualité éditoriale et à la fraîcheur des informations ;
- Une adoption systématique des bonnes pratiques de structuration (par exemple **schema.org**) ;
- Une diversification des canaux de distribution et une visibilité renforcée sur plusieurs plateformes ;
- Une vigilance sur les enjeux légaux et éthiques liés à l’indexation et à la réutilisation des contenus.
Enfin, le débat autour de la gouvernance des corpus publics et de la responsabilisation des entreprises utilisant ces ressources demeure central. La mise en place d’un cadre transparent et contrôlable — tant pour la composition des jeux de données que pour le consentement des titulaires de droits — est un préalable pour garantir des usages de l’IA respectueux des créateurs et de la diversité informationnelle.
La dynamique entre centralité du graphe, comportements d’indexation et mécanismes de sélection des citations par les **modèles de langage** appelle donc une recherche continue, fondée sur des données ouvertes, des audits indépendants et une gouvernance collaborative.
Articles connexes
- Mises à jour groupées sur WordPress : 3 méthodes à connaître
- la nouvelle organisation du référencement à l’époque de l’IA
- comment établir l’ordre de priorité des corrections de référencement technique ?
- Pinterest : quelles requêtes seront en vogue à l’automne 2025 ?
- Comment booster la visibilité locale de votre entreprise grâce à Google Business Profile ?
- une faille dans l’extension contact form entries de WordPress touche 70 000 sites web
- Sitemaps et intelligence artificielle : Assurer la visibilité de votre contenu sur Bing
- Google déploie une nouvelle Spam Update en août 2025
