Ben DAVAKAN

Vous êtes au bon endroit pour concrétiser vos ambitions sur le web. Parlons-en dès maintenant.

budget d’ancrage : comment Google restreint la taille des contenus pour l’IA Search

budget d’ancrage : comment Google restreint la taille des contenus pour l’IA Search

budget d’ancrage : comment Google restreint la taille des contenus pour l’IA Search

budget d’ancrage : comment Google restreint la taille des contenus pour l’IA Search

Sommaire

Google ne parcourt pas intégralement vos pages pour construire les réponses générées par son IA, même si celles-ci atteignent 3 000 mots ou plus. Les recherches menées par Dan Petrovic mettent en évidence l’existence d’un budget de grounding d’environ 2 000 mots par requête, réparti entre seulement quelques sources, avec un avantage clair pour les pages les mieux classées. Pour la **stratégie de contenu**, cela signifie que la **densité d’information** prime sur la simple **longueur**.

Points clés à retenir :

  • Google semble allouer un budget de grounding d’environ 2 000 mots par requête, partagé entre 3 à 5 sources principales.
  • La position dans les résultats (le rang) détermine la part du budget : la source classée #1 reçoit environ deux fois plus de texte que la #5.
  • Au niveau d’une page unique, la quantité de texte réellement utilisée plafonne autour de ~540 mots ; au-delà de 1 500–2 000 mots, les bénéfices supplémentaires deviennent négligeables.
  • Des pages courtes et focalisées obtiennent une meilleure couverture que des articles très longs : la **densité d’information** est plus efficace que la longueur brute.

Origine des données et méthode

L’analyse effectuée vise à comprendre comment Google alimente ses modèles génératifs (notamment Gemini) avec du texte tiré du web. Pour cela, Dan Petrovic a examiné un large ensemble de requêtes réelles afin d’observer exactement quels segments de texte (« chunks ») sont fournis au modèle en tant que contexte, avant la génération des réponses.

Le corpus étudié comprend 7 060 requêtes disposant d’au moins trois sources référencées, et plus de 2 275 pages tokenisées pour permettre une comparaison précise entre le texte complet et les extraits effectivement envoyés au modèle. Au total, l’échantillon rassemble 883 262 extraits (snippets), avec une taille moyenne d’environ 15,5 mots par chunk. Plutôt que d’essayer de reconstituer ou d’estimer ce qui a été utilisé, l’approche est strictement extractive : les segments observés sont les mêmes que ceux fournis au moteur avant génération, ce qui permet une corrélation directe entre extrait et source.

Nombre de chunks par extrait / nombre d’extraits – Source : Dan Petrovic

La granularité de ce jeu de données permet d’observer non seulement combien de texte est transmis au modèle, mais aussi comment ce volume est distribué entre les différentes sources présentées dans les résultats. Ces observations offrent une base quantitative pour comprendre les pratiques d’extraction de contexte par Google et leurs implications pour le référencement orienté IA.

Un budget de grounding d’environ 2 000 mots par requête

Le constat majeur est que chaque requête semble disposer d’un plafond global de texte envoyé au modèle : la médiane se situe proche de 1 929 mots. Plus précisément, les percentiles observés sont p25 = 1 546, médiane = 1 929, p75 = 2 325 et p95 = 2 798. Autrement dit, la plupart des requêtes reçoivent un volume total de grounding autour de 2 000 mots.

Ce plafond est étonnamment constant : augmenter le nombre de sources listées dans les résultats ne multiplie pas le volume total de texte transmis au modèle, mais entraine plutôt une redistribution de ce même budget entre un plus grand nombre de documents. En pratique cela signifie que le système a une « capacité » limitée de contexte issu du web qu’il peut intégrer pour une seule génération.

Une autre observation clé est que la variable la plus déterminante pour la part de texte allouée n’est pas la longueur intrinsèque du contenu source, mais la position de cette source dans les SERP. La répartition médiane observée par position est la suivante :

  • Rang #1 : ~531 mots (~28 % du budget total)
  • Rang #2 : ~433 mots (~23 %)
  • Rang #3 : ~378 mots (~20 %)
  • Rang #4 : ~330 mots (~17 %)
  • Rang #5 : ~266 mots (~13 %)
Nombre de mots pris en contexte, selon le rang de la source – Source : Dan Petrovic

En pratique, être classé en première position confère environ deux fois plus de texte utilisé pour le grounding qu’une page située en cinquième position. Le message est simple : vous ne pouvez pas « grossir » le gâteau en écrivant davantage ; vous pouvez seulement obtenir une plus grande part du gâteau en améliorant votre positionnement.

Volumes réellement extraits sur chaque page

L’étude fournit aussi des statistiques au niveau de la page individuelle, montrant combien de mots et de caractères sont effectivement sélectionnés pour constituer le contexte envoyé à l’IA. Les principaux percentiles observés sont :

  • Médiane : 377 mots / 2 427 caractères
  • p75 : 491 mots / 3 182 caractères
  • p90 : 605 mots / 3 863 caractères
  • p95 : 648 mots / 4 202 caractères
  • Max : 1 769 mots / 11 541 caractères

Concrètement, pour la majorité des pages (environ 77 %), le système sélectionne entre 200 et 600 mots. La « page typique » voit donc seulement ~377 mots utilisés dans le contexte de l’IA. On observe un palier aux alentours de 540 mots (ou ~3 500 caractères) : au-delà, ajouter du contenu n’augmente que marginalement la quantité absolue de texte exploitée.

Taux de couverture selon la longueur des pages : pourquoi les contenus très longs perdent en efficacité

Un des résultats les plus parlants est la diminution progressive du taux de couverture — c’est-à-dire la proportion de la page réellement utilisée — lorsque la longueur de la page augmente. Autrement dit, plus votre page est longue, moins la part relative de son contenu sera prise en compte par l’IA.

Mesures par nombre de mots :

  • < 1 000 mots : ~370 mots pris en moyenne, soit ~61 % de couverture
  • 1 000–2 000 mots : ~492 mots, ~35 % de couverture
  • 2 000–3 000 mots : ~532 mots, ~22 % de couverture
  • 3 000+ mots : ~544 mots, ~13 % de couverture

Mesures par nombre de caractères :

  • < 5 000 caractères : ~2 127 caractères pris, ~66 % de couverture
  • 5 000–10 000 caractères : ~3 024 caractères pris, ~42 %
  • 10 000–20 000 caractères : ~3 363 caractères pris, ~25 %
  • 20 000+ caractères : ~3 574 caractères pris, ~12 %

Ces chiffres montrent clairement un plafonnement du volume de texte exploité, autour de ~540 mots ou ~3 500 caractères, tandis que la longueur des pages peut continuer à augmenter largement au-delà. L’effet observé est un rendement décroissant : chaque ajout substantiel au contenu augmente la taille absolue de la page mais réduit la part relative de texte visible par l’IA, sans accroître de façon significative la quantité absolue de données utilisées.

Limites méthodologiques et réponses de Dan Petrovic

La méthodologie de l’étude a suscité des critiques, notamment sur LinkedIn, de la part de praticiens tels que Rohit Singh. Les objections les plus souvent citées portent sur :

  • Le non-partage du dataset, ce qui empêche une vérification indépendante.
  • Le choix et la représentativité des 7 060 requêtes retenues.
  • La méthode employée pour faire correspondre précisément les extraits de grounding au texte source.
  • L’absence de contrôles systématiques des variables confondantes (autorité, fraîcheur, structure du contenu, etc.) et d’analyses statistiques plus approfondies (intervalles de confiance, tests de significativité).

En réponse, Dan Petrovic a expliqué plusieurs points :

  • Les requêtes proviennent de jeux de données clients répartis dans divers secteurs (santé, voyage, finance, marketing, sport, B2B, marketplaces, jeux en ligne, etc.), étendues via de nombreux prompts générant des appels API de grounding.
  • Les extraits observés sont exactement ceux fournis au modèle (approche extractive sans appariement approximatif), ce qui garantit l’authenticité des segments étudiés. Il reconnaît cependant ne pas avoir réalisé certains tests statistiques ou contrôles de confusion poussés, et précise que la valeur de ~2 000 mots est une médiane plutôt qu’une constante immuable.
  • Il indique ne pas pouvoir publier l’ensemble des données pour des raisons contractuelles et de confidentialité liées aux clients, ainsi que pour des raisons techniques liées à la nature de son dispositif d’analyse.

En conséquence, bien que les résultats soient cohérents et techniquement plausibles, ils ne sont pas aisément reproductibles par des tiers à l’état actuel. Cette limitation n’invalide pas les observations, mais en tempère l’interprétation et impose de traiter les chiffres comme des indications fortes plutôt que comme des lois strictes et universelles.

Conséquences pour votre stratégie de contenu

La conclusion opérationnelle essentielle est que, dans un environnement où les réponses génératives s’appuient sur un contexte web limité, la densité d’information devient un facteur décisif. Produire du volume sans hiérarchisation ni concentration des informations pertinentes n’augmentera pas nécessairement votre présence dans les réponses IA.

Voici des implications pratiques et des recommandations concrètes, non exhaustives, pour adapter une stratégie éditoriale à ces observations :

1) Favoriser des pages ciblées et structurées

Privilégiez des pages adressant une intention précise (questions fréquentes, tutoriels courts, guides rapides) d’environ 800–1 500 mots quand cela suffit pour couvrir le sujet. Un contenu trop étendu disperse le signal et dilue la couverture utile. Structurez vos pages en sections claires, titres H2/H3 pertinents, et paragraphes concis pour faciliter l’extraction de segments significatifs.

2) Rendre l’information « extraitable »

Les moteurs récupèrent aisément des passages courts et bien isolés. Utilisez des formats qui aident l’extraction : définitions en début de section, listes à puces, encadrés synthétiques, tableaux récapitulatifs, résumés en haut de page. Ces éléments concentrent le signal et augmentent la probabilité qu’un chunk pertinent soit sélectionné pour le grounding.

3) Prioriser la qualité du classement (le rang)

Comme la part du budget de grounding dépend fortement du **rang**, travailler sur les facteurs qui améliorent le positionnement reste crucial : pertinence sémantique, qualité des backlinks, autorité thématique, structure technique du site, vitesse et compatibilité mobile, et signaux UX. Être mieux classé augmente directement la quantité de texte extraite et donc votre visibilité dans les réponses IA.

4) Soigner la première partie du contenu

Du fait que seuls des extraits limités sont pris, ce qui figure dans la première moitié ou dans les premiers blocs de texte a plus de chances d’être sélectionné. Rédigez des introductions concises et informatives qui résument les points clés et fournissent des éléments vérifiables et factuels.

5) Prioriser le signal sur le remplissage

Éliminez le contenu superflu qui n’apporte pas d’information additionnelle. Les passages de remplissage réduisent la couverture utile sans augmenter la quantité absolue de texte exploitée. Privilégiez des paragraphes denses en information et évitez les redondances non nécessaires.

6) Multiformat et micro-contenus

Créer des micro-contenus (FAQ, encadrés « en bref », mini-guides) permet d’avoir plusieurs segments courts et ciblés sur un même site plutôt qu’un long monolithe. Ces micro-pages peuvent ranker sur des intentions fines et fournir des chunks facilement récupérables pour le grounding.

7) Structuration technique et données structurées

L’implémentation de balisage sémantique (Schema.org) augmente la compréhension du contenu par les moteurs et facilite l’identification de passages pertinents. Des éléments comme les balises FAQ, HowTo, ou les données structurées pour les produits et avis aident le moteur à repérer et extraire le contenu le plus pertinent.

8) Autorité et sources fiables

Le document montre qu’être mieux classé rapporte plus de contexte. Améliorer l’« autorité » perçue (backlinks de qualité, mentions dans la presse, contenu original et documenté) reste un levier crucial pour capter une part plus importante du budget de grounding.

9) Mesurer et tester

Surveiller les positions et la visibilité dans les formats IA nécessite des outils dédiés et des tests empiriques. Vérifiez comment vos pages apparaissent dans les réponses génératives, observez quels extraits semblent être utilisés, et ajustez la structure des pages en conséquence. Différenciez les tests par intention de recherche et par type de contenu.

10) Adapter la production éditoriale

Pour les équipes éditoriales, cela implique de repenser la roadmap : multiplier les contenus ciblés, privilégier la réécriture et l’optimisation de pages existantes (pour améliorer le rang) plutôt que la production systématique de longs articles génériques. La fréquence et la pertinence ciblée offrent souvent un meilleur rendement que la longueur unique.

Conclusion : densité et positionnement plutôt que longueur brute

Les observations de Dan Petrovic fournissent une perspective utile pour orienter la création et l’optimisation de contenu à l’ère de l’IA générative :

  • L’existence d’un budget de grounding (autour de ~2 000 mots) par requête change la façon dont le contenu web est exploité : le système sélectionne des portions limitées provenant de quelques sources, fortement pondérées par le rang.
  • Au niveau d’une page, la quantité de texte utilisée se situe souvent entre 200 et 600 mots, avec un palier vers ~540 mots ; au-delà, la couverture relative diminue.
  • Pour maximiser les chances d’être cité ou utilisé dans les réponses IA, il vaut mieux produire des pages concises, structurées et riches en information que de longs articles dilués.

Enfin, il convient de garder une certaine prudence : l’étude présente des résultats techniques solides mais non entièrement reproductibles publiquement en raison des contraintes sur les données. Les chiffres doivent donc être considérés comme des indications stratégiques pertinentes, susceptibles d’évoluer avec les changements de systèmes de grounding ou des améliorations méthodologiques.