Bulletin hebdomadaire : Growth Memo
Cette semaine, je présente les conclusions issues de l’examen de 1,2 million de réponses générées par ChatGPT pour comprendre comment augmenter la probabilité d’être cité.

Pendant deux décennies, les spécialistes du référencement ont privilégié la forme « guide ultime » : des introductions longues pour capter l’attention humaine, des développements qui répètent et réarticulent l’idée principale jusqu’à une conclusion qui ramène le lecteur au message central. On construit souvent la progression pour maintenir l’engagement et culminer avec une incitation à l’action.
Les données révèlent toutefois que ce schéma narratif, pensé pour les utilisateurs humains, n’est pas optimal pour la visibilité auprès des systèmes d’IA.
Après avoir croisé 1,2 million de réponses de ChatGPT et identifié 18 012 citations vérifiées, un motif extrêmement constant est apparu — si robuste qu’il revient avec une valeur p statistiquement nulle : la « rampe de ski ». En bref, ChatGPT accorde une attention disproportionnée aux premiers 30 % d’un texte. J’ai aussi repéré cinq traits distincts qui caractérisent les passages qui sont le plus souvent cités. Pour émerger dans l’ère de l’IA, il faut commencer à écrire davantage comme un journaliste structuré et factuel.
1. Quelles parties d’un texte sont les plus susceptibles d’être citées par ChatGPT ?

La littérature et les pratiques courantes ne décrivent pas précisément quelles portions d’un document sont exploitées par les grands modèles de langage (LLM). En examinant 18 012 citations vérifiées, la distribution suit un profil en pente qui ressemble à une rampe de ski :
- 44,2 % des citations proviennent des 30 premiers pour cent du texte (l’introduction). Les modèles favorisent le fait d’extraire immédiatement le « qui, quoi, où ». Si votre message clé figure dans l’intro, il a une forte probabilité d’être repris.
- 31,1 % des citations se situent dans la partie médiane (30–70 % du texte). Si vous dissimulez une fonctionnalité importante au milieu d’un article long, la probabilité d’être cité chute d’environ 2,5 fois par rapport à l’intro.
- 24,7 % des citations émanent du dernier tiers de l’article (la conclusion). Le modèle lit bien jusqu’à la synthèse finale : la section « résumé » ou « conclusion » immédiatement avant le pied de page est souvent utilisée, tandis que le pied de page lui-même (90–100 %) est largement ignoré.
Deux explications plausibles expliquent ce profil :
- Les LLM sont majoritairement entraînés sur des sources journalistiques et académiques qui respectent la règle du BLUF (Bottom Line Up Front) : l’information la plus importante est présentée tôt dans le texte.
- Même si certains modèles peuvent traiter d’immenses contextes (jusqu’à plus d’un million de tokens pour des interactions particulières), ils cherchent d’abord à établir rapidement un cadre interprétatif, puis à intégrer les éléments restants dans ce cadre pour optimiser l’efficacité de la réponse.

Les 18 000 citations extraites d’un corpus de 1,2 million confirment la robustesse statistique du phénomène : la valeur p approchée est de 0,0 (p < 0,0001), ce qui rend le résultat difficilement contestable. Pour vérifier la stabilité, les données ont été découpées en lots aléatoires :
- Le premier lot montre une pente légèrement moins marquée, mais les lots 2, 3 et 4 reproduisent presque exactement le même profil.
- Conclusion : la distribution observée est stable et récurrente sur l’ensemble du corpus analysé.
Ces constats à grande échelle posent une autre interrogation : ce biais vers le début du texte subsiste-t-il si l’on descend au niveau du paragraphe ? Autrement dit, le modèle se contente-t-il de lire seulement la première phrase, ou creuse-t-il davantage quand il s’intéresse à un bloc de texte ? Pour répondre à cela, j’ai effectué un zoom au niveau des phrases.

En observant 1 000 contenus fortement cités, on constate que 53 % des extraits cités se trouvent au milieu d’un paragraphe plutôt qu’à son début ou à sa fin. Plus précisément :
- 24,5 % des citations proviennent de la première phrase du paragraphe.
- 53 % proviennent d’une phrase située au milieu du paragraphe.
- 22,5 % sont extraites de la dernière phrase du paragraphe.
Cela démontre que ChatGPT ne se contente pas de lire seulement la première phrase de chaque paragraphe : il identifie la phrase qui apporte le plus de « gain informationnel » — celle qui relie le mieux les entités et enrichit le contexte — indépendamment de sa position exacte dans le paragraphe.
Enseignement pratique : il n’est pas nécessaire de forcer une réponse complète dans la première phrase de chaque paragraphe. Toutefois, compte tenu de la rampe de ski, les paragraphes situés dans les 20 % initiaux d’une page offrent la meilleure probabilité d’être cités.
2. Quelles caractéristiques rendent un passage plus susceptible d’être cité ?
Au-delà du « où », il faut aussi comprendre le « quoi » : quelles propriétés textuelles favorisent les reprises par les modèles ? L’analyse linguistique montre cinq attributs récurrents dans les extraits cités :
- Un langage catégorique et définitif.
- Une structure question–réponse de type conversationnel.
- Une forte densité d’entités (noms propres, marques, outils).
- Un sentiment mesuré et équilibré.
- Une écriture de niveau professionnel et lisible.
1. Langage définitif vs. formulations vagues

Les passages cités utilisent presque deux fois plus de formulations catégoriques que les passages non cités (36,2 % contre 20,2 %). Ces formulations incluent des tournures comme « est défini comme », « correspond à », « consiste en », ou tout énoncé qui établit clairement une relation entre des concepts.
Pourquoi ce type de formulation est-il privilégié ? Deux raisons probables :
- Dans un espace d’embeddings vectoriels, un verbe d’identité comme « est » crée un lien fort entre un sujet et sa définition. Lorsqu’un internaute demande « Qu’est-ce que X ? », le modèle recherche la trajectoire vectorielle la plus directe, souvent fournie par une phrase de type « X est Y ».
- Le modèle tend à répondre rapidement avec un seul énoncé résolvant la requête (zéro-shot), plutôt que d’agréger plusieurs paragraphes pour construire sa réponse.
Recommandation : dès l’introduction de votre contenu et au début des sections importantes, privilégiez des énoncés directs et définitoires.
- Mauvais exemple : « Dans ce monde en évolution rapide, l’automatisation prend une importance croissante… »
- Bon exemple : « L’automatisation des démonstrations est le processus d’utilisation d’un logiciel pour… »
2. Écriture conversationnelle — la mécanique question/réponse

Les passages contenant des signes de ponctuation interrogative sont deux fois plus susceptibles d’apparaître dans les citations (18 % contre 8,9 %). Ce que nous qualifions d’« écriture conversationnelle » ici, c’est le format question suivie d’une réponse immédiate.
Structure recommandée : posez la question explicite que se pose l’utilisateur, puis répondez de façon brève et directe. Par exemple :
- Style gagnant : « Qu’est-ce que le SEO programmatique ? C’est… »
- Style perdant : « Dans cet article, nous examinerons en détail les multiples facettes de… »
Autre observation : 78,4 % des citations associées à une question proviennent des titres. Le modèle traite souvent l’en-tête (H2) comme une requête de l’utilisateur, et le paragraphe qui suit comme la réponse à générer.
Ce mécanisme produit ce que j’appelle un « écho d’entité » : le terme employé dans l’en-tête est répété immédiatement au début de la réponse, créant une correspondance forte entre la requête implicite et l’extrait cité.
Exemple concret :
-
Quand le SEO a-t-il commencé ?
(Question formulée dans le H2)
-
Le SEO a émergé…
(Réponse directe, entité écho)
3. Richesse en entités (Entity Richness)

Un texte anglais courant présente une densité d’entités (présence de noms propres, marques, outils, personnes) d’environ 5–8 %. Les extraits fréquemment cités affichent une **densité d’entités** moyenne très supérieure : 20,6 %.
- Les valeurs de 5–8 % proviennent de référentiels linguistiques classiques comme le Brown Corpus ou le Penn Treebank.
Exemples :
- Phrase peu dense : « Il existe de nombreux outils utiles pour cette tâche. » (0 % d’entités)
- Phrase riche en entités : « Les outils recommandés incluent Salesforce, HubSpot et Pipedrive. » (≈30 % d’entités)
Les LLM fonctionnent sur des probabilités : un conseil générique est plus risqué et donne un signal moins net, tandis qu’un nom propre ou une marque fournit un point d’ancrage vérifiable pour le modèle. Une phrase contenant plusieurs entités réduit l’incertitude (perplexité) et apparaît donc comme une source d’information solide.
Autrement dit, n’ayez pas peur de nommer des produits, des publications, des personnes ou des méthodes — y compris des concurrents — lorsque cela apporte de la précision.
4. Sentiment équilibré (subjectivité modérée)

Le score de subjectivité moyen des extraits cités s’établit à environ 0,47 sur une échelle où 0,0 représente une objectivité totale et 1,0 une subjectivité extrême. Concrètement :
- 0,0 — Texte factuel pur : seulement des faits vérifiables (« L’iPhone 15 est sorti en septembre 2023. »).
- 1,0 — Opinion marquée : uniquement des jugements ou émotions (« L’iPhone 15 est merveilleusement supérieur, je l’adore. »).
Les modèles n’apprécient ni le ton froidment encyclopédique ni l’exubérance subjective non étayée. Ils favorisent un registre intermédiaire — la « voix d’analyste » — qui combine faits et interprétation : expliquer pourquoi un fait est important ou comment il s’applique dans un contexte.
Forme profitable (~0,5) : « Bien que l’iPhone 15 utilise une puce A16 standard (fait), ses performances en basse lumière en font un choix privilégié pour les créateurs de contenu (analyse). »
5. Rédaction de niveau professionnel

Le style dit « business-grade » — sobre, précis et professionnel, à l’instar des publications comme The Economist ou Harvard Business Review — apparaît plus souvent dans les extraits cités. Les textes « gagnants » ont un score de lisibilité Flesch-Kincaid moyen d’environ 16 (niveau universitaire), tandis que les textes « perdants » atteignent en moyenne 19,1 (niveau doctoral).
Même pour des thèmes complexes, une complexité excessive nuit à l’extraction d’informations : des phrases trop longues et un jargon dense compliquent l’identification rapide de faits exploitables. Les modèles privilégient des constructions sujet–verbe–objet claires, avec des phrases courtes à modérément longues, car elles facilitent l’isolation des assertions pertinentes.
Conclusion — quelles implications pour les rédacteurs et stratèges de contenu ?
La présence d’une rampe de ski dans la distribution des citations révèle un décalage entre l’écriture narrative conçue pour l’humain et la structure d’accès à l’information des IA. Les récits qui retardent la révélation des idées peuvent être interprétés par les modèles comme faibles en termes de classification des faits, ce qui réduit les chances d’être cité.
Les contenus les plus visibles aux yeux des systèmes d’IA ressemblent davantage à des briefs structurés qu’à des histoires progressives. Ils nécessitent une « taxe de clarté » : explicitez tôt vos conclusions, ancrez vos phrases avec des entités et maintenez une voix d’analyste mesurée.
Cela ne signifie pas qu’il faille systématiquement « simplifier » le propos. Au contraire, les gagnants de l’échantillon montrent que la précision terminologique et la richesse en entités comptent davantage que la dilution du vocabulaire. En d’autres termes, l’IA ne favorise pas l’appauvrissement du contenu, mais elle valorise la clarté et l’utilité immédiatement exploitables.
Le fossé entre les préférences humaines et les contraintes machine se réduit, mais il n’est pas encore comblé : les lecteurs humains recherchent toujours une progression logique et des arguments étoffés, tandis que l’algorithme privilégie la capacité à extraire rapidement des faits et des relations. En frontchargeant les conclusions et en structurant les sections sous forme de questions/réponses enrichies en entités, vous répondez simultanément aux attentes des deux parties.
Méthodologie
Pour déterminer précisément où et pourquoi les systèmes d’IA citent des passages, nous avons analysé les données de manière systématique et reproductible.
Toutes les données de cette recherche proviennent de Gauge.
- Gauge a fourni environ 3 millions de réponses générées par ChatGPT, assorties de 30 millions de citations. Pour chaque URL citée, le contenu web a été scrappé au moment de la réponse afin d’établir une corrélation fidèle entre la source réelle et la réponse. Les données collectées comprennent à la fois le HTML brut et une version texte.
1. Le corpus
Le point de départ était un ensemble de 1,2 million de résultats de recherche et de réponses d’IA. Parmi ceux-ci, 18 012 citations vérifiées ont été retenues pour l’analyse de position, et 11 022 citations ont été examinées pour l’étude de l’« ADN linguistique ».
- Signification statistique : l’échantillon est suffisamment large pour produire une valeur p proche de 0,0 (p < 0,0001), rendant les motifs observés hautement significatifs.
2. Le moteur d’extraction (« Harvester »)
Pour identifier avec précision la phrase source citée par l’IA, nous avons employé une méthode basée sur les embeddings sémantiques.
- Modèle utilisé : all-MiniLM-L6-v2, un transformer de phrases capable de capturer la similarité sémantique au-delà de la simple cooccurrence de mots.
- Processus : chaque réponse d’IA et chaque phrase du texte source ont été converties en vecteurs à 384 dimensions, puis appariées par similarité cosinus.
- Filtre de confiance : un seuil strict de similarité (0,55) a été appliqué pour exclure les correspondances faibles ou les hallucinations, ne retenant que les citations à haute confiance.
3. Les mesures
Une fois la correspondance établie, deux types de métriques ont été calculés :
- Profondeur positionnelle : emplacement exact du passage cité dans la structure HTML (par exemple 10 % vs 90 %).
- ADN linguistique : comparaison entre « gagnants » (intros citées) et « perdants » (intros ignorées) à l’aide d’outils de traitement automatique du langage pour mesurer :
- Taux de définitions : présence de verbes et de tournures définitives (« est, sont, se définit comme »).
- Densité d’entités : fréquence des noms propres : marques, outils, personnes, publications.
- Subjectivité : score de sentiment allant de 0,0 (factuel) à 1,0 (opinion).
Featured Image: Paulo Bobita/Search Engine Journal
Articles connexes
- des outils de création simples aux systèmes de gestion de contenu pour entreprises
- La recherche Google atteint 63 milliards de dollars, tests publicitaires pilotés par l’IA expliqués
- Parmi 10 produits testés, j’en conseille 6
- ChatGPT peut-il réellement supplanter Google pour les recherches sur internet ?
- google déconseille de se baser sur les scores fournis par les outils d’audit SEO
- comment les données structurées influencent les extraits générés par l’IA et augmentent votre quota de visibilité
- Comet, le navigateur d’intelligence artificielle de Perplexity est désormais disponible pour tout le monde
- La part des clics des annonces textuelles de Google est en forte hausse dans certains secteurs
