de quelle manière l’intelligence artificielle sélectionne ses sources d’information

SEO, Stratégies marketing digital
septembre 5, 2025
Ben DAVAKAN

Perplexity s’est imposé comme l’un des outils de recherche assistée par intelligence artificielle les plus consultés. Pour les professionnels du numérique, décrypter les mécanismes de **classement** employés par Perplexity est devenu un enjeu stratégique. Une analyse technique réalisée par Metehan Yesilyurt met en lumière une architecture de sélection et de hiérarchisation des contenus bien plus sophistiquée que ce que suggèrent les idées reçues.

Il est utile de rappeler que, même si Perplexity se présente comme un moteur conversationnel, sa mécanique repose sur une architecture hybride de recherche : fusion d’algorithmes, de modèles d’apprentissage et d’interventions humaines. Plutôt que d’être un système intégralement automatique, l’algorithme combine des **scores sémantiques**, des filtres manuels et des interactions techniques avec des plateformes externes. Les points essentiels de cette architecture méritent d’être détaillés afin de mieux comprendre comment optimiser la visibilité d’un contenu au sein de cet écosystème.

Le modèle de reclassement en trois couches (L3) : priorité à l’autorité thématique

Les observations fournies par Metehan Yesilyurt montrent que Perplexity intègre un moteur de reclassement sophistiqué, basé sur un modèle d’apprentissage à trois couches, souvent désigné par l’acronyme L3. Ce **reranker L3** est spécifiquement calibré pour les requêtes d’objets nommés : personnes, entreprises, concepts ou sujets précis, c’est-à-dire des requêtes où l’identification d’une entité et de sa crédibilité thématique est essentielle.

Le rôle du reranker est déterminant : il ne suffit plus que le contenu corresponde textuellement à une requête ; il doit aussi démontrer une **autorité thématique** et une qualité perçue suffisantes. Selon le chercheur, le processus L3 agit comme un véritable filtre de qualité additionnel qui peut rejeter des résultats initialement bien positionnés si ces derniers ne satisfont pas aux critères plus exigeants du modèle.

Sur le plan opérationnel, le mécanisme observé se déroule en trois phases successives :

Extraction initiale : Perplexity récupère une liste préliminaire de documents pertinents et leur applique un classement brut.
Ouverture d’une couche de scoring : un modèle basé sur XGBoost intervient pour attribuer des scores de qualité complémentaires, évaluant la fiabilité thématique, la profondeur du contenu et d’autres signaux structurels.
Seuil de qualité : si un nombre insuffisant de documents dépassent le seuil défini par le L3, l’ensemble des résultats initiaux peut être écarté, provoquant une nouvelle itération de recherche ou l’affichage d’autres sources.

La conséquence pratique est importante : un article qui serait bien positionné selon des critères classiques (mots-clés, balises, backlinks) peut être ignoré par Perplexity si sa **pertinence sémantique** et son **autorité thématique** ne sont pas jugées suffisantes par le L3. Pour les éditeurs, cela implique de privilégier la profondeur, la cohérence thématique et la preuve de spécialisation plutôt que des optimisations purement techniques.

Une curation éditoriale avec des domaines explicitement favorisés

Une découverte significative de l’étude est l’existence de listes manuelles de « domaines autorisés » que Perplexity utilise pour renforcer certains résultats. Autrement dit, il existe des domaines catégorisés comme faisant preuve d’une **autorité** dans des secteurs définis (commerce en ligne, développement logiciel, formation, communication, etc.).

Selon les données analysées par Metehan Yesilyurt, la présence d’un lien ou d’une référence à un de ces domaines reconnus augmente la crédibilité perçue d’un contenu au sein du système. Parmi les domaines souvent cités figurent, par exemple, GitHub, LinkedIn, Reddit, Coursera, Booking et d’autres plateformes spécialisées. Cette curation manuelle signifie que certains sites bénéficient d’un traitement préférentiel intégré dans la pipeline de ranking.

Pour les producteurs de contenu, deux implications se dégagent :

Publier ou héberger des ressources sur des domaines reconnus peut faciliter leur indexation et leur montée en autorité au sein de Perplexity.
Inclure des références pertinentes à ces sources dans des contenus indépendants peut renforcer indirectement la crédibilité perçue et aider au franchissement des seuils exigés par le L3.

Autrement dit, la stratégie ne se limite pas à l’optimisation purement on-page : il s’agit aussi de considérer l’écosystème des sources et d’intégrer intelligemment des liens et des citations vers des domaines reconnus.

L’impact des contenus vidéo : un signal favorable lié à YouTube

L’étude met en évidence une relation étroite entre les titres de vidéos sur YouTube et les requêtes émergentes observées sur Perplexity. Concrètement, lorsqu’un titre de vidéo correspond de façon quasi-exacte à une requête tendance, la visibilité de cette vidéo, et parfois de la page associée, est renforcée sur les deux plates-formes.

Lorsque les vidéos YouTube reprennent exactement l’énoncé d’une requête populaire, elles bénéficient d’un avantage de visibilité significatif sur les deux écosystèmes.

Cela suggère que Perplexity utilise les titres et la popularité des vidéos comme un indicateur d’intérêt utilisateur : la répétition d’un intitulé et les signaux d’engagement associés servent d’indices robustes de la pertinence d’un sujet. De fait, les contenus multimédias qui s’alignent rapidement sur des requêtes émergentes gagnent en visibilité, ce qui crée une opportunité pour les créateurs capables de publier des formats vidéo réactifs et fortement titulés.

À noter : le bénéfice ne se limite pas au seul match lexical titre/requête. Les mesures d’engagement (temps de visionnage, taux de clic, interactions) sur YouTube semblent également agir comme des signaux complémentaires qui peuvent influencer le positionnement dans Perplexity.

Les principaux signaux de ranking : facteurs qui favorisent ou pénalisent la visibilité

La synthèse proposée par Metehan Yesilyurt recense jusqu’à 59 facteurs susceptibles d’affecter la visibilité dans Perplexity. Plutôt que d’énumérer la totalité de ces variables, il est utile d’expliquer en profondeur les signaux les plus déterminants et la façon dont ils se combinent entre eux.

Performances initiales des contenus (new_post_ctr) : Perplexity applique une logique de « fenêtre d’observation » après la publication d’un document. Durant cette période critique, le nouveau contenu doit atteindre des taux d’impression et de clics élevés. Ce signal, souvent référencé comme new_post_ctr, joue un rôle de filtre : si l’engagement initial est trop faible, la portée organique du contenu diminue rapidement. En pratique, cela crée un effet « courte mise à l’épreuve » où la réactivité et la capacité à générer un intérêt immédiat sont valorisées.
Catégorisation et thématisation : la thématique traitée influence fortement les multiplicateurs appliqués par le système. Les sujets liés à l’**intelligence artificielle**, à la technologie, aux sciences ou au business obtiennent généralement des pondérations positives, tandis que les contenus orientés divertissement ou sport tendent à être moins favorisés. Cette discrimination thématique traduit une stratégie de priorisation des domaines considérés comme à fort besoin d’exactitude et de crédibilité.
Usure temporelle (time_decay_rate) : un paramètre baptisé time_decay_rate provoque une décroissance rapide de la visibilité au fil du temps. Sans mise à jour régulière ou publication fréquente, un contenu voit sa visibilité s’éroder. Pour rester pertinent, il faut soit renouveler les publications, soit actualiser les pages existantes pour contrer cette dégradation.
Pertinence sémantique et embeddings : Perplexity ne se contente pas d’un simple appariement lexical. Le moteur calcule une similarité sémantique via des embeddings et applique un seuil appelé embedding_similarity. Si le contenu est trop éloigné du sens attendu par la requête, il ne sera pas proposé, même s’il contient des mots-clés identiques. Cette tendance renforce l’importance d’un contenu réellement aligné sur l’intention de recherche, et non seulement optimisé pour des expressions exactes.
Engagement utilisateur sur la durée : les métriques comportementales ne se limitent pas au clic initial. Perplexity surveille des indicateurs comme les retours sur la page, la durée de lecture, la rétention sur plusieurs jours (7 jours et plus) et d’autres interactions prolongées. Les contenus qui génèrent un engagement soutenu sont valorisés, car ils sont perçus comme utiles et satisfaisants pour l’utilisateur.
Réseaux de contenus interconnectés : le moteur favorise les pages qui font partie d’un ensemble cohérent et maillé. Un article intégré dans un réseau thématique (liens internes pertinents, séries d’articles, ressources complémentaires) voit sa performance amplifiée par un mécanisme identifié comme boost_page_with_memory. Cette logique récompense la profondeur thématique et la navigation logique entre documents connexes.
Signaux négatifs et seuils de rejet : Perplexity intègre des filtres explicites qui masquent les contenus présentant des comportements défavorables : faible CTR, taux de désintérêt élevé, ou absence d’interaction après exposition. Des paramètres tels que dislike_filter_limit ou discover_no_click_7d servent de garde-fous ; au-delà de certains seuils, un contenu peut être systématiquement relégué ou exclu.
Diversité des sources et des hashtags : le moteur pénalise l’homogénéité : contenus trop similaires, abondance de hashtags identiques, hyper-liaison vers un même domaine ou manque de variété de formats peuvent nuire au classement. Des paramètres tels que blender_web_link_domain_limit et diversity_hashtag_similarity_threshold sont utilisés pour maintenir un flux de résultats variés et éviter la surreprésentation d’une seule source.

En plus de ces signaux clefs, l’algorithme prend en compte d’autres éléments structurels et qualitatifs : l’exhaustivité d’un contenu, la présence de sources fiables vérifiables, la structuration du texte (titres, sous-titres, listes), la présence de données factuelles et la clarté des réponses apportées à la requête. Tous ces signaux se combinent pour établir une évaluation de confiance et de pertinence.

Comment ces signaux interagissent entre eux

Les différents facteurs ne fonctionnent pas de façon isolée : ils s’additionnent et parfois se neutralisent mutuellement. Par exemple, un article bénéficiant d’une forte autorité de domaine pourra compenser une partie d’un faible engagement initial, tandis qu’un contenu très engageant mais publié sur un domaine peu familier aura besoin de plus d’efforts pour franchir les thresholds du L3.

De même, la présence simultanée d’un bon score d’**embedding_similarity**, d’une structure de contenu cohérente et d’un réseau interne solide multiplie les chances de survie au-delà de la « période critique » initiale. À l’inverse, une accumulation de signaux négatifs (faible CTR initial, taux de rebond élevé, manque de diversité de sources) peut provoquer une désindexation ou un masquage progressif.

Une philosophie centrée sur la qualité perçue et la connectivité

La lecture globale de l’étude indique que Perplexity privilégie une logique où la **qualité perçue** et l’alignement thématique priment sur les manipulations techniques. Voici les ressorts principaux qui ressortent :

Sélection stratégique des sujets : mieux vaut couvrir des thèmes où l’on peut démontrer une expertise et produire des réponses complètes plutôt que multiplier des pages superficielles.
Amplification rapide : la montée en visibilité dépend d’un engagement fort rapidement après publication — ce qui favorise les opérations éditoriales synchronisées (diffusion, liens contextuels, formats variés).
Contenus interconnectés : la performance est améliorée lorsque les pages s’insèrent dans des réseaux logiques et cohérents plutôt que d’exister isolément.
Optimisation continue : il est nécessaire de monitorer et d’ajuster en continu les contenus (mises à jour, enrichissements, ajustements sémantiques) pour contrer l’effet du time_decay_rate.

Réussir sur Perplexity exige une approche qui combine choix de sujets pertinents, capacité à générer un engagement rapide après publication, structuration en réseaux de pages cohérents et amélioration continue, la priorité étant donnée à la qualité plutôt qu’à des manipulations algorithmiques.

Pour les professionnels du digital, la conclusion ne consiste pas à chercher une « recette secrète » de SEO spécifique à Perplexity, mais à comprendre et activer l’ensemble des signaux qui composent son écosystème de ranking. Les principes fondamentaux restent : produire des contenus utiles, structurés, mis à jour, et s’inscrire dans des réseaux de sources fiables.

Enfin, il faut garder à l’esprit que des décisions manuelles (listes de domaines autorisés) et des interactions avec des plateformes externes (par exemple YouTube) sont intégrées au système : la réussite ne dépend donc pas uniquement d’optimisations techniques internes, mais aussi de la capacité à s’intégrer à un écosystème éditorial plus large.

    </div>

Discutez avec un expert

le module de collaboration instantanée de WordPress en difficulté

référencement local et géolocalisation : HubSpot pour les entreprises qui veulent s’imposer sur leur territoire

mise à jour des liens du mode IA de Google, données sur la part de clics et propagation de ChatGPT — actualité SEO

j’ai déniché 9 thèmes WordPress incontournables pour le secteur de la construction (plus de 30 thèmes testés)

représentation vectorielle et modèles transformer (ce n’est pas le film)

de quelle manière l’intelligence artificielle sélectionne ses sources d’information

de quelle manière l’intelligence artificielle sélectionne ses sources d’information

de quelle manière l’intelligence artificielle sélectionne ses sources d’information

de quelle manière l’intelligence artificielle sélectionne ses sources d’information

Le modèle de reclassement en trois couches (L3) : priorité à l’autorité thématique

Une curation éditoriale avec des domaines explicitement favorisés

L’impact des contenus vidéo : un signal favorable lié à YouTube

Les principaux signaux de ranking : facteurs qui favorisent ou pénalisent la visibilité

Comment ces signaux interagissent entre eux

Une philosophie centrée sur la qualité perçue et la connectivité

Expert web

Ben DAVAKAN

Mes services

Liens rapides

Contactez-moi

de quelle manière l’intelligence artificielle sélectionne ses sources d’information

de quelle manière l’intelligence artificielle sélectionne ses sources d’information

de quelle manière l’intelligence artificielle sélectionne ses sources d’information

de quelle manière l’intelligence artificielle sélectionne ses sources d’information

Le modèle de reclassement en trois couches (L3) : priorité à l’**autorité thématique**

Une curation éditoriale avec des domaines explicitement favorisés

L’impact des contenus vidéo : un signal favorable lié à YouTube

Les principaux **signaux de ranking** : facteurs qui favorisent ou pénalisent la visibilité

Comment ces signaux interagissent entre eux

Une philosophie centrée sur la qualité perçue et la connectivité

Articles connexes

Expert web

Ben DAVAKAN

Mes services

Liens rapides

Contactez-moi

Le modèle de reclassement en trois couches (L3) : priorité à l’autorité thématique

Les principaux signaux de ranking : facteurs qui favorisent ou pénalisent la visibilité