Ben DAVAKAN

Vous êtes au bon endroit pour concrétiser vos ambitions sur le web. Parlons-en dès maintenant.

Les synthèses générées par l’IA reposent sur FastSearch, pas sur des liens

Les synthèses générées par l’IA reposent sur FastSearch, pas sur des liens

Les synthèses générées par l’IA reposent sur FastSearch, pas sur des liens

Les synthèses générées par l’IA reposent sur FastSearch, pas sur des liens

Sommaire

Un spécialiste du marketing sur les moteurs de recherche a récemment décelé pourquoi les **aperçus d’IA** de Google pouvaient renvoyer vers des pages de faible qualité. Une section clé du récent Memorandum Opinion dans l’affaire antitrust contre Google livre un indice explicite sur le fonctionnement interne des modèles et suggère qu’il existe un éloignement progressif de l’importance des liens traditionnels pour le classement.

Ryan Jones, fondateur de SERPrecon (profil LinkedIn), a attiré l’attention sur un passage du Memorandum qui décrit comment Google « ancre » ses modèles Gemini.

Comment Google ancre les réponses générées par l’IA

Le passage en question se trouve dans une partie consacrée à l’utilisation de données de recherche pour « ancrer » les réponses des modèles génératifs. Dans l’approche que beaucoup imaginent, les liens et le classement traditionnel servent à sélectionner les pages que l’IA va ensuite résumer : la requête interroge l’index de recherche, on obtient des résultats classés, puis l’IA compose un résumé.

Le Memorandum indique toutefois que le procédé utilisé pour alimenter les réponses de l’IA chez Google est différent. L’entreprise s’appuie sur un algorithme distinct, conçu pour extraire un nombre réduit de documents, et le faire beaucoup plus rapidement.

Selon le texte : « Pour ancrer ses modèles Gemini, Google se sert d’une technologie propriétaire nommée FastSearch. FastSearch repose sur des signaux issus du modèle RankEmbed — un ensemble de signaux de classement — et génère des résultats web abrégés et triés qu’un modèle peut utiliser pour fournir une réponse ancrée. FastSearch livre des résultats plus rapidement que le moteur de Search classique car il récupère moins de documents, mais la qualité de ces résultats est inférieure à celle des résultats web entièrement classés de Search. »

Ryan Jones a commenté ces éléments en expliquant que cela confirme certaines hypothèses observées lors de tests initiaux :

« Ceci confirme ce que beaucoup supposaient et ce que nos essais laissaient entrevoir. Concrètement, pour l’ancrage, Google n’utilise pas le même algorithme que pour la recherche classique. Ils privilégient la vitesse et renoncent à calculer certains signaux. L’objectif est d’obtenir du texte qui étaye la réponse, pas nécessairement d’atteindre la meilleure page possible. … Il y a probablement toute une série de signaux de qualité et de filtrage du spam qui ne sont pas calculés pour FastSearch. Cela explique pourquoi, lors des premières versions, des sites de faible qualité voire pénalisés apparaissaient dans les aperçus d’IA. »

Il ajoute que, dans ce contexte, les liens n’ont apparemment pas la place déterminante qu’ils occupent dans le classement traditionnel, puisque l’élément privilégié pour choisir les textes d’ancrage est la pertinence sémantique.

Lié : Google confirme que les liens ne comptent pas autant

Définir ce qu’est FastSearch

Le Memorandum précise que FastSearch produit des résultats organiques limités et très rapides :

« FastSearch est une technologie qui génère rapidement des résultats organiques limités pour certains usages, tels que l’ancrage de grands modèles de langage, et dérive principalement du modèle RankEmbed. »

La question suivante logique est : qu’est-ce que le modèle RankEmbed ?

Le document de procédure explique que RankEmbed est un modèle d’apprentissage profond. En termes simples, un modèle d’**apprentissage profond** repère des motifs dans d’immenses ensembles de données et peut identifier des relations et des similarités sémantiques entre requêtes et documents. Il ne « comprend » pas le contenu comme un humain, mais il détecte des corrélations et des patrons pertinents pour l’association requête-document.

Le Memorandum décrit ainsi : « Aux extrémités du spectre se trouvent des modèles innovants d’apprentissage profond, qui repèrent des motifs complexes dans de vastes datasets. … Google a développé divers signaux dits “top-level” qui servent d’entrées pour produire le score final d’une page web. Parmi ces signaux figurent des mesures de qualité et de popularité des pages. Les signaux issus de modèles d’apprentissage profond, comme RankEmbed, font aussi partie de ces signaux principaux. »

Les données « côté utilisateur » au cœur du modèle

Un point essentiel du Memorandum est que RankEmbed s’appuie sur des données issues des interactions utilisateurs. Dans la partie qui traite des données à fournir aux concurrents, RankEmbed est décrit de la manière suivante :

« Données côté utilisateur utilisées pour entraîner, construire ou exploiter le(s) modèle(s) RankEmbed; »

Plus loin, le document mentionne explicitement que RankEmbed et sa version ultérieure RankEmbedBERT s’appuient principalement sur deux sources : un pourcentage substantiel de logs de recherche sur une période (par exemple, 70 jours) et des scores fournis par des évaluateurs humains, utilisés pour mesurer la qualité des résultats organiques.

Le Memorandum précise encore :

« Le modèle RankEmbed est un système d’apprentissage profond à base d’IA doté d’une forte capacité de compréhension du langage naturel. Cela permet au modèle d’identifier plus efficacement les meilleurs documents à récupérer, même lorsque la requête n’inclut pas certains termes. … RankEmbed est entraîné sur un centième des données utilisées pour les anciens modèles de classement tout en fournissant des résultats de meilleure qualité. … RankEmbed a particulièrement aidé Google à améliorer les réponses sur les requêtes longues (long-tail). … Parmi les données d’entraînement figurent des informations sur la requête, les termes saillants dérivés par Google et les pages web résultantes. … Les données sous-jacentes aux modèles RankEmbed mélangent des données de clic et de requête et des notations de pages par des évaluateurs humains. … RankEmbedBERT nécessite une rééducation pour refléter des données récentes. »

Implications pour le fonctionnement des réponses d’IA

Que signifie concrètement la place réduite des liens dans ce processus ? Si FastSearch privilégie la rapidité et s’appuie sur un index plus restreint, la sélection se fait davantage sur des correspondances sémantiques et des signaux tirés des comportements utilisateurs (clics, requêtes) que sur la présence ou la popularité exprimée par liens entrants.

Cela peut expliquer pourquoi, lors des premières itérations des aperçus d’IA, des pages de moindre qualité — voire pénalisées — réapparaissaient : l’étape d’indexation et de tri employée pour l’ancrage n’inclut pas l’intégralité des signaux de filtration et de qualité calculés par l’algorithme de recherche complet.

Multiples indexes ou index spécialisés ?

Une hypothèse plausible est que Google exploite plusieurs index : un index principal, employé par le moteur de recherche classique et riche en signaux, et un index optimisé pour FastSearch qui contient un ensemble plus réduit de sites pertinents et fréquemment visités. Ce second index serait structuré pour alimenter rapidement les modèles Gemini en texte d’appui, même si ce texte n’est pas toujours extrait des pages les mieux classées selon les signaux traditionnels.

Rôle des évaluations humaines dans l’apprentissage

Les évaluateurs humains (quality raters) ne parcourent qu’une infime fraction du web. Leur utilité n’est pas de classer chaque page manuellement, mais de générer des exemples annotés (données labellisées) qui servent à entraîner et calibrer les modèles. Ces annotations permettent au modèle d’apprendre des caractéristiques de qualité — par exemple la fiabilité, la complétude, la pertinence — et de généraliser ces critères à d’autres pages via l’appariement sémantique.

Conséquences pour le référencement (SEO) et pour les éditeurs

La montée de systèmes d’ancrage rapides basés sur des embeddings et des signaux utilisateurs change la donne pour certaines pratiques de référencement. Voici plusieurs points à considérer désormais :

  • Qualité du contenu : si l’ancrage repose sur la pertinence sémantique, la richesse informationnelle et la clarté du texte restent cruciales. Les modèles d’**embedding** favorisent des contenus qui répondent précisément aux intentions de recherche.
  • Comportement utilisateur : puisque RankEmbed intègre des signaux de clics et de requêtes, la manière dont les internautes interagissent avec les résultats devient un facteur d’importance. Des titres attractifs et des extraits meta pertinents peuvent influencer la probabilité d’être choisi comme document d’ancrage.
  • Pages fréquemment visitées : si FastSearch s’appuie sur un index restreint composé de sites visités, la notoriété et la fréquentation récurrente d’un site pourraient aider à être inclus dans l’ensemble utilisé pour l’ancrage.
  • Liens : il semble que la contribution directe des liens traditionnels pour les aperçus d’IA soit moins décisive. Cela ne signifie pas que les liens n’ont plus d’importance pour le SEO général, mais leur rôle dans la sélection rapide de documents d’ancrage paraît réduit.
  • Long-tail : les modèles comme RankEmbed améliore la pertinence sur des requêtes longues et très spécifiques ; produire du contenu ciblé et exhaustif sur des niches peut donc être payant.

Dans l’ensemble, l’orientation va vers une recherche de qualité sémantique et d’usages réels plutôt que vers des signaux de popularité purement structurels.

Limites et risques

Plusieurs limites techniques et risques émergent de ce système :

  • Qualité variable : l’exigence de rapidité implique de récupérer moins de documents et de sacrifier certains traitements de qualité, ce qui peut mener à la propagation de pages médiocres dans des réponses d’IA.
  • Biais d’échantillonnage : s’appuyer sur des logs de requêtes et des clics peut renforcer des biais populaires et marginaliser des contenus de niche pourtant pertinents.
  • Érosion des signaux traditionnels : si les outils d’ancrage ne calculent pas les mêmes signaux que la recherche classique, les propriétaires de sites doivent diversifier leurs efforts SEO pour être visibles dans les différents contextes.
  • Problème de transparence : l’utilisation de modèles propriétaires comme FastSearch et RankEmbed complique la compréhension publique des critères exacts de sélection.

Aspects techniques : embeddings, correspondance sémantique et réentrainement

Quelques précisions techniques aident à mieux saisir pourquoi ces technologies sont efficaces et quelles contraintes elles imposent :

Embedding et recherche sémantique

Les modèles d’**embedding** transforment textes et requêtes en vecteurs dans un espace à haute dimension. La proximité entre vecteurs traduit la similarité sémantique. Dans ce cadre, une requête et un document peuvent être apparentés même s’ils n’utilisent pas exactement les mêmes mots-clés — ce qui aide à répondre aux intentions formulées de façon différente.

Les modèles RankEmbed sont optimisés pour ce type d’appariement, permettant d’identifier rapidement des documents « sémantiquement proches » même quand la correspondance lexicale est faible.

Réentraînement et fraîcheur des données

Le Memorandum indique que RankEmbedBERT, version ultérieure, nécessite un réentraînement pour intégrer des données récentes. C’est révélateur de deux éléments :

  • La pertinence des modèles dépend fortement de la fraîcheur des logs de recherche et des annotations humaines ; des données obsolètes conduisent à des réponses moins adaptées.
  • Le coût et la fréquence du réentraînement conditionnent la capacité d’un système à s’ajuster aux nouvelles tendances et aux changements rapides du web.

Synthèse et perspectives

Les extraits du Memorandum exposent une architecture en deux vitesses : d’un côté, la recherche traditionnelle qui calcule un large spectre de signaux (qualité, popularité, liens, etc.), et de l’autre une voie optimisée pour l’**IA** — FastSearch — qui mise sur la vitesse, les embeddings et les données d’usage pour fournir des textes d’ancrage. Ce choix technique explique la présence occasionnelle d’URLs de faible qualité dans les réponses générées, et souligne une transition vers des systèmes où la **pertinence sémantique** et le comportement utilisateur pèsent beaucoup.

Pour les professionnels du contenu et du SEO, cela signifie s’adapter à une réalité où :

  • La qualité informative et la structure sémantique du contenu sont primordiales.
  • La fréquentation et l’engagement peuvent influer différemment selon les types d’index.
  • Les stratégies qui misaient uniquement sur la force des liens doivent être complétées par des efforts sur l’expérience utilisateur, la profondeur des pages et la clarté sémantique.

Enfin, la coexistence d’index spécialisés et d’algorithmes propriétaires met en lumière la complexité croissante des systèmes de recherche contemporains et l’importance d’analyser plusieurs sources de signaux pour comprendre les dynamiques de visibilité en ligne.

Voir aussi : Google partage un enseignement utile sur les directives des évaluateurs de qualité

Image à la une par Shutterstock/Cookie Studio