Google Discover reste pour beaucoup d’éditeurs et de spécialistes SEO un système énigmatique, malgré les indications officielles publiées par Google pour expliquer son fonctionnement et les bonnes pratiques associées. En réalité, Google Discover est un exemple concret d’outil appartenant à la famille des systèmes de recommandation. Pour mieux comprendre ses principes, il est utile d’examiner une recherche fondatrice qui détaille comment mettre à l’échelle un **système de recommandation**. Cette publication porte sur les recommandations pour YouTube, mais les concepts exposés s’appliquent naturellement à des environnements comme Google Discover, où des flux massifs de contenu doivent être analysés et triés en temps quasi réel.
Les bases des systèmes de recommandation
Les systèmes de recommandation sont des algorithmes conçus pour proposer à un utilisateur des éléments (articles, vidéos, produits, etc.) susceptibles de l’intéresser. Un exemple historique bien connu est MovieLens, un projet universitaire qui, dès la fin des années 1990, demandait à des utilisateurs d’évaluer des films pour ensuite leur suggérer d’autres titres. Le principe sous-jacent est simple : des utilisateurs ayant des goûts similaires tendent à apprécier des contenus comparables.
Cependant, les méthodes initiales comme la factorisation de matrices ou les filtrages collaboratifs présentent des limites quand il s’agit d’opérer à l’échelle de plateformes telles que YouTube ou Google Discover. Le volume de contenu, la diversité des signaux d’utilisateur et l’exigence de latence faible imposent des architectures plus sophistiquées capables de générer des recommandations personnalisées pour des centaines de millions d’utilisateurs simultanément.
Architecture dite « à deux tours » pour la recommandation
La solution moderne fréquemment utilisée s’appuie sur ce que la littérature anglo-saxonne appelle la Two-Tower architecture (architecture « à deux tours »). Cette approche est devenue populaire après les travaux sur les recommandations pour YouTube, même si l’article original n’utilise pas explicitement l’expression Two-Tower. L’idée centrale consiste à dissocier la représentation de l’utilisateur et celle des contenus, ce qui accélère la phase initiale de recherche de candidats pertinents parmi des millions d’items.
Schématiquement, on construit deux modèles distincts : un modèle qui encode l’utilisateur en un vecteur numérique — souvent appelé User Tower — et un autre qui encode chaque élément de contenu en vecteurs — souvent nommé Item Tower. Ces deux espaces vectoriels sont ensuite comparés par similarité (par exemple, produit scalaire ou cosinus) pour retrouver rapidement les contenus proches des préférences de l’utilisateur, sans évaluer chaque item avec un modèle coûteux à la volée.
La séparation en deux blocs permet d’optimiser la recherche de « candidats » (candidate generation) avant une étape de classement (ranking) plus fine. Cette organisation est particulièrement adaptée aux contextes où l’on doit proposer instantanément un grand nombre de suggestions tout en conservant une qualité de personnalisation élevée.
Le rôle du User Tower
Le User Tower ingère des informations utilisateur : historique de consultation, requêtes de recherche, signaux de localisation, et attributs démographiques basiques. À partir de ces signaux, le modèle produit une représentation vectorielle — un ensemble de coordonnées dans un espace latent — qui résume les intérêts et comportements récents de l’utilisateur. Cette représentation compacte facilite la comparaison rapide avec des millions d’« embeddings » d’items.
Le rôle du Item Tower
Le Item Tower encode chaque contenu (une vidéo, un article, un flux) sous la forme d’un embedding appris. Dans l’implémentation originale pour YouTube, ces vecteurs d’items étaient entraînés simultanément avec le modèle utilisateur, puis mis en cache pour un accès très rapide. Grâce à cette stratégie, le système peut calculer en temps réel quelles vidéos sont proches de l’« empreinte » d’un utilisateur donné, sans exécuter un modèle lourd pour chaque contenu candidat.
Cette méthode sépare la génération de candidats (trouver un sous-ensemble pertinent parmi le catalogue total) du classement final (ordonner ces candidats en fonction d’un objectif métier, ex. temps de visionnage, engagement, satisfaction), ce qui est essentiel pour maintenir l’extensibilité et la réactivité.
Le défi de la fraîcheur du contenu
Un enjeu critique dans les systèmes de recommandation modernes est la gestion de la fraîcheur du contenu. Lorsqu’une plateforme reçoit chaque jour des milliers — voire des millions — de nouvelles publications, il faut réussir à proposer aux utilisateurs à la fois des éléments éprouvés et des contenus récents encore peu évalués. Ce dilemme correspond au trade-off bien connu entre exploitation (montrer ce qui est déjà populaire et susceptible de convertir) et exploration (exposer l’utilisateur à du contenu nouveau pour découvrir de nouvelles préférences).
Les observations empiriques de l’équipe de recherche montrent que les utilisateurs manifestent une préférence marquée pour le contenu récent, à condition que celui-ci reste pertinent. Autrement dit, la nouveauté attire l’attention, mais pas au détriment de la pertinence perçue. Cela a des implications directes pour des flux comme Google Discover, qui tends à privilégier des articles récents sur des sujets en tendance pour un utilisateur donné.
Le document de recherche note que recommander des contenus récemment mis en ligne est crucial, car les utilisateurs privilégient souvent la fraîcheur, sans pour autant renoncer à la pertinence.
Un biais fréquent des modèles d’**apprentissage automatique** provient du fait qu’ils sont entraînés sur des données historiques : ils apprennent donc des schémas qui reflètent le passé, au risque d’ignorer les tendances émergentes. Pour contrer cette inertie temporelle, l’équipe a introduit des variables temporelles qui informent le modèle de l’âge d’un item au moment de la prédiction, ou ajustent la fenêtre d’entraînement pour estomper l’effet d’anciennes données. Techniquement, on peut, dans la phase de serving, fixer une caractéristique temporelle à une valeur indiquant « maintenant » afin que le modèle prédise la popularité présente plutôt que la moyenne historique.
Pour les éditeurs et responsables de contenu, la leçon est claire : la production régulière de contenus récents, pertinents et bien structurés augmente les chances d’apparaître dans des flux personnalisés qui favorisent la nouveauté, comme Google Discover.
La fiabilité des données de clic et le feedback implicite
Un autre point fondamental de la recherche concerne la qualité des signaux utilisés pour l’apprentissage. Sur des plateformes à très grande échelle, on s’appuie principalement sur des signaux implicites — notamment les données de clic — plutôt que sur des évaluations explicites (ex. notes, retours qualitatifs). Ces signaux sont utiles mais bruyants : un clic ne garantit pas une satisfaction réelle et peut être influencé par des facteurs externes non observés (titres accrocheurs, vignette, moment de la journée, etc.).
Les auteurs soulignent que le comportement historique des utilisateurs est sparse et affecté par des facteurs externes non mesurés, ce qui rend l’estimation de la satisfaction réelle délicate lorsqu’on se base uniquement sur des signaux implicites.
Ceci implique que les algorithmes doivent être robustes face au bruit : techniques de régularisation, ingénierie de features plus riche, agrégation de multiples signaux (durée de lecture, taux de rebond, répétition de consommation) et méthodes d’évaluation offline sophistiquées sont souvent nécessaires pour compenser la faiblesse d’un seul type de signal.
En pratique, les plateformes complètent les données de clic par d’autres métriques d’engagement (par exemple, le temps de lecture effectif — souvent appelé watch time sur les services vidéo) pour mieux capturer la satisfaction utilisateur. L’article montre que des modèles profonds, bien conçus, peuvent intégrer de multiples signaux et modéliser leurs interactions de façon plus efficace que des approches linéaires ou basées sur des arbres.
Génération de candidats vs. classement : deux problèmes distincts
Les auteurs décrivent deux étapes distinctes, toutes deux essentielles : la génération de candidats (candidate generation) et le classement (ranking). La première vise à réduire l’univers d’items à un ensemble restreint et pertinent ; la seconde ordonne ces candidats en optimisant un objectif métier mesurable.
La Two-Tower architecture se révèle particulièrement efficace pour la génération de candidats puisque le calcul de similarité dans un espace d’**embeddings** permet de sélectionner rapidement un sous-ensemble d’items pertinents. Ensuite, un modèle de classement plus riche — qui peut combiner des signaux supplémentaires et des architectures plus profondes ou spécialisées — ajuste l’ordre final en vue d’un critère précis (ex. durée de consommation, conversion, engagement profond).
Ce découpage est crucial pour une exploitation industrielle : il évite d’avoir à appliquer un modèle coûteux à chaque item du catalogue et permet d’optimiser séparément la latence (pour la génération) et la qualité du tri (pour le classement).
Comment la recherche réduit le biais temporel
Une difficulté que rencontrent fréquemment les modèles est le biais vers le passé, dû à la nature des données d’entraînement qui reflètent l’activité passée. Pour corriger cela, les chercheurs introduisent des caractéristiques temporelles explicites et expérimentent des mécanismes qui présentent au modèle l’état « au moment de la prédiction ». Concrètement, cela revient à ajuster l’âge des exemples de formation ou à encoder l’écart temporel entre la mise en ligne d’un item et le moment de la prédiction, afin que le réseau apprenne à modéliser la dépendance temporelle des préférences.
Les tests A/B menés montrent que cette prise en compte explicite de l’âge des exemples améliore les métriques offline et augmente significativement l’activité sur les contenus nouvellement publiés, ce qui confirme l’importance de corriger le biais temporel dans des environnements fortement dynamiques.
Limites des approches traditionnelles et gains des modèles profonds
Les approches traditionnelles (factorisation de matrices, modèles linéaires, ou arbres) présentaient des limites pour capturer les interactions complexes entre signaux utilisateur-item, ou pour intégrer proprement des caractéristiques catégorielles de grande cardinalité. Les réseaux profonds (deep neural networks) permettent d’apprendre des représentations denses (embeddings) pour des variables catégorielles et d’assembler des couches qui modélisent des interactions non linéaires poussées, améliorant ainsi la capacité prédictive pour des objectifs comme le watch time.
Selon la recherche, l’utilisation d’un modèle profond a permis d’augmenter les performances par rapport aux approches antérieures, tant au niveau offline (mesures de précision) qu’au niveau business (augmentation du temps de visionnage observé en tests A/B).
Conséquences pratiques pour les éditeurs et spécialistes SEO
Bien que l’article se focalise sur YouTube, plusieurs leçons sont transposables pour les responsables de contenu qui cherchent à améliorer leur visibilité sur des flux personnalisés comme Google Discover :
- Publier régulièrement du contenu frais et pertinent : les systèmes de recommandation modernes favorisent souvent des éléments récents, surtout lorsqu’ils correspondent aux centres d’intérêt actuels des utilisateurs.
- Soigner les métadonnées et la structuration : un bon étiquetage (titres, descriptions, labels thématiques) facilite l’ingestion par les modèles et l’apprentissage d’**embeddings** de qualité.
- Enrichir les signaux d’engagement : au-delà du simple clic, des mesures comme le temps passé, le scroll profond, ou la répétition de consultation fournissent des informations plus robustes sur la satisfaction.
- Comprendre les limitations des données : reconnaître que les signaux implicites sont bruyants incite à diversifier les métriques et à privilégier une évaluation multi-dimensionnelle.
- S’adapter aux tendances temporelles : anticiper les sujets d’actualité et être réactif permet de bénéficier de la préférence du système pour la fraîcheur.
Ces recommandations ne garantissent pas l’apparition systématique dans Google Discover, mais elles s’appuient sur des principes techniques qui augmentent la probabilité d’être correctement interprété et valorisé par des systèmes de recommandation similaires.
Éthique, robustesse et biais
Les modèles de recommandation, en particulier ceux entraînés sur des comportements historiques, peuvent reproduire ou amplifier certains biais présents dans les données (préférences démographiques, concentration sur contenu viral, etc.). Les équipes techniques doivent donc intégrer des garde-fous : contrôles de diversité, pénalisation des boucles de rétroaction indésirable, et audits réguliers des sorties du système pour limiter la propagation de contenus nuisibles ou la marginalisation de voix minoritaires.
La robustesse du modèle face aux attaques, aux manipulations (par ex. fermes de clics) et aux changements abrupts de comportement doit également être prise en compte lors de la conception et du déploiement.
Évaluation et expérimentation
Les auteurs insistent sur la nécessité d’évaluer les modèles via des métriques offline, mais aussi par des expérimentations en production (A/B testing) pour mesurer l’impact réel sur les comportements utilisateurs. Les tests en ligne permettent d’objectiver des objectifs complexes (engagement durable, satisfaction) qui ne sont pas toujours capturés par des métriques simplifiées utilisées en phase d’entraînement.
Dans le contexte d’un flux personnalisé, il est fréquent d’optimiser des métriques composites : temps d’engagement, retour sur la plateforme, taux de conversion pour certains objectifs. Les A/B tests fournissent des preuves tangibles sur l’effet des changements algorithmiques et du réglage des hyperparamètres.
Points techniques supplémentaires
Quelques aspects techniques complémentaires évoqués ou implicites dans la littérature et pertinents pour comprendre ces architectures :
- Embeddings : vecteurs denses représentant utilisateurs et items, appris conjointement ou séparément ; ils réduisent la dimensionnalité et facilitent le calcul de similarité.
- Fonctions de similarité : produit scalaire, cosinus, ou distances métriques qui servent à retrouver rapidement des items proches dans l’espace latent.
- Indexation pour la recherche approximative : des structures comme les index ANN (Approximate Nearest Neighbors) permettent d’identifier des voisins proches avec une latence très faible sur des catalogues volumineux.
- Quantile normalization et transformation des features : techniques pour rendre des caractéristiques continues et catégorielles interopérables au sein de réseaux profonds.
- Stratégies d’exploration-exploitation : bandits, échantillonnage d’exploration, ou rééchantillonnage temporel pour découvrir de nouveaux items sans dégrader l’expérience.
Conclusion : que retenir pour Google Discover ?
En synthèse, les principes présentés dans la recherche sur les recommandations pour YouTube permettent d’éclairer le fonctionnement probable de Google Discover : il s’agit d’un système de recommandation à forte contrainte d’échelle, qui doit concilier pertinence et fraîcheur, et qui s’appuie sur des représentations vectorielles (embeddings) pour comparer rapidement utilisateurs et contenus.
Les points essentiels pour les acteurs du web sont :
- La fraîcheur compte : publier de manière réactive sur les sujets en tendance favorise l’apparition dans des flux personnalisés.
- Les données de clic sont utiles mais imparfaites : diversifier les signaux et enrichir les métriques d’engagement permet d’obtenir des indications plus fiables sur la satisfaction utilisateur.
- La structuration et la qualité des métadonnées améliorent l’apprentissage d’embeddings pertinents pour vos pages.
- Comprendre la distinction entre génération de candidats et classement aide à prioriser les optimisations techniques et éditoriales.
Pour approfondir les aspects techniques et expérimentaux décrits ici, la publication d’origine fournit un compte rendu détaillé de l’architecture et des résultats : Deep Neural Networks for YouTube Recommendations.
Image à la Une : Shutterstock / Andrii Iemelianenko
