Google a publié un article de recherche présentant une méthode visant à aider les systèmes de recommandation à mieux comprendre ce que les utilisateurs veulent réellement dire lorsqu’ils interagissent avec eux. L’objectif déclaré de cette approche est de dépasser les limites des techniques actuelles pour obtenir une compréhension plus fine et individualisée de ce que chaque personne souhaite lire, écouter ou regarder.
Sémantique personnalisée : comprendre l’intention au niveau individuel
Les systèmes de recommandation ont pour fonction d’anticiper le contenu susceptible d’intéresser un utilisateur : plateformes vidéo, fils d’actualité, services de découverte de contenu, et aussi suggestions d’achats. Ils reposent classiquement sur l’analyse des actions observables — clics, lectures, évaluations, achats — pour proposer d’autres éléments similaires.
Ces signaux observables sont souvent appelés retours utilisateur « primitifs » : ils sont utiles mais limités lorsqu’il s’agit de capturer des jugements subjectifs comme ce qui est « drôle », « émouvant » ou « ennuyeux » pour un individu donné.
Les auteurs de l’étude partent du constat que l’avènement des grands modèles de langage (LLM) et des interactions en langage naturel offre une opportunité : exploiter ces échanges pour inférer une intention sémantique plus riche et individualisée.
Les chercheurs décrivent leur objectif ainsi : les systèmes interactifs de recommandation ouvrent la voie pour dépasser les limites des retours primitifs (clics, consommation d’item, notes) en permettant aux utilisateurs d’exprimer intentions, préférences, contraintes et contextes de manière plus nuancée, souvent en langage naturel. Mais il reste à déterminer comment tirer au mieux parti de ces retours ouverts. Un défi clé consiste à inférer l’intention sémantique des utilisateurs à partir de termes libres, souvent vagues, utilisés pour décrire un objet souhaité.
Le défi des « attributs doux »
Les auteurs distinguent deux catégories d’attributs. Les attributs « durs » — par exemple le genre, l’artiste ou le réalisateur — sont des vérités objectives faciles à associer à un contenu. En revanche, les attributs dits « doux » (soft attributes) sont subjectifs : ils échappent souvent à une association univoque avec un film, une chanson ou un produit.
Les caractéristiques essentielles de ces attributs doux sont les suivantes :
- Il n’existe pas de source de vérité universelle liant ces attributs aux items ;
- Les attributs peuvent revêtir des interprétations floues et variées ;
- Ils sont par nature subjectifs : deux personnes peuvent concevoir différemment ce que signifie un terme comme « drôle ».
Le problème posé par ces attributs doux est précisément ce que les chercheurs cherchent à résoudre. Leur article s’intitule, en version originale, « Discovering Personalized Semantics for Soft Attributes in Recommender Systems using Concept Activation Vectors » — soit l’identification d’une sémantique personnalisée pour ces attributs via les Concept Activation Vectors (CAVs).
Utilisation innovante des Concept Activation Vectors (CAVs)
Les Concept Activation Vectors (CAVs) sont une technique issue de l’interprétabilité des modèles : elles permettent d’explorer les représentations internes (vecteurs) d’un modèle et de les relier à des concepts humains. Habituellement, les CAVs servent à interpréter un modèle. Les auteurs inversent ce paradigme : ils adaptent les CAVs pour traduire les expressions subjectives des utilisateurs en représentations numériques exploitables par le système de recommandation.
Concrètement, au lieu d’utiliser les CAVs uniquement pour expliquer comment fonctionne un modèle, ils apprennent des directions dans l’espace d’embeddings qui correspondent aux sens personnalisés d’un mot ou d’une étiquette donnée pour un utilisateur donné. Ainsi, le système peut capter que deux personnes signifient des choses différentes lorsqu’elles emploient le terme « drôle ».
Les auteurs montrent que la représentation CAV permet non seulement d’interpréter correctement la sémantique subjective des utilisateurs, mais aussi d’améliorer la qualité des recommandations via des interactions basées sur la critique d’items (critique-guidée).
Leur objectif est de réduire l’écart sémantique entre la façon dont les humains s’expriment — en concepts vagues et subjectifs — et la façon dont les systèmes de recommandation « pensent », c’est-à-dire en manipulations mathématiques sur des vecteurs dans un espace de grande dimension.
Plutôt que de réentraîner massivement le moteur de recommandation pour couvrir toutes les nuances, les CAVs servent d’outil intermédiaire permettant de traduire une description humaine floue en une direction exploitable dans l’espace d’embeddings, sans modifier l’architecture du système sous-jacent.
Quatre avantages principaux de l’approche
Les chercheurs identifient quatre bénéfices clés de leur méthode :
- (1) Le modèle de système de recommandation peut se concentrer sur la prédiction des préférences utilisateurs sans devoir apprendre des métadonnées additionnelles (tags) qui n’améliorent pas toujours la performance.
- (2) Le modèle reste extensible : il peut intégrer de nouveaux attributs sans nécessiter de réentraînement si de nouvelles sources textuelles émergent.
- (3) L’approche permet de tester la pertinence d’un attribut doux pour la prédiction des préférences, aidant à focaliser l’attention sur les attributs réellement utiles pour expliquer ou affiner des recommandations.
- (4) On peut apprendre la sémantique d’attributs avec des quantités relativement faibles de données labellisées, dans l’esprit du pré-entraînement et de l’apprentissage en quelques exemples (few-shot).
Principe de fonctionnement général
À un niveau élevé, la méthode requiert deux éléments :
- (i) un modèle de style filtrage collaboratif (par exemple une factorisation matricielle pondérée ou un double encodeur) qui embedde utilisateurs et items dans un espace latent sur la base des évaluations utilisateur-item ;
- (ii) un petit ensemble d’étiquettes (tags) d’attributs doux fournies par un sous-ensemble d’utilisateurs pour certains items.
La procédure associe, pour chaque item, un score reflétant dans quelle mesure il manifeste un attribut doux. Pour ce faire, elle applique les CAVs au modèle de filtrage collaboratif afin de détecter si le modèle a appris une représentation pour cet attribut.
La projection d’un CAV dans l’espace d’embeddings définit une sémantique directionnelle (locale) pour l’attribut, que l’on peut ensuite appliquer aussi bien aux items qu’aux utilisateurs. La technique permet aussi d’identifier la nature subjective d’un attribut : différents utilisateurs peuvent avoir des sens distincts pour un même tag. Cette sémantique personnalisée est cruciale pour interpréter correctement l’intention d’un utilisateur lorsque l’on cherche à évaluer ses préférences.
Illustration avec un exemple simple
Imaginons qu’un utilisateur demande des films « drôles ». Derrière ce terme peuvent se cacher plusieurs sens : comédies burlesques, satires sociales, humour noir, ou comédies romantiques. En apprenant une ou plusieurs directions CAV correspondant aux différentes acceptions du mot « drôle », le système peut projeter l’embedding de cet utilisateur et mesurer la proximité à chacune des directions. La recommandation peut alors s’ajuster selon celle qui correspond le mieux au profil sémantique de l’utilisateur.
Les résultats : est-ce que ça marche ?
Les chercheurs ont mené plusieurs expérimentations pour valider l’approche. L’une des observations intéressantes porte sur un tag artificiel (« odd year ») pour lequel le système obtenait une précision à peine supérieure au hasard, corroborant l’idée que les CAVs peuvent servir à identifier quels tags sont réellement liés aux préférences.
Ils montrent également que l’emploi des CAVs aide à mieux comprendre les comportements basés sur la « critique » d’un item (par exemple « Je veux quelque chose comme ceci mais moins sombre ») et améliore les systèmes qui exploitent ce type d’interactions.
Les bénéfices mis en avant incluent :
- (i) l’utilisation d’une représentation de filtrage collaboratif pour repérer les attributs les plus pertinents pour la recommandation ;
- (ii) la capacité à distinguer usage objectif et usage subjectif d’un tag ;
- (iii) l’identification d’une sémantique personnalisée, propre à chaque utilisateur, pour des attributs subjectifs ;
- (iv) la mise en relation de la sémantique d’un attribut avec la représentation des préférences, permettant des interactions basées sur des attributs doux (critique d’exemple, collecte de préférences, etc.).
Les auteurs rapportent des améliorations de la qualité des recommandations dans les cas où la découverte d’attributs doux est importante — par exemple pour la découverte de films ou de contenus culturels. Ils notent que l’applicabilité de la méthode aux contextes dominés par des attributs durs (comme certains scénarios de commerce où les caractéristiques techniques priment) reste à explorer.
Aspects techniques et jeu de données utilisés
Pour évaluer leur technique, les chercheurs ont utilisé le jeu de données public MovieLens20M (20 millions de notes). Certaines expérimentations ont été conduites en utilisant un algorithme appelé WALS (Weighted Alternating Least Squares), implémenté via du code de production interne à Google.
Deux notes dans un pied de page et dans l’annexe précisent que :
« Les CAVs appliqués aux données MovieLens20M avec des attributs linéaires tirent parti d’embeddings appris (via WALS) par du code de production interne, non diffusable. »
L’évocation de « code de production » indique que la méthode est concevable pour une intégration dans des systèmes réels sans nécessité de révolutionner l’architecture de recommandation existante. Cela renforce la crédibilité de l’idée selon laquelle la technique peut être déployée en environnement opérationnel avec des moteurs déjà en place.
Implications pour l’ingénierie des systèmes
Le fait que la méthode exploite des embeddings produits par un modèle de filtrage collaboratif signifie :
- On peut tirer parti d’un pipeline existant (facteurisation, encodeur double, etc.) sans l’alourdir en le forçant à prédire des tags additionnels ;
- Les directions CAV peuvent être apprises avec peu d’exemples labellisés et ensuite appliquées rapidement sur de larges catalogues ;
- La personnalisation est possible sans réentraînement global, ce qui réduit le coût opérationnel et facilite des mises à jour fréquentes.
Enseignements et perspectives
L’article, publié en 2024, est passé relativement inaperçu dans certaines communautés du marketing de recherche, sans doute parce qu’il se situait davantage dans un domaine technique et expérimental. Google a testé l’approche avec WALS, et cite des partenaires de recherche comme Amazon, Midjourney et Meta AI parmi les collaborateurs.
Plusieurs points méritent d’être soulignés :
- La méthode ouvre la possibilité pour des systèmes de recommandation d’exploiter des informations sémantiques issues d’expressions humaines subjectives sans devoir réentraîner entièrement le moteur de recommandation.
- Elle permet d’identifier quelles dimensions subjectives sont réellement utiles à la prédiction des préférences et à la personnalisation.
- La technique est compatible avec l’idée d’une interaction en langage naturel : un utilisateur peut formuler une préférence vague et voir le système s’ajuster en fonction de la sémantique personnalisée détectée.
Applications potentielles
Domaines où l’approche semble particulièrement pertinente :
- Plateformes de streaming et discovery (films, séries, podcasts) : quand les descriptions « feeling-based » importent autant que les métadonnées ;
- Moteurs d’articles et agrégateurs d’actualité : capter des préférences subtiles en ton ou angle éditorial ;
- Recommandation culturelle (livres, musiques) où les impressions subjectives façonnent fortement le choix ;
- Interfaces conversationnelles et assistants : permettre des dialogues de raffinement sans transformations linguistiques lourdes.
Limites et zones d’attention
Quelques limites et questions ouvertes restent à considérer :
- La qualité des CAVs dépend de la qualité des embeddings et des quelques labels disponibles ; des biais dans ces étiquettes peuvent se répercuter sur la sémantique apprise.
- Les attributs extrêmement subjectifs ou contextuels (par exemple « parfait pour une soirée entre amis ») peuvent nécessiter des informations contextuelles supplémentaires pour être correctement interprétés.
- Des questions d’éthique et de confidentialité se posent lorsqu’on personnalise trop finement la sémantique d’un utilisateur : comment expliciter ces traitements et proposer de la transparence ?
- L’efficacité en dehors d’ensembles de données comme MovieLens20M reste à valider sur des catalogues commerces ou des contenus très spécialisés.
Conclusion technique et stratégique
En synthèse, l’approche présentée par Google Research propose une solution ingénieuse pour rapprocher la manière dont les humains décrivent ce qu’ils veulent et la manière dont les systèmes de recommandation représentent l’information : au lieu de forcer le système à apprendre directement une multitude d’étiquettes subjectives, on apprend des directions sémantiques (CAVs) dans l’espace d’embeddings déjà utilisé par le modèle. Cette passerelle permet d’interpréter des demandes en langage naturel et de personnaliser la signification d’un même terme selon l’utilisateur.
Les expérimentations avec MovieLens20M et l’utilisation d’algorithmes comme WALS confèrent un caractère pragmatique à la méthode : elle est susceptible d’être intégrée, avec un effort raisonnable, dans un pipeline de recommandation existant.
Remarques finales
Si Google ne précise pas publiquement si cette méthode est déjà employée dans des produits comme Google Discover, les résultats présentés et le recours à du code de production suggèrent que l’approche est concevable en contexte industriel. À terme, cela pourrait rendre certaines recommandations plus sensibles aux nuances subjectives exprimées par les utilisateurs, améliorant la pertinence perçue des suggestions.
Pour les lecteurs souhaitant consulter l’étude originale, le document est disponible via le lien suivant :
Image mise en avant par Shutterstock/Here
Articles connexes
- l’importance de la crédibilité de la marque et des critères E-E-A-T à l’ère de la recherche par intelligence artificielle
- Démarrer sur YouTube : comment surmonter les obstacles techniques ?
- le mode IA et les synthèses IA stimulent le volume total des recherches
- webinaire SEO For Paws en direct : places gratuites désormais disponibles
- Google a achevé le déploiement contre le spam (mise à jour d’août 2025)
- Les fonctionnalités indispensables d’un site web VTC pour attirer et fidéliser la clientèle
- Google Chrome présente « avis de marchand » pour identifier plus facilement les sites e-commerce fiables
- Comment rendre vos publications Instagram visibles sur Google ?
