Ben DAVAKAN

Vous êtes au bon endroit pour concrétiser vos ambitions sur le web. Parlons-en dès maintenant.

Google confirme l’utilisation d’un système comparable à MUVERA

Google confirme l’utilisation d’un système comparable à MUVERA

Google confirme l’utilisation d’un système comparable à MUVERA

Google confirme l’utilisation d’un système comparable à MUVERA

Sommaire

Lors d’un récent événement **Search Central Live Deep Dive** en Asie, Gary Illyes de Google a répondu à des questions concernant l’utilisation du nouveau **Multi‑Vector Retrieval via Fixed‑Dimensional Encodings (MUVERA)** et l’éventuelle adoption des **Graph Foundation Models** par Google.

Qu’est-ce que MUVERA ?

Google a récemment présenté MUVERA à travers un billet de blog et un article de recherche. Cette méthode permet d’améliorer la récupération de données en transformant les recherches complexes multi-vecteurs en recherches rapides à vecteur unique. Elle condense un ensemble d’**embeddings** de tokens en vecteurs à dimensions fixes, qui représentent de manière approximative leur similarité d’origine. Ce procédé permet d’utiliser des méthodes de recherche à vecteur unique optimisées pour identifier rapidement de bons candidats, avant de les réorganiser en fonction de la similarité exacte des multi-vecteurs. Comparé aux anciens systèmes tels que **PLAID**, MUVERA est non seulement plus rapide, mais elle génère également moins de candidats tout en augmentant le **taux de rappel**, offrant ainsi une solution pratique pour la récupération à grande échelle.

Voici les points essentiels concernant MUVERA :

  • MUVERA transforme des ensembles multi-vecteurs en vecteurs fixes utilisant les **Encodages de Dimensions Fixes (FDE)**, qui sont des représentations à vecteur unique de ces ensembles.
  • Ces FDE s’alignent suffisamment proche des comparaisons multi-vecteurs originales pour garantir une récupération précise.
  • La récupération MUVERA utilise le **MIPS (Maximum Inner Product Search)**, une technique de recherche établie, facilitant son déploiement à grande échelle.
  • Réordonnancement : Après avoir employé une recherche rapide à vecteur unique (MIPS) pour identifier rapidement les correspondances les plus probables, MUVERA les réorganise en utilisant la similarité **Chamfer**, une méthode de comparaison multi-vecteurs plus détaillée. Cette étape finale restaure l’intégralité de la précision de la récupération multi-vecteurs, offrant ainsi à la fois rapidité et précision.
  • MUVERA parvient à localiser un plus grand nombre de documents précisément pertinents avec un temps de traitement inférieur à celui de la norme de récupération à la pointe qui a été utilisée pour la comparaison (PLAID).

Confirmation de l’utilisation de MUVERA par Google

José Manuel Morgal (Profil LinkedIn) a lié sa question à Gary Illyes de Google, qui a répondu en plaisantant sur la notion de MUVERA, avant de confirmer qu’ils utilisent une version de ce système :

Voici comment José a décrit la question et la réponse :

“Un article a été publié dans Google Research au sujet de MUVERA et il y a un papier associé. Est-ce que cela est actuellement en production dans la recherche ?”

Sa réponse a été de me demander ce qu’était MUVERA, haha, puis il a commenté qu’ils utilisent quelque chose de semblable à MUVERA, mais qu’ils ne l’appellent pas ainsi.”

Google utilise-t-il les Graph Foundation Models (GFMs) ?

Récemment, Google a diffusé une annonce sur une avancée en **IA** appelée Graph Foundation Model.

Le Graph Foundation Model de Google (GFM) représente une forme d’IA qui apprend à partir de bases de données relationnelles en transformant ces dernières en graphes, où les lignes deviennent des nœuds et les connexions entre les tables se traduisent par des arêtes.

Contrairement aux modèles précédents (modèles d’apprentissage automatique et réseaux de neurones graphiques **(GNN)**) qui ne fonctionnent que sur un seul ensemble de données, les GFMs peuvent traiter de nouvelles bases de données avec des structures et des caractéristiques différentes sans nécessiter un nouvel entraînement sur les nouvelles données. Les GFMs s’appuient sur un grand modèle d’IA pour comprendre les relations entre les points de données à travers les différentes tables. Cela permet aux GFMs d’identifier des motifs que les modèles classiques ne détectent pas, et elles excellent dans des tâches comme la détection de **spam** dans les systèmes à grande échelle de Google. Les GFMs représentent un grand pas en avant, car elles apportent une flexibilité de modèle fondamental aux données structurées complexes.

Les Graph Foundation Models constituent une réalisation significative, car leurs améliorations ne sont pas incrémentales. Elles représentent un bond considérable, avec des gains de performance variant de 3 à 40 fois en précision moyenne.

José a ensuite questionné Illyes sur l’utilisation des Graph Foundation Models, et Gary a de nouveau feint de ne pas comprendre de quoi parlait José.

Il a relaté la question et la réponse :

“Un article a été publié dans Google Research au sujet des Graph Foundation Models pour les données, mais cette fois-ci, il n’y a pas de papier associé. Est-ce actuellement en production dans la recherche ?”

Sa réponse a été la même que précédemment, me demandant ce qu’étaient les Graph Foundation Models pour les données, et il pensait que ce n’était pas en production. Il ne savait pas, car il n’y avait pas de papier associé et, par ailleurs, il a commenté qu’il ne contrôlait pas ce qui était publié sur le blog de Google Research.”

Gary a clairement exprimé son avis selon lequel le Graph Foundation Model n’est actuellement pas en usage dans les recherches. À ce stade, c’est la meilleure information dont nous disposons.

À lire également : Le nouveau Graph Foundation Model de Google améliore la précision jusqu’à 40 fois

Le GFM est-il prêt pour un déploiement à grande échelle ?

Dans l’annonce officielle concernant le Graph Foundation Model, il est mentionné que celui-ci a été testé dans une tâche interne, la détection de spam dans les annonces, ce qui suggère fortement que de réels systèmes internes et des données ont été utilisés, et pas seulement des benchmarks académiques ou des simulations.

Voici ce que relate l’annonce de Google :

“Opérer à l’échelle de Google signifie traiter des graphes de milliards de nœuds et d’arêtes, où notre environnement **JAX** et notre infrastructure **TPU** évolutive brillent particulièrement. De tels volumes de données sont propices à l’entraînement de modèles généralistes, donc nous avons testé notre GFM sur plusieurs tâches de classification internes comme la détection de spam dans les annonces, impliquant des dizaines de grandes tables relationnelles connectées. Les modèles tabulaires typiques, bien qu’évolutifs, ne tiennent pas compte des connexions entre les lignes de différentes tables, et par conséquent, manquent de contexte qui pourrait être utile pour des prévisions précises. Nos expériences illustrent vivement cette lacune.”

Conclusion

Gary Illyes de Google a confirmé qu’une forme de MUVERA est effectivement utilisée chez Google. Sa réponse concernant le GFM semblait davantage basée sur une opinion, rendant ainsi la situation moins claire, car il a mentionné qu’il pensait qu’il n’était pas encore en production.

Image en vedette par Shutterstock/Krakenimages.com