Ben DAVAKAN

Vous êtes au bon endroit pour concrétiser vos ambitions sur le web. Parlons-en dès maintenant.

Les travaux d’Anthropic révèlent comment les grands modèles de langage interprètent le texte

Les travaux d’Anthropic révèlent comment les grands modèles de langage interprètent le texte

Les travaux d’Anthropic révèlent comment les grands modèles de langage interprètent le texte

Les travaux d’Anthropic révèlent comment les grands modèles de langage interprètent le texte

Sommaire

Des chercheurs d’Anthropic ont étudié la capacité de Claude 3.5 Haiku à déterminer le bon emplacement pour insérer un saut de ligne dans un texte contraint par une largeur fixe — un exercice qui oblige le modèle à suivre sa position au fur et à mesure qu’il génère des caractères. L’analyse a livré un résultat surprenant : les modèles de langage développent des structures internes qui ressemblent, sur le plan fonctionnel, à la manière dont les humains représentent l’espace pour suivre une position dans le monde physique.

Andreas Volpini a partagé cette étude et a proposé une comparaison métaphorique avec la manière de segmenter du contenu pour les intelligences artificielles. Au-delà de la métaphore, son observation illustre comment auteurs et modèles s’organisent autour de limites — les bords où un segment s’achève et un autre commence — pour maintenir la cohérence structurelle.

Cependant, ce travail n’est pas centré sur la lecture de contenus existants, mais sur la **génération** de texte et la détection du point exact où placer un saut de ligne afin que le texte respecte une largeur de ligne donnée. L’objectif était d’explorer comment un LLM garde en mémoire la position courante dans la ligne, choisit les mots et décide du moment d’introduire un retour à la ligne.

Les auteurs ont conçu une tâche expérimentale consistant à produire du texte avec un saut de ligne à une largeur spécifique. Cette mise en situation visait à révéler comment Claude 3.5 Haiku sélectionne les mots pour qu’ils s’ajustent à une largeur de ligne imposée et à quel instant il déclenche un saut de ligne, ce qui nécessite que le modèle suive en continu le nombre de caractères écrits sur la ligne en cours.

L’expérience illustre comment les modèles de langage apprennent des structures à partir de motifs textuels sans qu’on leur enseigne explicitement de règles de comptage ou de positionnement.

Le défi du placement des retours à la ligne

La tâche appelée « linebreaking » impose au modèle de décider si le prochain mot peut tenir sur la ligne actuelle ou s’il faut commencer une nouvelle ligne. Pour réussir, le LLM doit internaliser la contrainte de largeur de ligne — c’est-à-dire la règle qui limite le nombre de caractères autorisés sur une ligne, comme une marge physique sur une feuille. Concrètement, cela exige que le modèle tienne le compte des caractères déjà produits, calcule l’espace restant, puis anticipe si le prochain élément lexical s’y logera.

Cette procédure mobilise des capacités de raisonnement, de mémoire et de planification. Les chercheurs ont utilisé des graphes d’attribution pour visualiser la manière dont le modèle combine ces calculs : on y distingue des composantes internes dédiées au décompte des caractères, à la prédiction du mot suivant et à l’identification du moment où un saut de ligne devient nécessaire.

Un comptage fluide plutôt qu’un comptage pas à pas

Plutôt que de constater un suivi caractère par caractère, les chercheurs ont observé que Claude 3.5 Haiku encode le nombre de caractères restants comme une structure géométrique lisse, comparable à une surface courbée en continu. Ce type de représentation autorise un suivi de position « à la volée » sans effectuer un incrément unitaire visible pour chaque symbole.

Ils ont aussi identifié une tête d’attention spécialisée, décrite comme une « tête de frontière », chargée de repérer l’approche de la limite de la ligne. Dans les architectures actuelles de LLM, une tête d’attention évalue l’importance relative des éléments (tokens) en entrée ; la tête de frontière se concentre précisément sur la détection du bord de ligne.

Les auteurs rapportent que la représentation du décompte de caractères est organisée de façon à ce qu’une action linéaire appliquée par la tête de frontière « décale » la courbe de comptage sur elle-même, rapprochant ainsi des valeurs voisines et signalant qu’une borne est proche. Ce mécanisme ne se retrouve pas dans des embeddings arbitraires à haute courbure mais émerge dans la variété observée dans Haiku et dans la construction de Fourier qu’ils comparent.

Comment la détection de bord fonctionne

Les tests montrent que le modèle anticipe l’imminence d’un bord de ligne en comparant deux signaux internes :

  1. Le nombre de caractères déjà générés sur la ligne, et
  2. La largeur de ligne cible ou maximale.

Certaines têtes d’attention se spécialisent pour aligner ces deux informations. Elles opèrent en effectuant de petites rotations ou translations dans l’espace des représentations : quand les deux signaux deviennent presque identiques, le produit scalaire entre eux devient important et l’attention du modèle se déplace vers l’insertion d’un saut de ligne.

Pour repérer un bord imminent, le modèle doit comparer quantitativement le comptage courant et la longueur maximale de la ligne. Les chercheurs identifient des têtes d’attention dont la matrice QK effectue une rotation d’un manifold de comptage pour l’aligner sur l’autre à un certain décalage, générant un grand produit intérieur lorsque la différence tombe dans une plage ciblée. Plusieurs têtes avec des offsets différents coopèrent pour estimer avec précision les caractères restants.

La phase finale : combiner estimation et prédiction

Au terme de ce processus, le système connaît approximativement la distance au bord de la ligne et dispose d’une prévision pour la longueur du mot suivant. La décision finale consiste à combiner ces deux éléments pour trancher : le mot tient-il ou faut-il insérer un saut de ligne ?

La dernière étape consiste donc à mettre en corrélation l’estimation de la position relative au bord et la prédiction lexicale du token suivant afin de déterminer si le mot entre dans la ligne en cours ou s’il déclenche un retour à la ligne.

Les expérimentations montrent que des caractéristiques internes spécifiques s’activent quand le mot suivant dépasserait la limite : ces signaux agissent comme des détecteurs de bord, augmentant la probabilité qu’un symbole de saut de ligne soit prédit et réduisant simultanément la probabilité d’un mot supplémentaire. À l’inverse, d’autres caractéristiques s’illustrent lorsque le mot tient encore, favorisant la continuité de la ligne.

Le verdict résulte donc d’un équilibre entre ces deux forces opposées — l’une favorisant l’insertion d’un saut de ligne, l’autre la poursuite de la ligne — qui aboutit à la sélection finale du token.

Les modèles peuvent-ils être victimes d’illusions « visuelles » ?

La portion suivante de l’étude explore une idée fascinante : est-ce que ces structures internes peuvent être trompées par des artefacts analogues à des illusions visuelles chez l’humain ? Les auteurs ont transposé ce concept en créant des perturbations qui modifient la représentation de la position et testent si le LLM se retrouve désorienté.

L’analogie part du constat que l’œil humain peut être leurré par des figures qui altèrent la perception d’une même longueur. De façon comparable, les chercheurs ont injecté des tokens artificiels pour voir si la cartographie interne du comptage se décalait.

Capture d’écran d’une illusion perceptuelle

Screenshot of two lines with arrow lines on each end that are pointed in different directions for each line, one inward and the other outward. This gives the illusion that one line is longer than the other.

Pour provoquer ces distortions, les expérimentateurs ont inséré des tokens factices comme « @@ ». Ces ajouts ont perturbé la synchronisation des motifs internes que le modèle utilise pour repérer la position, produisant des décalages analogues à des illusions perceptives. Concrètement, la prédiction du saut de ligne a été modifiée : les têtes d’attention qui reliaient habituellement un saut de ligne au suivant se sont aussi mises à porter attention aux tokens introduits (« @@ »), ce qui a brouillé la continuité de la détection de bord.

Les chercheurs notent qu’en présence du prompt altéré, les têtes d’attention se distraient : alors qu’avec l’invite originale l’attention s’effectue de saut de ligne à saut de ligne, dans la version modifiée l’attention se tourne également vers le token « @@ », perturbant ainsi la prédiction du token de nouvelle ligne.

Pour savoir si ce phénomène était spécifique au token « @@ » ou généralisable, ils ont testé 180 séquences différentes. La plupart n’ont pas entravé la capacité du modèle à repérer le point de rupture. Seul un petit ensemble de caractères liés au code (caractères de programmation ou symboles particuliers) a significativement distracté les têtes d’attention pertinentes et perturbé le processus de comptage.

Les LLM développent une perception « visuelle » du texte

Les résultats de l’étude mettent en lumière comment des propriétés textuelles brutes s’organisent en systèmes géométriques lisses à l’intérieur d’un LLM. Au-delà du traitement symbolique, le modèle construit des cartes internes de « perception » textuelle : des représentations continues et organisées qui permettent d’estimer des grandeurs comme un comptage de caractères ou la proximité d’une frontière.

Cette idée de perception n’est pas seulement rhétorique : les auteurs comparent explicitement le rôle des premières couches du modèle à des opérations perceptives, similaires aux premiers niveaux de réseaux de vision qui extraient des motifs élémentaires. Les analogies avec la cognition biologique apparaissent à plusieurs reprises dans le texte de recherche.

Les chercheurs suggèrent qu’au lieu de « détokéniser » simplement l’entrée, les premières couches servent davantage à « percevoir » le texte. Ces couches initiales effectuent une sorte de perception bas-niveau, comparable à la manière dont les premières couches des modèles de vision détectent des caractéristiques simples.

Plus loin, ils ajoutent :

Les motifs géométriques et algorithmiques observés présentent des parallèles avec la perception dans des systèmes neuronaux biologiques. Par exemple, certaines caractéristiques montrent une dilatation : elles représentent des comptes de caractères de plus en plus grands qui s’activent sur des plages plus étendues, rappelant la dilatation des représentations numériques dans le cerveau biologique. L’organisation de ces caractéristiques sur une variété de faible dimension est également un motif récurrent en cognition biologique. Si les analogies ne sont pas parfaites, elles suggèrent qu’un dialogue accru entre neurosciences et interprétabilité pourrait être fructueux.

Voir aussi : Comment les LLM interprètent le contenu : structurer l’information pour la recherche IA

Quelles conséquences pour le SEO ?

Arthur C. Clarke affirmait que toute technologie suffisamment avancée est indiscernable de la magie. Comprendre la mécanique interne d’un LLM permet cependant de démystifier son fonctionnement et de le rendre plus accessible. Cette étude n’offre pas de recette magique pour améliorer le classement d’une page, mais elle approfondit notre connaissance de la façon dont les modèles de langage structurent et interprètent la forme du texte.

Concrètement, que peut-on retenir d’utile pour ceux qui travaillent sur le contenu et l’optimisation pour les moteurs de recherche ? Quelques points d’intérêt, sans prétendre à des prescriptions absolues :

  • Les modèles de langage ne se contentent pas d’analyser des tokens isolés : ils construisent des représentations continues de la structure du texte. La façon dont le contenu est segmenté et organisé (titres, paragraphes, sauts de ligne) influence ces représentations.
  • Les modèles développent des mécanismes spécialisés (p. ex. têtes d’attention) pour repérer des frontières structurelles. Des structures textuelles régulières et cohérentes facilitent donc l’identification des segments par les LLM.
  • Des anomalies d’encodage (tokens inhabituels, symboles de code) peuvent perturber certaines routines internes. Dans des contextes où des modèles sont appelés à traiter du texte mixte (langage naturel + code), il peut être pertinent de prêter attention aux séquences symboliques.
  • Comprendre que les modèles forment des « cartes » internes peut encourager la création de contenus lisibles, bien balisés et structurés, car une structure claire favorise des représentations internes stables et interprétables par les modèles.

Au total, l’étude enrichit notre compréhension conceptuelle de la manière dont les LLM perçoivent et organisent le texte. Pour les praticiens du SEO, ces enseignements invitent surtout à soigner la structure et la lisibilité des contenus plutôt qu’à chercher des astuces superficielles.

Pour consulter le document scientifique : When Models Manipulate Manifolds: The Geometry of a Counting Task — Étude complète