James LePage, Directeur Engineering AI chez Automattic et co-responsable de l’équipe WordPress Core AI Team, a partagé des réflexions précieuses sur ce que les éditeurs doivent anticiper en matière de SEO à l’ère des agents IA. En tant que fondateur et co-lead de cette équipe chargée de coordonner les projets liés à l’intelligence artificielle au sein de WordPress — notamment la manière dont des agents IA pourraient interagir avec l’écosystème WordPress — il propose des pistes concrètes sur les transformations à prévoir pour le web et leurs conséquences pour le référencement.
Agents IA et infrastructure
La première remarque essentielle de James LePage est que les agents IA exploitent fondamentalement la même infrastructure web que celle utilisée par les moteurs de recherche classiques. Autrement dit, les données dont se servent ces agents proviennent largement des index de recherche existants. Cette continuité infrastructurelle a des implications immédiates pour les éditeurs : optimiser pour les agents revient souvent à optimiser pour les systèmes de recherche actuels.
Il le formule de manière volontairement stimulante :
Les agents se reposent sur l’infrastructure déjà en place sur le web :
- Recherche pour découvrir les entités pertinentes.
- Signaux de confiance et d’« autorité de domaine » pour évaluer les sources.
- Liens pour naviguer entre les entités.
- Contenu pour comprendre ce que chaque entité propose.
Il est frappant de constater l’afflux de capitaux dans les startups AIO et GEO alors que les agents récupèrent l’information via des index de recherche existants : ChatGPT s’appuie sur Bing, Anthropic collabore avec Brave, et Google fait appel à son propre index. La mécanique du web ne disparaît pas ; ce qui change, c’est l’acteur qui effectue le parcours d’exploration.
Cette mise en perspective nous rappelle que, même si de nouveaux intermédiaires IA vont émerger, les principes fondamentaux du SEO — indexabilité, confiance, liens et qualité du contenu — restent centraux. Les agents vont « traverser » le web en s’appuyant sur ces mêmes signaux, et non sur une source d’information complètement nouvelle et isolée.
SEO pour l’IA = optimisation de la longue traîne
LePage souligne que plusieurs aspects techniques et éditoriaux sont déterminants pour que le contenu soit utile aux agents IA : données structurées (schema), balisage sémantique dense et pertinent, ainsi qu’une interconnexion cohérente entre les pages. Autrement dit, l’optimisation pour l’IA revient, dans une large mesure, à travailler la longue traîne et la granularité des réponses — des pratiques que beaucoup d’éditeurs connaissent déjà sous l’angle du SEO traditionnel.
Il précise :
Les intermédiaires IA qui synthétisent des informations ont besoin de contenus structurés et accessibles : des schémas clairs, une densité sémantique élevée et une bonne interconnexion. C’est le défi auquel la plupart des éditeurs font face aujourd’hui. Il y a d’ailleurs une part d’inquiétude dans le secteur : des milliards circulent vers des solutions AIO et GEO alors qu’une grande partie de l’optimisation IA n’est, en substance, qu’une optimisation pour des requêtes de longue traîne.
En pratique, cela signifie plusieurs choses pour les éditeurs :
- Prioriser la création de contenus modulaires et très ciblés qui répondent à des requêtes spécifiques.
- Documenter clairement les entités, leurs relations et les attributs via des données structurées (par exemple schema.org), afin que les agents identifient rapidement la nature et la valeur de chaque page.
- Améliorer la sémantique du contenu — mots-clés contextuels, synonymes, et termes liés — pour permettre une meilleure compréhension par les modèles de langage.
- Soigner l’architecture de liens internes pour aider les agents à traverser le site de façon logique et à établir des parcours de confiance entre pages.
Au final, bien que le discours autour des agents IA soit parfois présenté comme une rupture radicale, les bonnes pratiques à suivre sont souvent des prolongements des méthodes SEO bien connues : travail sur la longue traîne, qualité de l’architecture de l’information, et usage de schémas pour rendre le contenu lisible par des machines.
À quoi ressemble un contenu optimisé pour les agents IA
Impliqué dans l’écosystème WordPress, LePage met l’accent sur l’organisation volontaire et lisible du contenu pour la consommation par des agents. Concrètement, il recommande l’emploi de markdown structuré, d’un balisage sémantique propre et de contenus faciles à analyser automatiquement.
Il détaille sa vision :
Il faut privilégier des présentations de contenu qui mettent en avant l’essentiel. Des signaux de classement qui distinguent les informations autoritatives des éléments secondaires. Des formats qui dévoilent progressivement le détail : un résumé d’abord, puis des chemins clairs vers des approfondissements. Tout cela reste de l’information statique, pas nécessairement conversationnelle ou dynamique, mais pensée pour la traversée par des agents.
Pensez à la différence entre un tas de documents et un dossier de synthèse bien organisé. Les deux peuvent contenir les mêmes données, mais le second est incomparablement plus utile pour quelqu’un qui veut comprendre rapidement ce que vous proposez.
Cette approche — résumé clair suivi d’un accès structuré aux détails — correspond à un principe d’« affordance machine » : faciliter la consommation et la réutilisation par des systèmes automatisés. Voici des éléments concrets pour y parvenir :
- Résumé en tête de page : fournir un paragraphe introductif qui synthétise l’intention et les principales réponses. Les agents préfèrent souvent une synthèse courte et lisible.
- Structures hiérarchiques : utiliser des balises de titres (H1–H3+), sections et sous-sections claires pour décomposer l’information.
- Données structurées : implémenter des JSON-LD ou microdata (ex. Article, FAQPage, HowTo, Product) pour rendre les entités et leurs relations explicites.
- Interconnexions logiques : créer des clusters thématiques (topic clusters) avec des liens internes qui définissent les relations entre pages piliers et pages détail.
- Progressive disclosure : proposer des couches d’information — sommaire, points clés, détails techniques, sources — pour permettre aux agents d’adapter le niveau de détail selon leur usage.
- Formats machine-friendly : proposer des exports ou endpoints (par ex. API, flux JSON) lorsque c’est pertinent pour permettre une intégration directe par des agents.
LePage ajoute toutefois une observation apparemment contradictoire : dans une vision très agentique du futur, un agent pourrait se suffire du contenu lui-même, sans avoir besoin d’un site web au sens classique — littéralement un « tas de documents » exploitable sans interface humaine. Malgré cette hypothèse, il recommande aujourd’hui de garder une structure nette, tant au niveau de la page (hiérarchie, balises) qu’au niveau du site (liens, clusters thématiques), pour que l’information soit lisible et exploitable par des agents.
Il insiste enfin sur l’idée que le contenu doit communiquer son objectif : chaque page doit indiquer clairement ce qu’elle présente, à qui elle s’adresse et quelle action ou quel usage elle facilite. Ces métadonnées éditoriales (intention, audience, format) sont autant de repères pour les agents.
Transition vers des agents interagissant entre eux
LePage évoque un monde où les sites web hébergeront des agents IA capables de dialoguer avec d’autres agents externes. Ce paradigme renforce l’idée selon laquelle le contenu pourra être dissocié du site : les données deviendront une ressource que des agents peuvent requêter, agréger et présenter sous des formes adaptées aux besoins des utilisateurs.
Considérez cela comme une progression. Aujourd’hui, l’état courant ressemble à une recherche web façon Perplexity : rassembler du contenu, synthétiser, présenter à l’utilisateur. L’utilisateur reste décisionnaire. À court terme, des utilisateurs délèguent des tâches précises à des agents, qui peuvent exécuter des actions limitées comme achats ou réservations avec des pouvoirs restreints. À plus long terme, les agents deviennent plus autonomes, guidés par des règles permanentes, et peuvent agir plus largement comme des acteurs économiques.
La progression va vers plus d’autonomie, mais cela ne signifie pas l’effacement total des humains : la boucle s’élargit. Plutôt que d’approuver chaque action, l’utilisateur définit des lignes directrices et vérifie les résultats.
…Avant l’existence d’agents qui gèrent entièrement un site, il y a un terrain intermédiaire utile aujourd’hui.
Le contenu accessible à un agent doit être présenté de manière cohérente avec le fonctionnement des agents actuels : markdown structuré, balisage sémantique propre, contenu facile à analyser. Même dans des contenus statiques, l’organisation intentionnelle de l’information favorise la consommation par des agents.
Cette vision impose aux équipes produit et aux éditeurs de réfléchir à des formats de contenu réutilisables, à des API robustes et à des signaux de confiance mesurables. Il faudra aussi envisager des règles d’accès, d’authentification et des contraintes d’autorisation pour que les agents puissent effectuer des actions au nom d’un utilisateur sans briser la sécurité ou la confidentialité.
Conséquences pratiques pour les éditeurs et développeurs
À partir des observations de LePage, on peut dégager une liste d’actions opérationnelles à envisager dès maintenant pour se préparer à l’environnement agentique :
- Audit de l’indexabilité : vérifier que les pages importantes sont crawlables, que les URL sont stables et que les sitemaps sont à jour.
- Implémentation de données structurées : utiliser JSON-LD pour décrire les entités, leurs relations, et les types de contenu (Article, FAQ, Product, Event…).
- Renforcement de la sémantique : enrichir les contenus avec des synonymes, entités liées, et vocabulaire métier pour améliorer la découvrabilité par des modèles linguistiques.
- Structuration éditoriale : proposer des résumés, des points clés et des chemins de lecture clairs. Favoriser la présentation progressive des informations.
- Amélioration du maillage interne : organiser des clusters thématiques et des liens logiques qui permettent à un agent de « comprendre » le graphe d’autorité du site.
- Exposer des endpoints machine-friendly : quand pertinent, proposer des flux ou API qui fournissent des données nettoyées (par ex. fiches produits en JSON) pour faciliter la réutilisation par des agents.
- Surveillance des signaux de confiance : protéger la réputation du domaine, suivre les backlinks, et maintenir des pages d’information institutionnelle clairement identifiables (à propos, politique éditoriale).
- Tests et validations : utiliser des outils d’inspection (Search Console, outils de test de données structurées) et tester la présentation via des synthétiseurs ou agents existants (Perplexity, chats basés sur Bing/Google) pour observer le rendu.
Ces mesures techniques et éditoriales faciliteront la compréhension et l’exploitation de vos contenus par des agents IA, tout en maintenant de bonnes pratiques SEO pour les utilisateurs humains et les moteurs de recherche classiques.
Sur l’équilibre entre contenu humain et contenu machine
Une question récurrente est : doit-on sacrifier l’expérience humaine au profit d’un formatage machine ? La réponse de LePage, et celle que je partage en tant que consultant SEO, est nuancée : le meilleur résultat vient d’un contenu polyvalent — lisible et utile pour les humains, tout en étant structuré et explicite pour les machines.
Quelques principes pour atteindre cet équilibre :
- Maintenir un langage naturel et accessible pour les lecteurs tout en ajoutant des métadonnées et des micro-structures pour les agents.
- Ne pas multiplier artificiellement des pages uniquement pour capter des requêtes : privilégier des contenus complets mais modulables (sections distinctes que l’on peut réexposer facilement).
- Privilégier la clarté éditoriale : un titre, un résumé, puis des approfondissements ; cette hiérarchie sert à la fois l’utilisateur et l’agent.
- Documenter la valeur ajoutée éditoriale : expliquez pourquoi un contenu est fiable (sources, auteurs, date, méthodologie) — autant d’éléments utiles aux agents pour évaluer la qualité.
En bref : il ne s’agit pas de choisir entre humain et machine, mais d’emprunter des techniques éditoriales et techniques qui servent les deux audiences.
Impacts économiques et éditoriaux
L’apparition d’agents autonomes capables d’agréger et d’agir sur la base d’informations web pose des questions économiques et éditoriales :
- Attribution et visibilité : comment les éditeurs seront-ils crédités lorsqu’un agent synthétise des contenus provenant de multiples sources ? Les signaux d’autorité (métadonnées, liens, mentions explicites) deviennent essentiels pour assurer la traçabilité et la valeur de la source.
- Monétisation : la manière de monétiser le contenu pourrait évoluer si les agents détournent l’utilisateur d’une visite directe vers une interaction déléguée. Il faudra réfléchir à des modèles où la donnée elle-même a de la valeur (licences, API payantes, services premium).
- Qualité éditoriale : la compétition se jouera sur la capacité à produire des contenus de fond, bien structurés et orientés vers des besoins précis (longue traîne). Le volume seul risque de perdre de la valeur face à la pertinence et la granularité.
- Confiance et sécurité : permettre à des agents d’agir (réservation, achat) requiert des mécanismes d’authentification, d’autorisation et des garanties de sécurité et de confidentialité.
Les éditeurs devront donc combiner expertise éditoriale, architecture technique et modèles économiques adaptés pour maintenir la valeur de leur production dans un écosystème où les agents jouent un rôle central.
Aspects techniques avancés à considérer
Pour les développeurs et responsables techniques, quelques points techniques méritent une attention particulière :
- JSON-LD et vocabulaire : standardiser les schémas utilisés, privilégier les types reconnus (Article, FAQPage, Product, HowTo, Organization) et documenter les propriétés critiques (auteur, datePublished, mainEntity).
- Endpoints API : proposer, lorsque cela a du sens, des endpoints REST ou GraphQL qui fournissent un contenu nettoyé et structuré, avec des politiques de cache et des quotas bien définis.
- Content Negotiation : offrir des variantes machine-readable (JSON, RDF) parallèlement aux pages HTML pour faciliter la consommation par des agents sans compromettre l’expérience web humaine.
- Canonicalisation : veiller aux balises canonical nécessaires pour éviter la duplication et indiquer la version de référence d’un contenu.
- Sitemap et découverte : enrichir les sitemaps avec des métadonnées utiles (lastmod, changefreq) et proposer des fichiers indexés séparés pour des contenus destinés à l’usage machine.
- Contrôle d’accès et quotas : anticiper la consommation automatisée en mettant en place des limites, des clés API, des mécanismes d’authentification et des politiques d’usage équitable.
- Tests automatisés : intégrer des validations de données structurées dans vos pipelines CI/CD pour prévenir les erreurs et maintenir la qualité des métadonnées.
Mesurer et suivre l’efficacité
Tester l’impact des optimisations pour agents nécessite des indicateurs adaptés :
- Trafic référent agentique : observer les sources de requêtes et identifier les signes d’indexation ou de réutilisation par des intermédiaires IA (parsing des user-agents, des referers, ou logs d’API).
- Taux d’extraction : mesurer combien de pages ou d’éléments sont extraits via des endpoints ou crawlers spécifiques.
- Positionnement sur longue traîne : suivre les performances sur des requêtes très ciblées et évaluer la visibilité dans des synthèses tests faites par des agents (ex. Perplexity, Bing Chat).
- Engagement post-synthèse : mesurer si des synthèses générées par des agents conduisent à des conversions, visites ultérieures ou interactions sur le site.
- Suivi des mentions et citations : surveiller comment et où le contenu est repris, afin d’évaluer la traçabilité éditoriale et la reconnaissance de la marque.
Conclusion — préparer aujourd’hui pour un futur agentique
Les points développés par James LePage confirment une idée centrale : l’arrivée des agents IA ne change pas nécessairement la nature des signaux qui comptent sur le web, mais elle modifie la façon dont ces signaux sont consommés. Les éditeurs avisés gagneront à :
- conserver et renforcer les fondamentaux du SEO (indexabilité, liens, qualité),
- structurer leurs contenus avec des données structurées, un balisage sémantique propre et des résumés explicites,
- réfléchir à des formats machine-friendly (API, JSON-LD) sans sacrifier l’expérience humaine,
- préparer des politiques d’accès et des signaux d’autorité pour garantir visibilité et attribution lorsque des agents réutilisent leur contenu.
La route vers un web où les agents dialoguent et agissent au nom des utilisateurs demande des adaptations techniques, éditoriales et économiques. Mais ces adaptations sont essentiellement une extension des bonnes pratiques SEO déjà connues — mises à l’épreuve par un nouvel environnement de consommation automatisée.
Son article, intitulé Agents & The New Internet (3/5), contient davantage d’idées pour se préparer à ce futur agentique.
Image principale : Shutterstock/Blessed Stock
Références
Articles connexes
- Checklist d’audit SEO local : 12 étapes pour améliorer votre visibilité en ligne
- Les synthèses générées par l’IA reposent sur FastSearch, pas sur des liens
- Google précise ses directives pour les évaluateurs de la qualité des résultats de recherche : ce qui évolue en septembre 2025
- les cinq différences essentielles à retenir
- Tirez parti de la rédaction par l’IA pour votre stratégie de contenu et votre visibilité dans les résultats de recherche
- les 8 meilleures extensions WhatsApp pour WordPress (testées par mes soins)
- Gemini Enterprise : le nouvel accès à l’IA pour les entreprises
- 5 raisons de choisir le nouveau plugin WordPress d’Internet Archive
