Le Web Almanac est un rapport annuel qui transforme l’ensemble de données de l’HTTP Archive en observations exploitables, en associant des mesures à grande échelle et l’analyse d’experts du secteur. Il offre une photographie chiffrée et thématique de l’état du web et des pratiques techniques autour du SEO, des performances, de l’accessibilité et d’autres disciplines connexes.
Pour comprendre ce que le rapport 2025 révèle spécifiquement sur les pratiques actuelles en SEO, j’ai échangé avec l’un des auteurs de la mise à jour du chapitre dédié au SEO, Chris Green, expert reconnu avec plus de quinze ans d’expérience dans le domaine.
Au fil de notre entretien, Chris a partagé plusieurs éléments inattendus : l’adoption émergente des fichiers llms.txt, le rôle souvent sous-estimé des plateformes de gestion de contenu, ainsi que des constats tirés des données qui échappent au regard quotidien des praticiens. Ci-dessous vous trouverez un résumé approfondi de cet échange, intégrant mises en perspective, implications techniques et conséquences stratégiques.
« Je pense que les données [du Web Almanac] m’ont montré qu’il y a encore énormément de choses qui dysfonctionnent. Le web est vraiment désordonné. Vraiment. »
La gestion des robots dépasse la simple opposition « Google oui / Google non »
Historiquement, la gestion des robots se résumait souvent à un choix binaire : autoriser ou interdire l’accès aux robots de Google. Cette logique se complique aujourd’hui avec la diversification des acteurs qui crawlent et indexent le web, en particulier ceux liés aux systèmes d’IA.
Notre discussion a débuté autour de l’évolution de l’utilisation des fichiers robots.txt comme moyen d’exprimer des intentions concernant l’accès par des crawlers liés à l’IA. Ces fichiers ne servent plus uniquement à distinguer soins-disant les moteurs de recherche classiques ; ils deviennent des instruments pour gérer une multitude d’agents aux finalités variées.
Chris insiste sur deux points essentiels. D’une part, il est désormais crucial d’identifier précisément quels crawlers accèdent à un site, quelles sont leurs finalités (indexation, entraînement de modèles, récupération de données transactionnelles, etc.) et quelle est la portée des blocages : interdire l’accès à certains bots peut avoir des conséquences bien plus lourdes que de simplement économiser de la bande passante. D’autre part, cela suppose que les plateformes et outils tiers respectent effectivement ces signaux. Or, l’écosystème n’est pas homogène ; certains agents n’honorent pas les recommandations, et les questions éthiques liées au scraping et à l’entraînement des modèles AI restent largement ouvertes.
Le rapport met en évidence une pratique symptomatique : l’utilisation de fichiers de directives comme des marqueurs d’intention, mais sans garantie d’application universelle. Cela amène les équipes SEO à penser en termes de gouvernance des accès, tant sur l’aspect technique que sur la communication interne avec les parties prenantes de l’entreprise — product owners, équipes produit, juridiques ou éditoriales.
« Il ne suffit pas de comprendre l’impact de chaque crawler ; il faut aussi savoir le communiquer en interne. Si une équipe veut restreindre au maximum le crawling pour réduire les coûts, cela peut nuire gravement à votre visibilité auprès des systèmes d’IA. »
De même, un département éditorial peut légitimement souhaiter protéger son contenu contre le scraping systématique. Le rôle du praticien SEO devient donc double : maîtriser techniquement les accès (paramètres serveur, en-têtes, API, robots.txt, etc.) et argumenter les conséquences opérationnelles et commerciales de ces choix auprès des décideurs.
En pratique, cela signifie renforcer la surveillance des logs, mettre en place une catégorisation fine des agents qui visitent un site, et développer des politiques d’accès alignées avec les objectifs business. À mesure que de nouveaux crawlers apparaissent et que les usages se diversifient, la simple opposition « laisser Google » ou « bloquer tout » n’est plus adaptée.
Adoption de llms.txt : faible mais révélatrice
La première donnée surprenante du rapport porte sur le fichier llms.txt. Ce fichier proposé comme standard pour indiquer les politiques d’accès des modèles de langage a été repéré sur environ 2 % des sites de l’échantillon étudié.
Le sujet est controversé : certains spécialistes estiment que llms.txt n’apporte pas de valeur réelle tant que les fournisseurs majeurs de modèles n’annoncent pas de compatibilité. Quelques outils et extensions (par exemple des plugins bien connus) ont introduit le support du fichier, ce qui explique en partie la présence observée dans les mesures. En l’absence d’une adoption explicite par des acteurs comme OpenAI ou d’autres fournisseurs de modèles à large échelle, le fichier reste pour l’instant davantage symbolique que fonctionnel.
Cependant, Chris souligne qu’il a observé dans certains logs la consultation effective de ces fichiers par des agents d’IA. Dans certains cas très ponctuels, ces fichiers ont été référencés comme source ou point de contrôle. L’interprétation qu’il en tire est prudente : plutôt qu’un avantage compétitif déterminant, llms.txt peut offrir une forme de « parité » — une manière de clarifier l’intention d’un site vis-à-vis des agents d’IA sans pour autant garantir une protection ou un gain d’exposition.
« Google a répété qu’il ne compte pas exploiter llms.txt. Sans engagement clair des acteurs majeurs comme OpenAI, ce fichier risque de rester un geste symbolique. »
Pour les responsables techniques, la question n’est donc pas seulement d’ajouter un fichier par précaution, mais d’intégrer ce type d’artefact dans une stratégie d’accès globale : surveillance des requêtes, règles de gestion des API, contrats de données, mentions légales et, lorsque possible, négociation des accès avec des fournisseurs d’indexation ou d’entraînement.
Visibilité pour les moteurs vs visibilité pour les machines : différent mais lié
Je lui ai demandé ensuite comment concilier l’optimisation pour les moteurs de recherche classiques et l’optimisation pour les systèmes de consommation de contenu par IA. Sa réponse met en lumière un recouvrement important, mais avec des différences notables.
Chris est d’avis qu’il existe « un chevauchement significatif » entre ce que faisait le SEO traditionnel et les exigences émergentes des systèmes d’IA. Les principes fondamentaux — structuration de l’information, qualité des signaux techniques, accessibilité du contenu pour les crawlers — restent pertinents. Cependant, la manière dont les contenus sont interprétés, récupérés et générés par des modèles diffère : ces systèmes peuvent privilégier des métadonnées, des flux structurés ou des extraits précis plutôt que la page HTML complète.
Autrement dit, l’objectif ne change pas complètement : il faut toujours rendre l’information compréhensible et accessible. Mais les points d’optimisation se déplacent partiellement vers des formats et des canaux différents. Par exemple, la gestion des flux structurés, des feeds produits et des API devient plus centrale lorsque des interfaces fermées ou des assistants génèrent des réponses sans renvoyer systématiquement vers le site.
« Le protocole universel de commerce de Google ou l’affichage direct d’éléments issus de fenêtres Gemini modifient la distribution. Le site web peut être mis hors du chemin transactionnel, mais l’information à optimiser reste nécessaire — elle est simplement à un autre endroit. »
En conséquence, les équipes SEO devront étendre leur boîte à outils : maintenir la performance et la crawlabilité, tout en développant une stratégie pour les flux structurés, les API et les formats machine-friendly (par exemple JSON-LD, microdata, protocoles commerce universels). L’enjeu est d’assurer que les données pertinentes soient disponibles et fiables pour les systèmes qui consomment l’information, qu’il s’agisse d’un moteur traditionnel ou d’un agent conversationnel.
Les plateformes CMS influencent le web plus qu’on ne le pense
Une des révélations les plus marquantes du Web Almanac 2025 est l’ampleur du rôle des plateformes de gestion de contenu (CMS) et des éditeurs d’outils. Leur design par défaut et leurs choix techniques ont un effet de masse sur l’état du tech SEO du web.
Chris admet ne pas avoir pleinement mesuré ce niveau d’influence : solutions comme Shopify, Wix, WordPress et d’autres façonnent des comportements et des configurations par défaut qui finissent par se propager à des millions de sites. Lorsqu’un CMS implémente (ou pas) correctement des balises, des sitemaps, la gestion des canonical, des formats structurés ou la configuration des fichiers de cache, cela devient un standard implicite pour une portion importante du web.
Cette constatation a plusieurs implications pratiques :
- Pour un consultant SEO, agir sur un grand nombre de sites exige d’influencer les fournisseurs de CMS et les créateurs d’outils plutôt que d’intervenir isolément sur des domaines uniques.
- Les sites qui investissent dans une implémentation technique rigoureuse au-delà des standards par défaut peuvent obtenir des gains significatifs par rapport à la majorité qui reste conforme aux paramètres natifs de la plateforme.
- Lorsque les pratiques recommandées évoluent (par exemple autour des formats pour IA), la vitesse d’adoption est fortement corrélée à l’intégration de ces changements dans les CMS populaires.
Chris insiste sur la réalité suivante : les actions d’un petit nombre d’acteurs techniques (éditeurs de plateformes, développeurs de plugins) ont un effet démultiplicateur sur la qualité globale du web. Si l’objectif est d’améliorer l’état du SEO à l’échelle sectorielle, la tactique la plus efficace peut être de travailler directement avec ces éditeurs pour orienter les priorités de développement.
« Beaucoup de SEOs pensent que Google leur doit quelque chose parce qu’ils « entretiennent » l’internet. Nous faisons le travail technique, mais notre influence au niveau industriel est limitée à moins d’agir sur les fournisseurs de plateformes. Le Web Almanac m’a rappelé à quel point la toile est cassée à des endroits que l’on n’imaginait pas. »
En résumé, les équipes qui comprennent le fonctionnement et les limitations des principaux CMS peuvent mieux prioriser leurs efforts : optimiser ce qu’elles contrôlent directement et tenter d’influencer les acteurs qui structurent massivement le web.
Les agents IA automatisés ne remplacent pas l’expertise, mais suppriment les mauvais processus
La discussion s’est conclue sur le thème des agents d’IA et de l’automatisation des workflows. Chris souligne une distinction fondamentale : les agents sont fréquemment mal compris parce que le terme recouvre des réalités diverses — assistants autonomes, scripts orchestrés, pipelines d’automatisation, etc.
Son observation centrale est que les agents ne substituent pas le jugement humain ; ils accélèrent les tâches répétitives. Beaucoup de processus en SEO consistent en collecte, nettoyage et mise en forme de données — des activités particulièrement adaptées à l’automatisation. Là où la valeur humaine persiste, c’est dans la conception des processus, l’interprétation stratégique et l’adaptation contextuelle des recommandations générées par les machines.
Chris estime qu’à un stade initial, des agents bien construits peuvent automatiser entre 60 et 80 % du travail opérationnel — l’équivalent d’un stagiaire très efficace. Mais pour que ces gains soient actionnables, il faut encore que l’expertise humaine transforme les sorties automatiques en décisions exploitables adaptées à la spécificité d’une entreprise ou d’un marché.
Il met en garde contre un piège fréquent : automatiser des processus mal conçus revient à produire « de la médiocrité à l’échelle ». Avant d’automatiser, il faut cartographier, simplifier et corriger les workflows. L’automatisation doit être un levier d’amélioration, pas un miroir grossissant des défauts existants.
« Comprenez le processus que vous essayez d’optimiser. Si le processus est mauvais, vous ne faites que créer une machine à produire de la médiocrité à grande échelle. »
Pour les professionnels, la stratégie recommandée consiste à construire un noyau automatisable (les 80 %) et à consacrer l’apport humain aux 20 % restants, là où la logique métier et le jugement stratégique font la différence. Ceux qui acceptent et améliorent les workflows avec l’IA auront probablement une plus grande longévité professionnelle que ceux qui rejettent ces outils.
S’engager avec la complexité pour rester pertinent
Les enseignements du Web Almanac 2025 ne signifient pas la disparition du SEO, mais plutôt une extension et une complexification du rôle. Les fondamentaux — crawlability, propreté technique et qualité du contenu — restent d’actualité, mais s’insèrent désormais dans un écosystème plus vaste, influencé par des agents d’IA, des protocoles de flux, des systèmes fermés et des choix de CMS.
Les opportunités subsistent pour ceux qui maîtrisent la pile technique et comprennent les points de contact entre les systèmes : savoir où et comment les contenus sont consommés, quelles métadonnées sont prioritaires pour les générateurs de réponses, et comment les flux structurés peuvent être optimisés pour la consommation machine. Là où la majorité des sites ont des implémentations médiocres, une bonne exécution technique peut générer un avantage différentiel significatif.
Autre point majeur : l’automatisation est utile quand elle accélère des processus bien conçus ; elle échoue quand elle se contente de répliquer des pratiques inefficaces. Les compétences qui garderont de la valeur sont celles qui mêlent design de processus, compétence analytique et compréhension du contexte business. En bref, la future pertinence du rôle repose sur la capacité à combiner savoir-faire technique et pensée systémique.
Une dernière précision pratique : l’analyse des logs, la catégorisation des agents, la gestion de flux structurés (feeds), l’application cohérente des fichiers de directives (robots.txt, llms.txt), et la collaboration avec les équipes produit et éditeurs de CMS constituent aujourd’hui les principaux leviers opérationnels pour naviguer dans cet environnement.
Entretien vidéo complet avec Chris Green (intégré ci-dessous) :
Remerciements à Shelley Walsh pour la modération de la discussion et à Chris Green pour ses analyses.
Ressources complémentaires :
- Web Almanac 2025 — données et chapitres : https://almanac.httparchive.org/en/2025/
- Profil LinkedIn de Chris Green : https://www.linkedin.com/in/chrisgreenseo/
Image à la une : Shelley Walsh / Search Engine Journal
