Une étude menée par Hostinger a examiné 66 milliards de requêtes émanant de robots sur plus de 5 millions de sites web et révèle que les **crawlers IA** empruntent deux trajectoires distinctes.
D’un côté, les **bots d’entraînement** voient leur accès au web fortement réduit à mesure que de nombreux sites les bloquent. De l’autre, les **bots assistants** — ceux qui alimentent des outils de recherche basés sur l’**IA** comme ChatGPT — élargissent leur périmètre et atteignent davantage de pages.
L’analyse s’appuie sur des logs de serveur anonymisés collectés sur trois fenêtres de six jours et s’appuie sur la classification du projet AI.txt pour catégoriser les robots.
Les bots d’entraînement se voient de plus en plus bloqués
Le résultat le plus frappant porte sur GPTBot, le robot d’OpenAI destiné à la collecte de données pour l’entraînement des modèles. Sa couverture de sites est passée d’environ 84 % à seulement 12 % au cours de la période étudiée.
Parmi les robots classés « entraînement », l’agent ExternalAgent de Meta ressort comme celui qui a généré le plus grand volume de requêtes dans les données de Hostinger. Dans l’ensemble, ce groupe de robots d’entraînement présente les déclins les plus nets, reflétant en partie la multiplication des règles de blocage mises en place par les propriétaires de sites.
Ces tendances corroborent d’autres observations publiques : par exemple, des initiatives sectorielles montrent qu’une part importante des éditeurs d’actualité applique désormais des directives de blocage contre au moins un robot d’entraînement. De plus, des bilans techniques de fournisseurs d’infrastructure ont identifié des robots comme GPTBot, ClaudeBot ou CCBot comme étant fréquemment explicitement bloqués sur des domaines de premier plan.
Autrement dit, les chiffres quantifient et confirment ce que nombre d’analyses avaient déjà laissé entrevoir : la couverture décroissante de la catégorie entraînement se traduit principalement par des directives de refus mises en place par les sites, même lorsque le volume total de requêtes générées par ces robots reste élevé.
Les bots assistants suivent une logique opposée
En contraste, les robots conçus pour servir des requêtes orientées utilisateur — souvent appelés **bots assistants** — montrent une progression de leur présence. Ces robots effectuent des recherches ciblées pour fournir une réponse ou une synthèse à un utilisateur final.
Parmi eux, l’agent d’OpenAI destiné à la fonctionnalité de recherche de ChatGPT, identifié comme OAI-SearchBot, a atteint une couverture moyenne de 55,67 % dans l’échantillon. D’autres acteurs importants voient aussi leur empreinte augmenter : le robot de TikTok a grimpé à 25,67 % de couverture avec 1,4 milliard de requêtes, tandis que le robot d’Apple a été observé sur 24,33 % des sites considérés.
La nature « déclenchée par l’utilisateur » et la finalité orientée vers la découverte ou l’accès direct à une information expliquent en partie pourquoi les propriétaires de sites traitent différemment ces robots par rapport aux robots d’entraînement. Là où les premiers n’apportent pas seulement une extraction de données, mais peuvent aussi renvoyer du trafic ou améliorer la visibilité d’un contenu dans des interfaces de recherche IA, les seconds sont perçus comme prélevant de la valeur sans retour direct.
Les moteurs classiques restent relativement stables
Les robots des moteurs de recherche traditionnels ont, quant à eux, maintenu une stabilité sur la période étudiée. Le robot principal de Google, Googlebot, a conservé une couverture moyenne proche de 72 %, avec environ 14,7 milliards de requêtes enregistrées. Le robot de Microsoft, Bingbot, est resté stable autour de 57,67 % de couverture.
Cette stabilité contraste avec les évolutions observées dans les catégories liées à l’**IA**. Elle s’explique en partie par la position particulière de ces robots : bloquer Googlebot peut avoir des conséquences directes sur la visibilité organique d’un site dans les résultats de recherche classiques, ce qui rend les propriétaires de sites plus prudents avant d’appliquer des refus globaux.
Les outils SEO voient leur portée diminuer
Les crawlers utilisés par les outils d’analyse SEO et marketing ont connu une érosion de leur couverture. Parmi eux, Ahrefs demeure celui qui conserve la plus grande empreinte avec environ 60 % de couverture moyenne, mais la catégorie dans son ensemble s’est réduite.
Hostinger met en avant deux causes principales : d’une part, ces outils orientent de plus en plus leurs explorations vers des sites déjà engagés dans des démarches SEO actives ; d’autre part, les administrateurs web bloquent davantage ces agents, souvent en raison de la consommation de ressources qu’ils entraînent.
Le sujet des coûts liés au trafic généré par les robots est loin d’être théorique : certaines plateformes d’hébergement ont documenté des volumes de requêtes massifs émanant de robots d’IA, provoquant des coûts de bande passante ou de calcul significatifs pour des éditeurs qui n’avaient pas anticipé ce phénomène.
Pourquoi ces distinctions ont de l’importance
Les données publiées illustrent une dichotomie qui s’est accentuée : les opérateurs de sites différencient désormais clairement les robots qu’ils acceptent de laisser accéder à leur contenu et ceux qu’ils préfèrent bloquer.
La raison essentielle tient à la finalité des robots. Les **bots d’entraînement** aspirent du contenu pour améliorer des modèles d’IA sans nécessairement renvoyer de trafic ou d’avantages mesurables aux sites sources. Les **bots assistants**, eux, récupèrent des informations pour répondre à des requêtes utilisateurs et peuvent, par conséquent, exposer le contenu d’un site au sein d’expériences de recherche basées sur l’**IA**.
Pour beaucoup de gestionnaires de sites, la stratégie la plus raisonnable consiste à trouver un équilibre : empêcher l’ingestion de masse par des robots d’entraînement tout en autorisant des robots assistants ciblés susceptibles d’améliorer la découverte et la visibilité des contenus dans les interfaces alimentées par l’**IA**.
Regarder vers l’avenir : recommandations et points à surveiller
Les éditeurs et administrateurs web sont encouragés à examiner attentivement les logs de serveur pour comprendre qui consulte leurs pages et pourquoi. Hostinger recommande de baser les choix de blocage sur des objectifs concrets : limiter la charge serveur, protéger la propriété intellectuelle, ou favoriser la découverte via des assistants.
OpenAI, par exemple, conseille d’autoriser OAI-SearchBot si l’objectif est d’apparaître dans les résultats de recherche de ChatGPT, même si l’on souhaite refuser l’accès à GPTBot pour l’entraînement des modèles. La documentation d’OpenAI distingue ces rôles et précise le respect des règles du fichier robots.txt par certains agents : documentation OpenAI.
Il est également important de noter que certains composants des systèmes d’assistance peuvent agir sous des identités différentes en fonction du contexte (navigation initiée par l’utilisateur vs collecte automatique), et que la gouvernance via robots.txt n’est pas toujours appliquée de manière uniforme pour tous les agents.
Stratégies techniques pour gérer les robots
Plusieurs approches techniques permettent de piloter précisément l’accès des robots :
- Utiliser un fichier robots.txt soigné pour émettre des directives claires (Disallow/Allow) aux agents reconnus.
- Mettre en place des règles serveur (par exemple via nginx ou Apache) pour bloquer ou limiter les user-agents identifiés comme indésirables.
- Appliquer des limitations de débit (rate limiting) ou des contrôles au niveau du CDN pour réduire l’impact sur la bande passante et le CPU.
- Surveiller et analyser les logs afin de détecter des user-agents non conformes ou usurpés et d’ajuster les règles en conséquence.
- Considérer l’utilisation d’entêtes et des directives d’indexation fines (meta robots) sur des pages sensibles.
Cependant, chaque solution a des compromis. Le blocage via robots.txt repose sur la coopération des agents ; un bot malveillant ou mal configuré peut l’ignorer. Les règles serveur et CDN peuvent protéger la capacité, mais elles risquent aussi d’empêcher des agents légitimes et bénéfiques d’accéder au contenu si elles sont trop strictes.
Exemples pratiques pour affiner votre configuration
Pour les administrateurs souhaitant une gestion granulée, voici quelques pratiques courantes et neutres à considérer :
- Maintenir un journal des identifiants de bots autorisés et vérifier régulièrement leur correspondance avec les sources officielles (par ex. pages développeurs d’OpenAI, Meta, etc.).
- Surveiller la fréquence et la distribution des requêtes : un robot qui envoie des milliers de requêtes par seconde sur des pages statiques peut justifier un filtrage ou un throttling.
- Déployer des règles temporaires lors de pics d’activité inhabituels pour protéger l’infrastructure sans modifier de façon permanente les politiques d’indexation.
- Mettre en place des environnements de test où l’on peut simuler l’impact de différents robots avant d’appliquer des règles sur la production.
Conséquences pour le référencement et la découverte via IA
La décision d’autoriser ou non certains robots a des répercussions sur la visibilité. Autoriser des **bots assistants** peut accroître les chances que des extraits de votre contenu apparaissent dans des réponses générées par l’**IA**, ce qui peut constituer une forme nouvelle de visibilité, distincte du trafic organique traditionnel.
À l’inverse, bloquer des robots d’entraînement peut protéger la propriété intellectuelle et réduire l’usage non désiré de contenus, mais cela n’empêche pas nécessairement d’être pris en compte par des agents qui respectent d’autres méthodes d’indexation ou qui s’appuient sur des caches tiers.
Enfin, les robots SEO traditionnels restent un facteur majeur pour maintenir une présence dans les moteurs de recherche classiques. Le maintien d’un accès adapté à des robots comme Googlebot ou Bingbot demeure un élément central de la stratégie de référencement pour la plupart des sites.
Aspects juridiques et éthiques
Au-delà des questions techniques, il existe des dimensions juridiques et éthiques. La collecte massive de contenus par des robots d’entraînement soulève des interrogations autour des droits d’auteur, du respect des conditions de service des plateformes et de la transparence des usages effectués par les acteurs qui exploitent ces données.
De leur côté, les fournisseurs de modèles et de services d’**IA** cherchent souvent à clarifier leurs pratiques — quelles données sont utilisées, comment elles sont stockées et quelles protections sont mises en place — mais les réponses varient selon les entreprises et les juridictions.
Les propriétaires de contenu doivent donc évaluer non seulement l’impact opérationnel (charge serveur, coût de bande passante), mais aussi les implications légales et réputationnelles d’une exposition non souhaitée de leurs ressources numériques.
Mesures de surveillance et d’audit
Pour piloter efficacement la situation à moyen et long terme, il est recommandé d’implanter un processus continu de surveillance :
- Audits réguliers des logs pour identifier les nouveaux user-agents et les comportements atypiques.
- Classement des agents en catégories (moteurs classiques, outils SEO, bots assistants, bots d’entraînement, malveillants) et mise à jour des politiques en conséquence.
- Tests périodiques pour vérifier que les directives robots.txt et les règles serveur produisent l’effet attendu sans nuire aux robots légitimes.
- Documentation transparente des règles appliquées pour faciliter les revues internes et la conformité réglementaire.
Synthèse et points clés à retenir
Les éléments observés par Hostinger confirment une évolution structurante de l’écosystème web :
- la couverture des **bots d’entraînement** chute significativement, principalement en raison des blocages opérés par les sites ;
- les **bots assistants** augmentent leur empreinte et constituent une voie de découverte distincte qui peut favoriser la visibilité des contenus dans des interfaces basées sur l’**IA** ;
- les robots traditionnels des moteurs de recherche restent stables et conservent un rôle stratégique pour le référencement classique ;
- les outils d’analyse SEO se heurtent à des limites de couverture, en partie liées aux priorités des éditeurs et aux enjeux de ressources.
En pratique, la stratégie la plus pertinente dépendra des objectifs propres à chaque site : protection d’actifs numériques, optimisation de la performance serveur, ou recherche d’une visibilité accrue dans les nouveaux canaux de découverte portés par l’**IA**.
Enfin, pour ceux qui souhaitent approfondir la distinction technique entre agents et leurs comportements, la documentation officielle d’OpenAI propose des précisions sur le rôle de OAI-SearchBot, la manière dont il gère l’inclusion dans les résultats de ChatGPT, et ses interactions avec les règles du fichier robots.txt : documentation OpenAI.
Featured Image: BestForBest/Shutterstock
Articles connexes
- Le référencement n’est pas une tactique ponctuelle, c’est l’infrastructure pour la croissance.
- google évite la scission alors que le juge interdit les accords exclusifs le plaçant comme moteur par défaut
- TikTok franchit le cap des 200 millions d’utilisateurs en Europe
- WooCommerce ajoute des fonctionnalités d’IA capables d’agir de façon autonome
- quelle est son utilité et quel est son coût réel ?
- Microsoft Copilot : moteur de recherche alimenté par l’IA, références enrichies et navigation plus fluide
- WordPress Explique Comment l’Intelligence Artificielle Pourrait Avoir un Rôle Renforcé dans l’Édition Web.
- les précisions de Google au sujet des erreurs noindex fantômes dans la Search Console
