Analyse approfondie et observations récentes sur les données de la recherche Google.
Mes travaux récents indiquent que les données de Google Search Console (ou GSC) sont partiellement incomplètes — environ **75 %** manquantes pour les **impressions** — ce qui rend les décisions basées sur une seule source risquées.

1. De vérité terrain à source incomplète : l’évolution de GSC
Longtemps, la **Google Search Console** a servi de référence fiable pour comprendre ce qui se passe dans les résultats de recherche. Aujourd’hui, plusieurs mécanismes — filtrage pour raisons de confidentialité, impressions issues de **bots**, et la présence d’**AI Overviews** (AIOs) dans les pages de résultats — érodent la fidélité de ces données.
Sans une compréhension claire des traitements appliqués à vos chiffres, vous êtes exposé au risque d’interpréter à tort les rapports fournis par GSC.
L’évolution de la qualité des données SEO n’est pas soudaine : elle s’inscrit dans une tendance longue — disparition des référents de mots-clés, exclusion de certaines fonctionnalités SERP dans les rapports de performance, etc. Mais trois événements récents ont fortement accentué la problématique :
- Janvier 2025 : Google déploie SearchGuard, un mécanisme exigeant l’exécution de JavaScript et des CAPTCHAs avancés pour accéder aux SERP (voir le reportage ci‑dessous pour des détails techniques) — l’objectif étant de mieux distinguer humains et robots.
- Mars 2025 : Google augmente de manière notable le nombre d’AIOs affichés dans les SERP, ce qui, pour de nombreux sites, s’est traduit par une hausse d’**impressions** mais une baisse des **clics** (voir l’étude pointée ici).
- Septembre 2025 : Google retire le paramètre num=100 utilisé par les scrapeurs de SERP pour parcourir plusieurs pages ; cette suppression a durablement modifié la façon dont certains outils agrègent et comptent les **impressions** (plus d’informations ici).
Autrement dit, des mesures ont été prises pour « nettoyer » les sources et protéger la confidentialité, mais le résultat est ambivalent : les chiffres devenus filtrés soulèvent autant de questions qu’ils apportent de réponses.
2. L’omerta de la confidentialité : environ 75 % des **impressions** masquées
Google applique des seuils de confidentialité qui retirent une part significative des **impressions** et des **clics** des rapports détaillés. Une analyse antérieure de Patrick Stox sur un large jeu de données suggérait qu’environ 50 % des données étaient filtrées. J’ai répliqué et étendu l’analyse sur un panel de sites B2B SaaS américains afin d’obtenir une vision comparative.
Méthodologie : comment j’ai mesuré le filtrage
- La Google Search Console expose deux types de données via ses API : l’agrégé (sans dimension « requête »), qui inclut le total réel de **clics** et **impressions**, et le niveau requête (avec la dimension « query ») qui ne retourne que les requêtes dépassant le seuil de confidentialité de Google.
- En comparant le total agrégé avec le total visible au niveau requête, on peut estimer la part filtrée. Exemple : si l’agrégé affiche 4 205 **clics** et que le niveau requête n’en montre que 1 937, alors 2 268 **clics** (53,94 %) ont été masqués.
- L’étude porte sur 10 sites B2B SaaS (environ ~4 millions de **clics** et ~450 millions d’**impressions**), avec des comparaisons sur 30 jours, 90 jours et 12 mois, et un rapprochement des données avec celles obtenues 12 mois auparavant.
Conclusions principales
1. Environ 75 % des impressions sont filtrées.

- Le taux de filtrage des **impressions** est extrêmement élevé : environ trois quarts des **impressions** peuvent être à l’état masqué pour des raisons de confidentialité.
- Sur la période étudiée, ce taux a légèrement diminué (de l’ordre de 2 points de pourcentage par rapport à l’année précédente), mais reste structurellement élevé.
- La variabilité observée est importante : certains sites montrent un filtrage aussi « bas » que 59,3 %, d’autres atteignent 93,6 %.
2. Environ 38 % des clics sont également filtrés (soit ~5 % de moins qu’il y a 12 mois).

- Le filtrage des **clics** est moins discuté, mais significatif : près d’un tiers à 40 % des **clics** peuvent ne pas apparaître dans les rapports visibles par requête.
- Il existe une large plage d’extrêmes : le filtrage des **clics** peut être aussi faible que 6,7 % ou culminer à 88,5 % selon le site et la période.
Le message clef : même si le taux de données masquées s’améliore modérément, la perte de granularité (surtout pour les **impressions**) demeure si importante qu’elle compromet la fiabilité d’analyses fondées uniquement sur GSC.
3. 2025 : une année d’**impressions** gonflées

Les douze derniers mois montrent une évolution erratique des métriques dans GSC :
- En mars 2025, la montée en puissance des **AIOs** a coïncidé avec une hausse d’**impressions** d’environ 58 % sur les sites analysés.
- En juillet‑août, on observe un pic supplémentaire : +25,3 % puis +54,6 %, apparemment lié au contournement de SearchGuard par certains outils de scraping, permettant aux **bots** de capturer les **AIOs** et d’augmenter artificiellement les comptes d’**impressions**.
- En septembre, la suppression du paramètre num=100 a provoqué une diminution d’environ 30,6 % des **impressions** pour ces mêmes sources de données.

À date récente :
- Les **clics** ont chuté de 56,6 % depuis mars 2025 sur le panel analysé.
- Les **impressions** se sont stabilisées (baisse moyenne d’environ −9,2 % depuis le pic).
- Les **AIOs** affichent une baisse d’environ 31,3 % après les ajustements successifs de Google et l’action des scrapeurs.
Le lien de corrélation entre la présence d’**AIOs** et la baisse des **clics** est fort (coefficient ≈ 0,608) : cela confirme une relation logique — les réponses enrichies fournies par Google détournent des **clics** vers le contenu intégré dans les SERP. Toutefois, établir une causalité précise nécessite une analyse plus fine (par exemple, mesurer la variation du **CTR** d’une requête avant et après l’apparition d’un **AIO**).
Comment distinguer une baisse de **clics** due à un **AIO** d’un simple affaiblissement de contenu ? Recherchez des corrélations temporelles :
- Combattez l’ambiguïté en croisant la date de déploiement des **AIOs** (ou des changements Google) avec la date de la chute d’**clics** pour vos requêtes.
- Si les positions restent stables mais que les **clics** chutent subitement, cela signale une cannibalisation par un **AIO** plutôt qu’une détérioration organique du contenu.
- Considérez la nature des requêtes : les requêtes informationnelles sont plus susceptibles d’être affectées par les **AIOs** que les requêtes transactionnelles.
4. Recrudescence des **impressions** liées aux **bots**

Les indices montrent un retour des scrapeurs de SERP. Pour estimer la part d’**impressions** probablement générées par des **bots**, on peut filtrer les données GSC afin d’isoler les requêtes très longues (par ex. ≥ 10 mots) apparaissant plusieurs fois sans générer de **clics** — un schéma peu probable dans une navigation humaine courante.
Logique et méthode d’estimation
- Hypothèse : Il est rare qu’un utilisateur tape exactement la même requête de 5+ mots plusieurs fois dans un laps de temps court.
- Filtre : Requêtes ≥ 10 mots avec >1 **impression** mais 0 **clic**.
- Limite : Cette approche peut inclure quelques requêtes humaines légitimes (questions techniques très précises, par ex.), mais fournit une estimation directionnelle de l’activité des scrapeurs.
Résultats observés :
- Les requêtes longues (≥ 10 mots) avec >1 **impression** ont augmenté de ~25 % sur 180 jours dans l’échantillon.
- La part estimée d’**impressions** attribuables à des **bots** varie entre 0,2 % et 6,5 % sur 30 jours.
Pour un site SaaS moyen, attendez‑vous à une fourchette usuelle de **bot impressions** de 1–3 %. Les sites avec une large documentation, des guides techniques ou des pages générées automatiquement (programmatic SEO) peuvent atteindre 4–6 %.
Impact pratique : ces **bot impressions** n’altèrent pas vos positions réelles sur Google, mais elles gonflent vos **impressions** reportées — ce qui peut fausser vos priorités si vous optimisez principalement pour des requêtes artificiellement amplifiées par des scrapeurs.
5. Le dispositif de mesure est défaillant : pourquoi vous ne devez pas vous fier uniquement à GSC
Prendre des décisions stratégiques uniquement à partir de la Google Search Console est aujourd’hui risqué pour plusieurs raisons :
- Environ trois quarts des **impressions** sont absentes du niveau requête pour des motifs de confidentialité.
- Les **bot impressions** peuvent représenter jusqu’à 6,5 % des données rapportées.
- Les **AIOs** ont un effet mesurable de réduction des **clics** (plusieurs dizaines de pourcents sur certains segments).
- Le comportement des internautes et les formats de présentation des résultats évoluent structurellement (moteurs de réponse, extraits riches, etc.).
La bonne nouvelle : c’est une opportunité méthodologique. Les équipes qui construisent une couche de mesure robuste — reposant sur des scripts de test d’échantillonnage, des calculs de part de **bot**, et une triangulation multi‑source — disposent d’un avantage compétitif significatif.
Principes pour renforcer votre mesure (sans recette magique)
- Ne misez pas sur une seule source. Combinez GSC avec des données serveur, les logs d’accès, Google Analytics (ou alternatives), et des outils de scraping contrôlé pour valider les **impressions** et **clics** observés.
- Mettez en place des métriques de qualité : taux de requêtes masquées, estimation du share de **bots**, ratio **clics**/impressions corrigé (ajusté des impressions suspectes), et suivi des changements d’affichage (présence d’**AIOs**, featured snippets, etc.).
- Automatisez des contrôles périodiques (scripts qui comparent agrégé vs. requête, détectent les requêtes longues récurrentes, identifient des variations anormales de CTR par segment).
- Documentez les événements externes (déploiements Google, modifications d’indexation, suppression de paramètre comme num=100) et corrélez ces événements avec les anomalies observées.
- Adoptez une granularité temporelle : analysez vos données en fenêtres courtes (7–30 jours) et longues (90–365 jours) pour distinguer tendances lentes et chocs ponctuels.
Exemples d’analyses pratiques
- Pour détecter l’effet d’un AIO : identifiez les requêtes informationnelles ayant conservé leur position moyenne mais montrant une chute soudaine de **clics** ; vérifiez si, au même moment, Google a ajouté un résumé ou une réponse enrichie pour ces requêtes.
- Pour estimer l’impact des **bots** : calculez la proportion de requêtes ≥ 10 mots avec >1 **impression** et 0 **clic** month over month ; si cette proportion augmente, suspectez une adaptation des scrapeurs.
- Pour corriger des priorités d’optimisation : si une page a beaucoup d’**impressions** mais un CTR très faible en raison d’**AIOs** ou d’**impressions** bot, réévaluez l’allocation de ressources — priorisez plutôt des pages avec indicateurs humains (trafic serveur, conversions) solides.
Image à la une : Paulo Bobita/Search Engine Journal
