Ben DAVAKAN

Vous êtes au bon endroit pour concrétiser vos ambitions sur le web. Parlons-en dès maintenant.

Il manque 75 % des données dans la Search Console

Il manque 75 % des données dans la Search Console

Il manque 75 % des données dans la Search Console

Il manque 75 % des données dans la Search Console

Sommaire

Analyse approfondie et observations récentes sur les données de la recherche Google.

Mes travaux récents indiquent que les données de Google Search Console (ou GSC) sont partiellement incomplètes — environ **75 %** manquantes pour les **impressions** — ce qui rend les décisions basées sur une seule source risquées.

Google filtre les trois quarts des **impressions** pour le mot « privacy », tandis que l’inflation liée aux **bots** et les **AIOs** déforment le reste. (Crédit image : Kevin Indig)

1. De vérité terrain à source incomplète : l’évolution de GSC

Longtemps, la **Google Search Console** a servi de référence fiable pour comprendre ce qui se passe dans les résultats de recherche. Aujourd’hui, plusieurs mécanismes — filtrage pour raisons de confidentialité, impressions issues de **bots**, et la présence d’**AI Overviews** (AIOs) dans les pages de résultats — érodent la fidélité de ces données.

Sans une compréhension claire des traitements appliqués à vos chiffres, vous êtes exposé au risque d’interpréter à tort les rapports fournis par GSC.

L’évolution de la qualité des données SEO n’est pas soudaine : elle s’inscrit dans une tendance longue — disparition des référents de mots-clés, exclusion de certaines fonctionnalités SERP dans les rapports de performance, etc. Mais trois événements récents ont fortement accentué la problématique :

  • Janvier 2025 : Google déploie SearchGuard, un mécanisme exigeant l’exécution de JavaScript et des CAPTCHAs avancés pour accéder aux SERP (voir le reportage ci‑dessous pour des détails techniques) — l’objectif étant de mieux distinguer humains et robots.
  • Mars 2025 : Google augmente de manière notable le nombre d’AIOs affichés dans les SERP, ce qui, pour de nombreux sites, s’est traduit par une hausse d’**impressions** mais une baisse des **clics** (voir l’étude pointée ici).
  • Septembre 2025 : Google retire le paramètre num=100 utilisé par les scrapeurs de SERP pour parcourir plusieurs pages ; cette suppression a durablement modifié la façon dont certains outils agrègent et comptent les **impressions** (plus d’informations ici).

Autrement dit, des mesures ont été prises pour « nettoyer » les sources et protéger la confidentialité, mais le résultat est ambivalent : les chiffres devenus filtrés soulèvent autant de questions qu’ils apportent de réponses.

2. L’omerta de la confidentialité : environ 75 % des **impressions** masquées

Google applique des seuils de confidentialité qui retirent une part significative des **impressions** et des **clics** des rapports détaillés. Une analyse antérieure de Patrick Stox sur un large jeu de données suggérait qu’environ 50 % des données étaient filtrées. J’ai répliqué et étendu l’analyse sur un panel de sites B2B SaaS américains afin d’obtenir une vision comparative.

Méthodologie : comment j’ai mesuré le filtrage

  • La Google Search Console expose deux types de données via ses API : l’agrégé (sans dimension « requête »), qui inclut le total réel de **clics** et **impressions**, et le niveau requête (avec la dimension « query ») qui ne retourne que les requêtes dépassant le seuil de confidentialité de Google.
  • En comparant le total agrégé avec le total visible au niveau requête, on peut estimer la part filtrée. Exemple : si l’agrégé affiche 4 205 **clics** et que le niveau requête n’en montre que 1 937, alors 2 268 **clics** (53,94 %) ont été masqués.
  • L’étude porte sur 10 sites B2B SaaS (environ ~4 millions de **clics** et ~450 millions d’**impressions**), avec des comparaisons sur 30 jours, 90 jours et 12 mois, et un rapprochement des données avec celles obtenues 12 mois auparavant.

Conclusions principales

1. Environ 75 % des impressions sont filtrées.

Image Credit: Kevin Indig
  • Le taux de filtrage des **impressions** est extrêmement élevé : environ trois quarts des **impressions** peuvent être à l’état masqué pour des raisons de confidentialité.
  • Sur la période étudiée, ce taux a légèrement diminué (de l’ordre de 2 points de pourcentage par rapport à l’année précédente), mais reste structurellement élevé.
  • La variabilité observée est importante : certains sites montrent un filtrage aussi « bas » que 59,3 %, d’autres atteignent 93,6 %.

2. Environ 38 % des clics sont également filtrés (soit ~5 % de moins qu’il y a 12 mois).

Image Credit: Kevin Indig
  • Le filtrage des **clics** est moins discuté, mais significatif : près d’un tiers à 40 % des **clics** peuvent ne pas apparaître dans les rapports visibles par requête.
  • Il existe une large plage d’extrêmes : le filtrage des **clics** peut être aussi faible que 6,7 % ou culminer à 88,5 % selon le site et la période.

Le message clef : même si le taux de données masquées s’améliore modérément, la perte de granularité (surtout pour les **impressions**) demeure si importante qu’elle compromet la fiabilité d’analyses fondées uniquement sur GSC.

3. 2025 : une année d’**impressions** gonflées

Image Credit: Kevin Indig

Les douze derniers mois montrent une évolution erratique des métriques dans GSC :

  • En mars 2025, la montée en puissance des **AIOs** a coïncidé avec une hausse d’**impressions** d’environ 58 % sur les sites analysés.
  • En juillet‑août, on observe un pic supplémentaire : +25,3 % puis +54,6 %, apparemment lié au contournement de SearchGuard par certains outils de scraping, permettant aux **bots** de capturer les **AIOs** et d’augmenter artificiellement les comptes d’**impressions**.
  • En septembre, la suppression du paramètre num=100 a provoqué une diminution d’environ 30,6 % des **impressions** pour ces mêmes sources de données.
Image Credit: Kevin Indig

À date récente :

  • Les **clics** ont chuté de 56,6 % depuis mars 2025 sur le panel analysé.
  • Les **impressions** se sont stabilisées (baisse moyenne d’environ −9,2 % depuis le pic).
  • Les **AIOs** affichent une baisse d’environ 31,3 % après les ajustements successifs de Google et l’action des scrapeurs.

Le lien de corrélation entre la présence d’**AIOs** et la baisse des **clics** est fort (coefficient ≈ 0,608) : cela confirme une relation logique — les réponses enrichies fournies par Google détournent des **clics** vers le contenu intégré dans les SERP. Toutefois, établir une causalité précise nécessite une analyse plus fine (par exemple, mesurer la variation du **CTR** d’une requête avant et après l’apparition d’un **AIO**).

Comment distinguer une baisse de **clics** due à un **AIO** d’un simple affaiblissement de contenu ? Recherchez des corrélations temporelles :

  • Combattez l’ambiguïté en croisant la date de déploiement des **AIOs** (ou des changements Google) avec la date de la chute d’**clics** pour vos requêtes.
  • Si les positions restent stables mais que les **clics** chutent subitement, cela signale une cannibalisation par un **AIO** plutôt qu’une détérioration organique du contenu.
  • Considérez la nature des requêtes : les requêtes informationnelles sont plus susceptibles d’être affectées par les **AIOs** que les requêtes transactionnelles.

4. Recrudescence des **impressions** liées aux **bots**

Image Credit: Kevin Indig

Les indices montrent un retour des scrapeurs de SERP. Pour estimer la part d’**impressions** probablement générées par des **bots**, on peut filtrer les données GSC afin d’isoler les requêtes très longues (par ex. ≥ 10 mots) apparaissant plusieurs fois sans générer de **clics** — un schéma peu probable dans une navigation humaine courante.

Logique et méthode d’estimation

  • Hypothèse : Il est rare qu’un utilisateur tape exactement la même requête de 5+ mots plusieurs fois dans un laps de temps court.
  • Filtre : Requêtes ≥ 10 mots avec >1 **impression** mais 0 **clic**.
  • Limite : Cette approche peut inclure quelques requêtes humaines légitimes (questions techniques très précises, par ex.), mais fournit une estimation directionnelle de l’activité des scrapeurs.

Résultats observés :

  • Les requêtes longues (≥ 10 mots) avec >1 **impression** ont augmenté de ~25 % sur 180 jours dans l’échantillon.
  • La part estimée d’**impressions** attribuables à des **bots** varie entre 0,2 % et 6,5 % sur 30 jours.

Pour un site SaaS moyen, attendez‑vous à une fourchette usuelle de **bot impressions** de 1–3 %. Les sites avec une large documentation, des guides techniques ou des pages générées automatiquement (programmatic SEO) peuvent atteindre 4–6 %.

Impact pratique : ces **bot impressions** n’altèrent pas vos positions réelles sur Google, mais elles gonflent vos **impressions** reportées — ce qui peut fausser vos priorités si vous optimisez principalement pour des requêtes artificiellement amplifiées par des scrapeurs.

5. Le dispositif de mesure est défaillant : pourquoi vous ne devez pas vous fier uniquement à GSC

Prendre des décisions stratégiques uniquement à partir de la Google Search Console est aujourd’hui risqué pour plusieurs raisons :

  • Environ trois quarts des **impressions** sont absentes du niveau requête pour des motifs de confidentialité.
  • Les **bot impressions** peuvent représenter jusqu’à 6,5 % des données rapportées.
  • Les **AIOs** ont un effet mesurable de réduction des **clics** (plusieurs dizaines de pourcents sur certains segments).
  • Le comportement des internautes et les formats de présentation des résultats évoluent structurellement (moteurs de réponse, extraits riches, etc.).

La bonne nouvelle : c’est une opportunité méthodologique. Les équipes qui construisent une couche de mesure robuste — reposant sur des scripts de test d’échantillonnage, des calculs de part de **bot**, et une triangulation multi‑source — disposent d’un avantage compétitif significatif.

Principes pour renforcer votre mesure (sans recette magique)

  • Ne misez pas sur une seule source. Combinez GSC avec des données serveur, les logs d’accès, Google Analytics (ou alternatives), et des outils de scraping contrôlé pour valider les **impressions** et **clics** observés.
  • Mettez en place des métriques de qualité : taux de requêtes masquées, estimation du share de **bots**, ratio **clics**/impressions corrigé (ajusté des impressions suspectes), et suivi des changements d’affichage (présence d’**AIOs**, featured snippets, etc.).
  • Automatisez des contrôles périodiques (scripts qui comparent agrégé vs. requête, détectent les requêtes longues récurrentes, identifient des variations anormales de CTR par segment).
  • Documentez les événements externes (déploiements Google, modifications d’indexation, suppression de paramètre comme num=100) et corrélez ces événements avec les anomalies observées.
  • Adoptez une granularité temporelle : analysez vos données en fenêtres courtes (7–30 jours) et longues (90–365 jours) pour distinguer tendances lentes et chocs ponctuels.

Exemples d’analyses pratiques

  • Pour détecter l’effet d’un AIO : identifiez les requêtes informationnelles ayant conservé leur position moyenne mais montrant une chute soudaine de **clics** ; vérifiez si, au même moment, Google a ajouté un résumé ou une réponse enrichie pour ces requêtes.
  • Pour estimer l’impact des **bots** : calculez la proportion de requêtes ≥ 10 mots avec >1 **impression** et 0 **clic** month over month ; si cette proportion augmente, suspectez une adaptation des scrapeurs.
  • Pour corriger des priorités d’optimisation : si une page a beaucoup d’**impressions** mais un CTR très faible en raison d’**AIOs** ou d’**impressions** bot, réévaluez l’allocation de ressources — priorisez plutôt des pages avec indicateurs humains (trafic serveur, conversions) solides.

Image à la une : Paulo Bobita/Search Engine Journal