Ben DAVAKAN

Vous êtes au bon endroit pour concrétiser vos ambitions sur le web. Parlons-en dès maintenant.

Perplexité : mystères du classement, structure dissimulée et allégations de scraping

Perplexité : mystères du classement, structure dissimulée et allégations de scraping

Perplexité : mystères du classement, structure dissimulée et allégations de scraping

Perplexité : mystères du classement, structure dissimulée et allégations de scraping

Sommaire

Le domaine de la recherche alimentée par l’intelligence artificielle traverse une transformation majeure, accompagnée d’une série de controverses. Récemment, Perplexity a été au cœur de discussions importantes concernant ses méthodes de classement, tout en étant critiqué pour un potentiel scraping de sites web sans autorisation.

À retenir :

  • Révélations sur les 59 critères de classement secrets de Perplexity : un système complexe de reranking, des listes de domaines considérés comme des références, ainsi qu’une interaction sophistiquée entre signaux techniques et engagement utilisateur.
  • Accusations de scraping illégal : Cloudflare reproche à Perplexity de contourner les directives anti-crawlers (robots.txt) en usurpant l’identité de navigateurs pour extraire des contenus protégés.
  • Importance cruciale de l’engagement « immédiat » : atteindre un engagement élevé dès la publication est devenu essentiel pour ne pas disparaître des résultats de Perplexity.
  • Équilibre stratégique avec YouTube et gestion affinée de l’intention utilisateur : nouvelles voies de visibilité pour les créateurs, à travers l’alignement avec les dernières tendances de YouTube et la cartographie des intentions.

Une nouvelle ère de visibilité sur Perplexity : une configuration complexe

Une étude approfondie des interactions entre le navigateur et le serveur, publiée sur son blog par Metehan Yeşilyurt, a révélé **59 critères de classement** ainsi qu’une structure technique inattendue. Voici les éléments essentiels à connaître pour optimiser le référencement sur Perplexity.

Une stratégie de reranking en trois niveaux pour les recherches d’entités

Perplexity utilise un **système de reranking en trois étapes** (L3) avant de présenter les résultats, intégrant des modèles d’apprentissage automatique comme XGBoost, et impose des critères de qualité stricts, ayant même la possibilité de supprimer les résultats lorsque ceux-ci ne répondent pas aux attentes. **Conclusion** : l’optimisation pure des mots-clés ne suffit plus ; il est nécessaire de répondre aux exigences « cachées » du modèle, d’établir une autorité dans le domaine et de générer un engagement authentique.

Le rôle déterminant des domaines déclarés comme faisant autorité

Contrairement à l’idée reçue selon laquelle tout serait géré par des algorithmes, **Perplexity effectue lui-même le classement de certains domaines**. Parmi eux, on retrouve Amazon, Github, LinkedIn, Coursera, Booking, etc. Publier ou relier du contenu à ces plateformes procure immédiatement un avantage significatif dans le classement : la présence sur ces sites ou un partenariat avec eux devient un levier stratégique.

Engagement précoce : la clé de la survie du nouveau contenu

Un facteur clé – new_post_impression_threshold – détermine si un contenu récent va rester visible. **La plateforme surveille le taux de clics dans les premières minutes** : rater cette opportunité signifie disparaître totalement. D’où l’importance d’un lancement rapide, d’une diffusion maximale dès la publication, et du ciblage de sujets très visibles (IA, technologie, science).

Tendances, suggestions et optimisation multi-plateformes

Perplexity synchronise ses tendances de recherche avec les titres YouTube. Créer des vidéos dont le titre correspond exactement aux requêtes les plus populaires sur Perplexity augmente les chances d’apparaître en tête sur les deux plateformes. De plus, le moteur de recherche cartographie précisément les intentions (suggestions toujours actives, suggestions générées par l’historique ou le niveau d’activité).

Tableau récapitulatif : les éléments cruciaux du classement sur Perplexity

Pour mieux saisir la complexité du classement sur Perplexity, voici un résumé des facteurs principaux, de leurs paramètres associés, de leur impact et des stratégies d’optimisation possibles :

Catégorie de Facteur Paramètres clés Impact sur le classement Stratégies d’optimisation
Performance des nouveaux posts new_post_impression_threshold, new_post_published_time_threshold_minutes, new_post_ctr Essentiel pour la visibilité initiale Démarrer avec une large distribution, surveiller le CTR dès les premières minutes
Classification des sujets subscribed_topic_multiplier, top_topic_multiplier, default_topic_multiplier, restricted_topics Variations exponentielles de visibilité Se concentrer sur les thèmes IA, technologie, science ; éviter ceux comme le divertissement et le sport
Décroissance temporelle time_decay_rate, item_time_range_hours Chute significative de visibilité post-publication Publier fréquemment, mettre à jour le contenu régulièrement
Pertinence sémantique embedding_similarity_threshold, text_embedding_v1 Filtre de qualité déterminant pour le classement Produire un contenu riche sémantiquement et complet, sans bourrage de mots-clés
Engagement utilisateur discover_engagement_7d, historic_engagement_v1, discover_click_7d_batch_embedding Renforce le classement sur le long terme Optimiser les titres et accroches, accroître le temps passé et les retours
Réseaux “mémoire” boost_page_with_memory, memory_limit, related_pages_limit Met en avant les contenus interconnectés Créer des clusters thématiques, lier les contenus, développer une expertise
Distribution dans les flux persistent_feed_limit, feed_retrieval_limit_topic_match Influence la portée des contenus Comprendre les mécaniques de flux, ajuster le timing des publications
Signaux négatifs dislike_filter_limit, dislike_embedding_filter_threshold, discover_no_click_7d_batch_embedding Peut considérablement limiter la visibilité Surveiller les retours, veiller à un haut niveau de qualité
Diversité de contenu diversity_hashtag_similarity_threshold, hashtag_match_threshold Évite le spam ou l’abus de hashtags Varier les hashtags, aborder plusieurs angles d’un sujet
Limites par domaine blender_web_link_domain_limit, blender_web_link_percentage_threshold Limite la domination d’une seule source Diversifier les sources externes, restreindre les liens sortants uniques
Systèmes techniques enable_ranking_model, enable_union_retrieval, calculate_matching_scores Infrastructure centrale du classement Aligner le contenu aux besoins techniques identifiés

Ce tableau présente un aperçu des nombreux leviers à activer pour réussir sur Perplexity. Il illustre l’importance stratégique d’un contenu de qualité, pertinent, interconnecté, diversifié et diffusé de manière réfléchie.

Scraping illégal : Perplexity accusé de transgresser les règles du web

Parallèlement à ces découvertes techniques, **Perplexity est confronté à des accusations sérieuses** : Cloudflare soutient que la startup contourne délibérément les fichiers robots.txt, qui sont censés empêcher l’indexation automatique des contenus. Pour atteindre ses objectifs, Perplexity modifierait l’identité de ses bots (user-agent), utiliserait divers réseaux et se ferait passer pour un navigateur Chrome classique.

Cette méthode aurait permis à Perplexity d’accéder discrètement à un contenu provenant de milliers de sites… Un comportement corroboré par des analyses d’apprentissage automatique et des retours de clients de Cloudflare. La société a annoncé avoir développé de nouveaux systèmes pour les bloquer et avoir retiré Perplexity de sa liste de bots « vérifiés ».

Face à ces accusations, **un représentant de Perplexity dément fermement**, allant jusqu’à affirmer que « le bot détecté n’est même pas le nôtre« . Malgré tout, les éditeurs commencent à mettre en place des moyens pour monétiser l’accès à leur contenu, et la question du respect des droits sur les données devient un sujet brûlant, menaçant le modèle économique même d’internet en cette ère d’intelligence artificielle.

Perplexity : une stratégie de référencement renouée ?

  • Comprendre la logique de classement cachée et viser l’autorité « manuelle »,
  • Synchroniser ses contenus avec les dernières tendances sur YouTube,
  • Surveiller en temps réel l’engagement afin d’éviter d’être éliminé,
  • Rester vigilant quant à la protection de ses droits face aux IA.

La compétition pour la visibilité, la qualité et la propriété du contenu n’a jamais été aussi intense !