Ben DAVAKAN

Vous êtes au bon endroit pour concrétiser vos ambitions sur le web. Parlons-en dès maintenant.

Reddit lance une offensive contre Perplexity : l’IA soupçonnée d’avoir siphonné des milliards de données

Reddit lance une offensive contre Perplexity : l’IA soupçonnée d’avoir siphonné des milliards de données

Reddit lance une offensive contre Perplexity : l’IA soupçonnée d’avoir siphonné des milliards de données

Reddit lance une offensive contre Perplexity : l’IA soupçonnée d’avoir siphonné des milliards de données

Sommaire

La plateforme communautaire américaine accuse la start‑up d’**intelligence artificielle** Perplexity d’avoir franchi ses protections techniques pour collecter massivement des contenus sans autorisation. Cette affaire illustre les tensions croissantes entre les acteurs historiques du web et les concepteurs d’**IA générative**.

Points clés à retenir :

  • Reddit a engagé une procédure judiciaire contre Perplexity et trois fournisseurs de **scraping** pour atteinte aux **droits d’auteur**.
  • La plainte affirme que près de trois milliards de pages ont été aspirées via Google entre le 1er et le 13 juillet 2025.
  • Les défendeurs seraient accusés d’avoir contourné des protections telles que le fichier robots.txt, les limitations d’IP et les systèmes CAPTCHA.
  • Perplexity rejette ces allégations et défend un principe d’« accès libre et équitable aux connaissances publiques ».

Reddit engage une action en justice contre une start‑up d’IA

Le conflit oppose désormais la communauté en ligne Reddit, fréquentée par plus de 100 millions d’utilisateurs quotidiens, à la jeune entreprise américaine Perplexity, spécialisée dans la fourniture de réponses via **IA**. La plainte déposée devant la cour fédérale de New York vise également trois sociétés réputées dans le domaine du **scraping** et des services de proxy : SerpApi, Oxylabs et AWMProxy.

Selon les allégations formulées par Reddit, ces acteurs auraient contourné à grande échelle des protections techniques — notamment le fichier robots.txt, les restrictions d’adresses IP et les dispositifs CAPTCHA — afin d’« extraire massivement les discussions hébergées sur la plateforme ». Les contenus ainsi collectés auraient ensuite servi à alimenter le moteur de réponse de Perplexity, positionné sur le même marché que des assistants comme ChatGPT ou Gemini.

Le directeur juridique de Reddit, Ben Lee, décrit la situation comme une « économie industrielle du recyclage des données » où des entreprises d’**intelligence artificielle** chercheraient à intégrer dans leurs systèmes des contenus générés par des humains, sans autorisation ni rémunération.

Un contournement orchestré via Google

Les pièces jointes à la plainte, reprises par la presse technologique comme The Financial Times et The Verge, détaillent un procédé qualifié de sophistiqué. Les trois prestataires en cause auraient combiné des infrastructures de serveurs proxy et des émulations de navigateurs pour faire croire à Google qu’il s’agissait d’utilisateurs humains, exploitant ainsi l’indexation du moteur de recherche pour collecter massivement des pages contenant du contenu Reddit.

D’après Reddit, la méthode aurait permis de récupérer près de trois milliards de pages en l’espace de deux semaines, dont 1,8 milliard attribués à SerpApi. Pour étayer ses allégations, la plateforme aurait mis en place un test : une publication volontairement visible uniquement via l’indexation Google aurait été retrouvée dans des réponses générées par Perplexity, ce qui, selon Reddit, établit un lien direct entre l’extraction des résultats de recherche et l’utilisation faite par l’**IA**.

Comment ce type de collecte fonctionne techniquement

Les opérations de **scraping** à grande échelle reposent souvent sur plusieurs composants : des pools de serveurs proxy pour répartir et masquer les requêtes, des navigateurs automatisés simulant le comportement humain (mouvements de souris, chargement dynamique), et des mécanismes pour contourner ou réduire l’impact des protections telles que les fichiers robots.txt ou les tests CAPTCHA. Lorsqu’un contenu est indexé par un moteur de recherche, il devient directement accessible via des pages de résultats que certains services exploitent pour découvrir et télécharger en masse des URL ciblées.

Dans le cas incriminé, la stratégie décrite par Reddit combinerait l’extraction des pages indexées par Google avec des techniques d’évitement des systèmes de limitation d’accès, ce qui expliquerait le volume exceptionnellement élevé de pages prétendument aspirées.

Des négociations interrompues avant la saisine judiciaire

Avant d’opter pour la voie contentieuse, Reddit affirme avoir cherché une solution contractuelle avec Perplexity, sur le modèle des accords de licence conclus en 2024 avec des entreprises comme Google et OpenAI. Ces accords permettent un accès encadré aux contenus publics en échange d’une rémunération, et visent à concilier les intérêts des plateformes et des développeurs d’**IA** tout en respectant les règles de propriété intellectuelle.

D’après des sources citées par The Financial Times, Perplexity aurait refusé de conclure un tel contrat, préférant, selon Reddit, poursuivre la collecte par des méthodes alternatives. Ce différend aurait conduit à la plainte déposée le 22 octobre 2025, dans laquelle Reddit réclame l’arrêt immédiat des opérations reprochées, la restitution des gains tirés de ces pratiques et des dommages et intérêts pour le préjudice causé.

Contexte des accords de 2024 et enjeux financiers

En 2024, Reddit a signé un partenariat estimé à 60 millions de dollars avec Google, destiné à permettre à ce dernier d’enrichir ses modèles d’**IA** avec du contenu issu de la plateforme. Ces accords constituent un précédent : ils montrent que les données publiques des plateformes en ligne ont une valeur commerciale, et que des règles d’accès encadrées peuvent être mises en place entre détenteurs de contenus et fournisseurs de modèles d’**IA**.

La position de Reddit est donc double : protéger les droits d’auteur et s’assurer d’une compensation pour l’exploitation commerciale de contenus produits par sa communauté.

La réponse de Perplexity et ses arguments

Perplexity réfute vigoureusement les accusations portées par Reddit. Dans une déclaration publique, le porte‑parole de la start‑up, Jesse Dwyer, affirme que la société n’a pas encore été officiellement poursuivie (au moment de sa réponse) et qu’elle défendra le principe d’un accès ouvert aux connaissances accessibles publiquement. Perplexity se présente comme une entreprise qui fournit des réponses factuelles via une **IA** « responsable » et affirme ne pas entraîner ses modèles en ingérant le contenu de plateformes protégées.

Selon Perplexity, l’entreprise n’utilise pas les contenus de certains sites pour entraîner ses modèles et estime qu’un accord de licence n’est pas approprié quand l’accès aux données se fait dans le cadre d’un usage applicatif. Une version de cette réponse a été publiée par la société sur son fil Reddit.

La start‑up ajoute qu’elle respecte, à sa connaissance, le fichier robots.txt de Reddit, et soutient que les mises en demeure antérieures n’établissent pas la preuve d’un entraînement de ses modèles sur des données protégées. Toutefois, Reddit rétorque que ses avertissements adressés dès mai 2024 auraient été ignorés, et que la fréquence des citations de contenus Reddit dans les résultats de Perplexity a connu une augmentation significative par la suite.

Précédents juridiques et conséquences potentielles

Cette affaire s’inscrit dans une série de litiges opposant plateformes et développeurs d’**IA**. Quelques mois auparavant, Reddit avait déjà poursuivi la société Anthropic, créatrice du modèle Claude, pour des motifs similaires. Par ailleurs, en août 2025, Cloudflare avait signalé des comportements comparables, citant des tentatives de contournement de ses protections.

Sur le plan juridique, plusieurs voies de recours sont envisageables : actions pour violation du droit d’auteur, infractions liées au contournement des mesures techniques de protection, demandes en restitution des gains et réparation du préjudice moral et économique. Les défendeurs peuvent, de leur côté, invoquer des principes tels que l’accès au contenu public indexé par des moteurs de recherche, ou contester l’existence d’un entraînement direct de leurs modèles sur les données litigieuses.

Difficultés pratiques pour trancher

Sur le plan judiciaire, établir la responsabilité implique plusieurs défis : prouver que des contenus protégés ont été copiés et intégrés dans un corpus d’entraînement, démontrer que des mesures techniques ont été volontairement contournées et quantifier le préjudice subi. L’état de la jurisprudence sur ces questions, encore récent et souvent fragmentaire, rend toute prévision incertaine.

De plus, l’existence de contenus publiés librement et indexés par des moteurs complique la distinction entre accès licite à l’information publique et collecte massive destinée à des usages commerciaux non autorisés. Les tribunaux devront trancher sur la nature exacte des pratiques reprochées et sur leur compatibilité avec les règles de propriété intellectuelle et de protection des mesures techniques.

Conséquences attendues pour l’écosystème numérique et l’**IA**

Au-delà du litige entre les parties, cette affaire soulève des questions structurantes pour l’industrie :

  • Quelle valeur accorder aux contenus générés par les communautés en ligne et dans quelles conditions les plateformes peuvent‑elles contrôler leur réutilisation ?
  • Comment concilier l’innovation dans le domaine des **modèles d’IA** avec le respect des droits des créateurs et des détenteurs de données ?
  • Quelles normes techniques et contractuelles doivent être mises en place pour encadrer l’accès aux données publiques indexées ?

Une clarification juridique pourrait conduire à plus d’accords de licence, à des mécanismes techniques renforcés pour limiter le **scraping**, ou à des obligations de transparence pour les fournisseurs de modèles d’**IA** sur les sources utilisées pour l’entraînement.

Pour les plateformes et les utilisateurs

Les détenteurs de contenus, comme Reddit, cherchent à imposer des règles d’accès qui prennent en compte la valeur économique et sociale de leurs bases de données. Cela peut entraîner :

  • Des contrôles d’accès plus stricts et des restrictions techniques renforcées (bloquer l’indexation, durcir les robots.txt, multiplier les systèmes anti‑bot).
  • Des accords commerciaux avec des fournisseurs d’**IA** discrets et encadrés, assortis de clauses financières et de conditions d’utilisation.
  • Un renforcement des messages d’information destinés aux utilisateurs sur l’usage de leurs contributions.

Pour les développeurs d’**IA**

Les acteurs qui conçoivent des modèles d’**intelligence artificielle** devront repenser leurs pratiques d’acquisition de données. Plusieurs pistes sont envisagées :

  • Privilégier des corpus explicitement licenciés ou des jeux de données publics clairement marqués et destinés à l’entraînement.
  • Mettre en place des procédures internes d’audit des sources et de traçabilité des contenus utilisés pour l’entraînement.
  • Renforcer la transparence envers les utilisateurs et partenaires sur les données employées et sur la manière dont sont obtenues les informations.

Chronologie synthétique des événements

Pour mieux situer l’affaire :

  • Mai 2024 : Reddit adresse des mises en demeure à des entités accusées de collecte abusive.
  • 2024 : Accord estimé à 60 millions de dollars entre Reddit et Google pour l’utilisation encadrée des données de la plateforme.
  • Août 2025 : Cloudflare signale des pratiques de contournement similaires chez certains acteurs.
  • 1er–13 juillet 2025 : Période durant laquelle, selon Reddit, près de trois milliards de pages auraient été aspirées via Google.
  • 22 octobre 2025 : Reddit dépose une plainte fédérale à New York contre Perplexity, SerpApi, Oxylabs et AWMProxy.

Réactions et prise de position dans le secteur

Les réponses à cette affaire divergent selon les acteurs. Certaines organisations de la tech insistent sur la nécessité d’un accès ouvert aux connaissances, estimant que la disponibilité publique de contenus facilite l’innovation. D’autres, en particulier les plateformes qui hébergent de larges communautés, plaident pour une rémunération équitable et des règles claires afin d’éviter que la valeur créée par leurs utilisateurs ne soit appropriée sans contrepartie.

Les observateurs juridiques notent que l’issue du procès pourrait faire jurisprudence : si la cour donne raison à Reddit, cela encouragera probablement d’autres plateformes à adopter des stratégies similaires de protection et de monétisation des contenus. À l’inverse, une décision favorable aux développeurs d’**IA** conforterait la position selon laquelle l’indexation publique facilite un usage légal pour des applications d’information.

Ce que cela signifie pour les utilisateurs

Pour les membres des communautés en ligne et les contributeurs, l’affaire relève de questions de consentement et de contrôle : leurs publications, souvent produites gratuitement, peuvent devenir une ressource recherchée par des entreprises qui entraînent des modèles d’**IA**. Selon l’orientation future de la réglementation et des décisions de justice, les utilisateurs pourraient voir se multiplier :

  • Des options de confidentialité plus strictes et des réglages renforcés sur la visibilité de leurs contributions.
  • Une meilleure information sur les usages commerciaux potentiels des contenus publics.
  • Éventuellement, des mécanismes de partage de revenus si des modèles économiques sont mis en place pour rémunérer les créateurs.

Perspectives et scénarios plausibles

Plusieurs issues sont envisageables :

  • Un règlement amiable, avec la conclusion d’un accord de licence entre Reddit et Perplexity, à l’image des contrats signés en 2024 ;
  • Un procès long et potentiellement coûteux, qui clarifierait les obligations techniques et contractuelles liées au **scraping** et à l’utilisation de contenus indexés ;
  • Des changements de pratiques techniques chez les acteurs de l’**IA** (audit des sources, filtrage plus strict) et chez les plateformes (durcissement des protections, politique d’accès payant) ;
  • Une intervention réglementaire, à plus long terme, pour établir des normes sur l’accès aux données publiques et la protection des créateurs.

Conclusion : un bras de fer révélateur

Le litige opposant Reddit à Perplexity met en lumière des tensions structurelles entre la logique d’ouverture de l’information permise par l’indexation sur le web et la nécessité, pour les plateformes, de protéger et valoriser les contributions de leurs communautés. La question centrale porte sur la frontière entre l’accès légitime à des contenus publics et l’exploitation commerciale massive de ces mêmes contenus par des services d’**intelligence artificielle**.

Au-delà de l’issue juridique, cette affaire devrait alimenter le débat sur les meilleures pratiques techniques, contractuelles et éthiques pour encadrer l’utilisation des données en matière d’**IA**. Les prochains mois seront déterminants : ils permettront d’observer si l’industrie parviendra à établir des règles communes, ou si la réglementation et les tribunaux devront intervenir pour fixer un cadre plus strict.

Sources citées dans l’enquête et reproduites ci‑dessous incluent notamment des articles de The Financial Times, The Verge, ainsi que la réponse publique de Perplexity diffusée sur le forum Reddit.