Reddit a lancé une action en justice contre le moteur de recherche d’IA Perplexity et trois sociétés de données (Oxylabs UAB, AWMProxy et SerpApi), les accusant d’avoir illégalement récupéré son contenu à des fins de formation à l’IA. L’action en justice, déposée devant le tribunal de district américain du district sud de New York, affirme que ces entités ont contourné les mesures de sécurité de Reddit et de Google pour récolter près de 3 milliards de pages de résultats de moteurs de recherche (SERP) en seulement deux semaines en juillet dernier.
Allégations de grattage systématique
Selon le procès, les accusés ont utilisé des tactiques trompeuses pour masquer leur identité et leur emplacement tout en extrayant des données de Reddit. L’entreprise a comparé l’opération à des “voleurs de banque potentiels” ciblant le transport de fonds plutôt que le coffre-fort de la banque lui-même. Ce grattage agressif porte atteinte aux protections des droits d’auteur de Reddit, car la plateforme a déjà envoyé une lettre de cessation et d’abstention à Perplexity après avoir retracé les données volées jusqu’à eux.
Acteurs clés et connexions
Perplexity continue d’être répertorié comme client de SerpApi, aux côtés de grandes entreprises technologiques comme Meta, Samsung et Nvidia. Cela met en évidence la forte demande de données de formation parmi les développeurs d’IA. Reddit a déjà conclu des accords de licence avec OpenAI et Google, mais a également intenté une action en justice contre Anthropic pour utilisation non autorisée de données.
Paysage juridique plus large
Cette affaire s’inscrit dans une tendance croissante de litiges en matière de droits d’auteur impliquant des sociétés d’IA. Encyclopedia Britannica, propriétaire de Merriam-Webster, a récemment intenté une action en justice similaire contre Perplexity pour violation du droit d’auteur. Le problème central tourne autour du besoin insatiable de l’IA d’ensembles de données massifs de contenu généré par l’homme – dont une grande partie est protégée par le droit d’auteur – et des complexités juridiques liées à l’obtention de ce contenu.
Défense de la perplexité
Perplexity affirme qu’il ne nécessite pas d’accords de licence car il ne forme pas de modèles d’IA fondamentaux. Au lieu de cela, il indique que les réponses Reddit sont utilisées « licitement » dans ses résultats de recherche. Cependant, cette affirmation est en contradiction avec l’affirmation de Reddit selon laquelle le grattage était systématique et non autorisé.
Pourquoi c’est important
Le procès souligne la tension croissante entre les développeurs d’IA et les créateurs de contenu concernant la propriété des données. Reddit, avec plus de 110 millions d’utilisateurs actifs quotidiens et des milliards de publications, représente une source précieuse de données de formation. L’issue de cette affaire pourrait créer des précédents quant à la manière dont les entreprises d’IA accèdent et utilisent du matériel protégé par le droit d’auteur, refaçonnant potentiellement l’avenir des licences de données et des droits de propriété intellectuelle dans le paysage de l’IA en évolution rapide.






























