O Reddit abriu um processo contra o mecanismo de busca de IA Perplexity e três empresas de dados – Oxylabs UAB, AWMProxy e SerpApi – acusando-os de copiar ilegalmente seu conteúdo para fins de treinamento de IA. A ação legal, movida no Tribunal Distrital dos EUA para o Distrito Sul de Nova York, afirma que essas entidades contornaram as medidas de segurança do Reddit e do Google para coletar quase 3 bilhões de páginas de resultados de mecanismos de pesquisa (SERPs) em apenas duas semanas em julho passado.
Alegações de raspagem sistemática
De acordo com o processo, os réus empregaram táticas enganosas para mascarar suas identidades e localizações enquanto extraíam dados do Reddit. A empresa comparou a operação a “pretensos ladrões de banco” visando o transporte de dinheiro em vez do próprio cofre do banco. Essa raspagem agressiva mina as proteções de direitos autorais do Reddit, já que a plataforma já havia emitido uma carta de cessação e desistência para a Perplexity após rastrear os dados roubados até eles.
Principais participantes e conexões
A Perplexity continua listada como cliente da SerpApi, ao lado de grandes empresas de tecnologia como Meta, Samsung e Nvidia. Isto destaca a alta demanda por dados de treinamento entre os desenvolvedores de IA. O Reddit já garantiu acordos de licenciamento com a OpenAI e o Google, mas também entrou com uma ação legal contra a Anthropic por uso não autorizado de dados.
Cenário jurídico mais amplo
Este caso faz parte de uma tendência crescente de disputas de direitos autorais envolvendo empresas de IA. A Enciclopédia Britânica, proprietária do Merriam-Webster, recentemente abriu um processo semelhante contra a Perplexity por violação de direitos autorais. A questão central gira em torno da necessidade insaciável da IA de enormes conjuntos de dados de conteúdo gerado por humanos – muitos dos quais protegidos por direitos autorais – e das complexidades legais de obtenção desse conteúdo.
Defesa da Perplexidade
A Perplexity argumenta que não exige acordos de licenciamento porque não treina modelos fundamentais de IA. Em vez disso, afirma que as respostas do Reddit são usadas em seus resultados de pesquisa “legalmente”. No entanto, esta afirmação está em desacordo com a afirmação do Reddit de que a raspagem foi sistemática e não autorizada.
Por que isso é importante
O processo ressalta a crescente tensão entre desenvolvedores de IA e criadores de conteúdo sobre a propriedade de dados. O Reddit, com mais de 110 milhões de usuários ativos diariamente e bilhões de postagens, representa uma fonte valiosa de dados de treinamento. O resultado deste caso poderá estabelecer precedentes sobre a forma como as empresas de IA acedem e utilizam material protegido por direitos de autor, remodelando potencialmente o futuro do licenciamento de dados e dos direitos de propriedade intelectual no panorama da IA em rápida evolução.
































