Reddit ha avviato una causa contro il motore di ricerca AI Perplexity e tre società di dati, Oxylabs UAB, AWMProxy e SerpApi, accusandoli di aver prelevato illegalmente i suoi contenuti per scopi di formazione sull’intelligenza artificiale. L’azione legale, depositata presso il tribunale distrettuale degli Stati Uniti per il distretto meridionale di New York, sostiene che queste entità hanno aggirato le misure di sicurezza di Reddit e Google per raccogliere quasi 3 miliardi di pagine di risultati dei motori di ricerca (SERP) in sole due settimane lo scorso luglio.
Accuse di raschiamento sistematico
Secondo l’accusa, gli imputati hanno utilizzato tattiche ingannevoli per mascherare la propria identità e posizione mentre estraevano dati da Reddit. La società ha paragonato l’operazione ad “aspiranti rapinatori di banche” che prendono di mira il trasporto di contanti anziché il caveau della banca stessa. Questo scraping aggressivo mina le protezioni del copyright di Reddit, poiché la piattaforma ha precedentemente inviato una lettera di cessazione e desistenza a Perplexity dopo aver ricondotto loro i dati rubati.
Attori chiave e connessioni
Perplexity continua ad essere elencato come cliente di SerpApi, insieme alle principali aziende tecnologiche come Meta, Samsung e Nvidia. Ciò evidenzia l’elevata domanda di dati di addestramento tra gli sviluppatori di intelligenza artificiale. Reddit ha già siglato accordi di licenza con OpenAI e Google, ma ha anche intrapreso un’azione legale contro Anthropic per l’utilizzo non autorizzato dei dati.
Panorama giuridico più ampio
Questo caso fa parte di una tendenza crescente di controversie sul copyright che coinvolgono società di intelligenza artificiale. L’Enciclopedia Britannica, proprietaria di Merriam-Webster, ha recentemente intentato una causa simile contro Perplexity per violazione del copyright. La questione centrale ruota attorno all’insaziabile bisogno dell’intelligenza artificiale di enormi set di dati di contenuti generati dall’uomo, molti dei quali protetti da copyright, e alle complessità legali per ottenere tali contenuti.
Difesa della perplessità
Perplexity sostiene che non richiede accordi di licenza perché non addestra modelli di intelligenza artificiale fondamentali. Invece, afferma che le risposte di Reddit vengono utilizzate nei risultati di ricerca “legalmente”. Tuttavia, questa affermazione è in contrasto con l’affermazione di Reddit secondo cui lo scraping era sistematico e non autorizzato.
Perché è importante
La causa sottolinea la crescente tensione tra gli sviluppatori di intelligenza artificiale e i creatori di contenuti sulla proprietà dei dati. Reddit, con oltre 110 milioni di utenti attivi ogni giorno e miliardi di post, rappresenta una preziosa fonte di dati sulla formazione. L’esito di questo caso potrebbe creare dei precedenti sul modo in cui le società di intelligenza artificiale accedono e utilizzano materiale protetto da copyright, rimodellando potenzialmente il futuro delle licenze sui dati e dei diritti di proprietà intellettuale nel panorama dell’intelligenza artificiale in rapida evoluzione.































