Reddit zažaloval AI vyhledávač Perplexity a tři společnosti zabývající se těžbou dat Oxylabs UAB, AWMProxy a SerpApi a obvinil je z nezákonného škrábání obsahu za účelem trénování umělé inteligence. Žaloba podaná k americkému okresnímu soudu pro jižní obvod New Yorku tvrdí, že organizace obešly bezpečnostní opatření Reddit a Google, aby během pouhých dvou týdnů v červenci tohoto roku sklidily téměř 3 miliardy stránek s výsledky vyhledávání (SERP).

Obvinění ze systematického shromažďování dat

Podle žaloby obžalovaní používali klamavou taktiku, aby skryli svou identitu a umístění, když škrábali data z Redditu. Společnost tuto operaci přirovnala k „pokusu okrást vozidlo pro přepravu hotovosti“ namísto banky samotné. Toto agresivní shromažďování dat podkopává ochranu autorských práv společnosti Reddit, protože platforma předtím poslala dopis o zastavení a upuštění od společnosti Perplexity poté, co k nim vystopovala ukradená data.

Klíčoví hráči a spojení

Perplexity je nadále uváděna jako klient SerpApi spolu s významnými technologickými společnostmi, jako jsou Meta, Samsung a Nvidia. To zdůrazňuje vysokou poptávku po tréninkových datech mezi vývojáři AI. Reddit již uzavřel licenční smlouvy s OpenAI a Googlem, ale také zažaloval Anthropic za neoprávněné použití dat.

Široký právní kontext

Případ je součástí rostoucího počtu soudních sporů týkajících se autorských práv, které se týkají společností AI. Encyclopedia Britannica, která vlastní Merriam-Webster, nedávno podala podobnou žalobu na Perplexity za porušení autorských práv. Hlavním problémem je neukojitelná potřeba umělé inteligence po rozsáhlých souborech dat vytvořených lidmi, z nichž většina je chráněna autorským právem, a právní složitost získávání tohoto obsahu.

Ochrana před zmatkem

Perplexity říká, že nevyžaduje licenční smlouvy, protože netrénuje základní modely umělé inteligence. Místo toho společnost říká, že odpovědi Reddit jsou ve výsledcích vyhledávání používány „legálně“. Toto prohlášení však odporuje tvrzení Redditu, že sběr dat byl systematický a neautorizovaný.

Proč je to důležité

Žaloba zdůrazňuje rostoucí napětí mezi vývojáři AI a tvůrci obsahu ohledně vlastnictví dat. S více než 110 miliony aktivních uživatelů denně a miliardami příspěvků je Reddit cenným zdrojem tréninkových dat. Výsledek tohoto případu by mohl vytvořit precedens pro to, jak společnosti využívající umělou inteligenci přistupují k materiálu chráněnému autorským právem a jak jej používají, což by mohlo změnit budoucnost licencování dat a práv duševního vlastnictví v rychle se vyvíjející oblasti umělé inteligence.