Reddit pozwał wyszukiwarkę AI Perplexity i trzy firmy zajmujące się eksploracją danych Oxylabs UAB, AWMProxy i SerpApi, oskarżając je o nielegalne pobieranie treści w celu szkolenia sztucznej inteligencji. W pozwie złożonym w Sądzie Okręgowym Stanów Zjednoczonych dla Południowego Okręgu Nowego Jorku zarzucono, że organizacje ominęły zabezpieczenia Reddita i Google, aby w lipcu tego roku zebrać prawie 3 miliardy stron wyników wyszukiwania (SERP) w zaledwie dwa tygodnie.

Zarzuty dotyczące systematycznego gromadzenia danych

Z pozwu wynika, że oskarżeni stosowali zwodniczą taktykę, aby ukryć swoją tożsamość i lokalizację podczas pobierania danych z Reddita. Firma porównała tę operację do „próby okradzenia pojazdu przewożącego gotówkę”, a nie do samego banku. To agresywne gromadzenie danych podważa ochronę praw autorskich Reddita, ponieważ platforma wysłała wcześniej pismo o zaprzestaniu działalności do firmy Perplexity po odnalezieniu skradzionych danych.

Kluczowi gracze i powiązania

Perplexity nadal znajduje się na liście klientów SerpApi, obok największych firm technologicznych, takich jak Meta, Samsung i Nvidia. Podkreśla to duże zapotrzebowanie na dane szkoleniowe wśród twórców sztucznej inteligencji. Reddit zawarł już umowy licencyjne z OpenAI i Google, ale pozwał też Anthropic za nieuprawnione wykorzystanie danych.

Szeroki kontekst prawny

Sprawa stanowi część rosnącej liczby postępowań dotyczących praw autorskich z udziałem firm zajmujących się sztuczną inteligencją. Encyklopedia Britannica, właścicielka Merriam-Webster, złożyła niedawno podobny pozew przeciwko Perplexity za naruszenie praw autorskich. Podstawowym problemem jest niezaspokojone zapotrzebowanie sztucznej inteligencji na ogromne zbiory danych wygenerowanych przez człowieka, w większości objętych prawami autorskimi, oraz złożoność prawna związana z uzyskiwaniem tych treści.

Ochrona przed zakłopotaniem

Perplexity twierdzi, że nie wymaga umów licencyjnych, ponieważ nie szkoli podstawowych modeli sztucznej inteligencji. Zamiast tego firma twierdzi, że odpowiedzi z Reddita są wykorzystywane „legalnie” w wynikach wyszukiwania. Jednak to stwierdzenie zaprzecza twierdzeniu Reddita, że ​​gromadzenie danych było systematyczne i nieautoryzowane.

Dlaczego to jest ważne

Pozew podkreśla rosnące napięcia między twórcami sztucznej inteligencji a twórcami treści w związku z własnością danych. Z ponad 110 milionami aktywnych użytkowników dziennie i miliardami postów, Reddit jest cennym źródłem danych szkoleniowych. Wynik tej sprawy może stworzyć precedensy w zakresie dostępu firm zajmujących się sztuczną inteligencją do materiałów chronionych prawem autorskim i korzystania z nich, potencjalnie zmieniając przyszłość licencjonowania danych i praw własności intelektualnej w szybko rozwijającej się dziedzinie sztucznej inteligencji.