Reddit hat eine Klage gegen die KI-Suchmaschine Perplexity und drei Datenfirmen – Oxylabs UAB, AWMProxy und SerpApi – eingereicht und wirft ihnen vor, ihre Inhalte illegal für KI-Trainingszwecke gecrawlt zu haben. In der beim US-Bezirksgericht für den südlichen Bezirk von New York eingereichten Klage wird behauptet, dass diese Unternehmen die Sicherheitsmaßnahmen von Reddit und Google umgangen hätten, um im vergangenen Juli in nur zwei Wochen fast 3 Milliarden Suchmaschinen-Ergebnisseiten (SERPs) zu sammeln.

Vorwürfe des systematischen Scrapings

Der Klage zufolge wandten die Angeklagten betrügerische Taktiken an, um ihre Identität und ihren Standort zu verschleiern, während sie Daten von Reddit extrahierten. Das Unternehmen verglich die Aktion mit „Möchtegern-Bankräubern“, die es auf den Bargeldtransport und nicht auf den Banktresor selbst abgesehen hätten. Dieses aggressive Scraping untergräbt den Urheberrechtsschutz von Reddit, da die Plattform zuvor eine Unterlassungserklärung an Perplexity ausgestellt hat, nachdem sie die gestohlenen Daten auf sie zurückgeführt hatte.

Hauptakteure und Verbindungen

Perplexity wird neben großen Technologieunternehmen wie Meta, Samsung und Nvidia weiterhin als Kunde von SerpApi aufgeführt. Dies verdeutlicht den hohen Bedarf an Trainingsdaten bei KI-Entwicklern. Reddit hat bereits Lizenzverträge mit OpenAI und Google abgeschlossen, hat aber auch rechtliche Schritte gegen Anthropic wegen unbefugter Datennutzung eingeleitet.

Umfassendere Rechtslandschaft

Dieser Fall ist Teil eines wachsenden Trends zu Urheberrechtsstreitigkeiten, an denen KI-Unternehmen beteiligt sind. Encyclopedia Britannica, zu der Merriam-Webster gehört, hat kürzlich eine ähnliche Klage gegen Perplexity wegen Urheberrechtsverletzung eingereicht. Das Kernproblem dreht sich um den unstillbaren Bedarf der KI an riesigen Datensätzen mit von Menschen erstellten Inhalten – von denen viele urheberrechtlich geschützt sind – und um die rechtliche Komplexität, die mit der Beschaffung dieser Inhalte verbunden ist.

Perplexitys Verteidigung

Perplexity argumentiert, dass keine Lizenzvereinbarungen erforderlich sind, da keine grundlegenden KI-Modelle trainiert werden. Stattdessen heißt es, dass Reddit-Antworten „rechtmäßig“ in seinen Suchergebnissen verwendet würden. Diese Behauptung steht jedoch im Widerspruch zu der Behauptung von Reddit, dass das Scraping systematisch und unbefugt erfolgte.

Warum das wichtig ist

Die Klage unterstreicht die eskalierende Spannung zwischen KI-Entwicklern und Inhaltserstellern hinsichtlich des Dateneigentums. Reddit stellt mit über 110 Millionen täglich aktiven Nutzern und Milliarden von Beiträgen eine wertvolle Quelle für Trainingsdaten dar. Der Ausgang dieses Falles könnte Präzedenzfälle dafür schaffen, wie KI-Unternehmen auf urheberrechtlich geschütztes Material zugreifen und es nutzen, und möglicherweise die Zukunft der Datenlizenzierung und der Rechte an geistigem Eigentum in der sich schnell entwickelnden KI-Landschaft neu gestalten.