Reddit подав до суду на пошукову систему штучного інтелекту Perplexity і три компанії з аналізу даних Oxylabs UAB, AWMProxy і SerpApi, звинувативши їх у незаконному збиранні контенту для навчання штучного інтелекту. У позові, поданому до Окружного суду США Південного округу Нью-Йорка, стверджується, що організації обійшли заходи безпеки Reddit і Google, щоб зібрати майже 3 мільярди сторінок результатів пошуку (SERP) лише за два тижні в липні цього року.

Звинувачення в систематичному зборі даних

Згідно з позовом, відповідачі використовували обманну тактику, щоб приховати свої особи та місцезнаходження під час збирання даних із Reddit. У компанії порівняли цю операцію зі «спробою пограбування інкасо», а не самого банку. Цей агресивний збір даних підриває захист авторських прав Reddit, оскільки раніше платформа надіслала лист про припинення та відмову від Perplexity після відстеження викрадених даних.

Ключові гравці та зв’язки

Perplexity продовжує значитися як клієнт SerpApi разом із великими технологічними компаніями, такими як Meta, Samsung і Nvidia. Це підкреслює високий попит на навчальні дані серед розробників ШІ. Reddit вже уклав ліцензійні угоди з OpenAI і Google, але також подав до суду на Anthropic за несанкціоноване використання даних.

Широкий правовий контекст

Справа є частиною зростаючої кількості судових процесів щодо авторських прав за участю компаній ШІ. Encyclopedia Britannica, якій належить Merriam-Webster, нещодавно подала аналогічний позов проти Perplexity за порушення авторських прав. Основна проблема полягає в ненаситній потребі штучного інтелекту у величезних наборах даних, створених людьми, значна частина яких захищена авторським правом, і юридичні складності отримання такого вмісту.

Захист від непорозуміння

Perplexity каже, що для цього не потрібні ліцензійні угоди, оскільки він не навчає базові моделі ШІ. Натомість компанія каже, що відповіді Reddit використовуються «законно» в результатах пошуку. Однак ця заява суперечить заяві Reddit про те, що збір даних був систематичним і несанкціонованим.

Чому це важливо

Позов підкреслює зростання напруженості між розробниками штучного інтелекту та творцями контенту щодо власності на дані. З понад 110 мільйонами щоденних активних користувачів і мільярдами публікацій Reddit є цінним джерелом навчальних даних. Результати цієї справи можуть створити прецеденти для того, як компанії, що займаються штучним інтелектом, отримують доступ і використовують матеріали, захищені авторським правом, потенційно змінюючи майбутнє ліцензування даних і прав інтелектуальної власності в галузі ШІ, що швидко розвивається.