Reddit подал в суд на AI-поисковую систему Perplexity и три компании, занимающиеся сбором данных – Oxylabs UAB, AWMProxy и SerpApi, обвинив их в незаконном извлечении контента для обучения искусственного интеллекта. Иск, поданный в Окружной суд США по Южному округу Нью-Йорка, утверждает, что эти организации обошли меры безопасности Reddit и Google, чтобы собрать почти 3 миллиарда страниц результатов поиска (SERP) всего за две недели в июле текущего года.

Обвинения в Систематическом Сборе Данных

Согласно иску, подсудимые использовали обманные тактики, чтобы скрыть свою личность и местоположение при извлечении данных с Reddit. Компания сравнила эту операцию с «попыткой ограбления инкассаторской машины» вместо самого банка. Такой агрессивный сбор данных подрывает защиту авторских прав Reddit, поскольку платформа ранее направила в Perplexity письмо с требованием прекратить противоправные действия после того, как проследила украденные данные до них.

Ключевые Игроки и Связи

Perplexity продолжает числиться клиентом SerpApi наряду с крупными технологическими компаниями, такими как Meta, Samsung и Nvidia. Это подчеркивает высокий спрос на обучающие данные среди разработчиков ИИ. Reddit уже заключил лицензионные соглашения с OpenAI и Google, но также подал в суд на Anthropic за несанкционированное использование данных.

Широкий Юридический Контекст

Это дело является частью растущего числа судебных споров об авторских правах с участием компаний, занимающихся ИИ. Энциклопедия Британика, которой принадлежит Merriam-Webster, недавно подала аналогичный иск против Perplexity за нарушение авторских прав. Основной вопрос заключается в ненасытной потребности ИИ в огромных наборах данных, созданных людьми, большая часть которых защищена авторским правом, и в юридических сложностях получения этого контента.

Защита Perplexity

Perplexity утверждает, что не нуждается в лицензионных соглашениях, поскольку не обучает базовые модели ИИ. Вместо этого компания заявляет, что ответы Reddit используются в ее поисковых результатах «законно». Однако это утверждение противоречит заявлению Reddit о том, что сбор данных был систематическим и несанкционированным.

Почему Это Важно

Судебный процесс подчеркивает растущую напряженность между разработчиками ИИ и создателями контента из-за владения данными. Reddit, с более чем 110 миллионами активных пользователей в день и миллиардами постов, представляет собой ценный источник обучающих данных. Результат этого дела может создать прецеденты в отношении того, как компании, занимающиеся ИИ, получают доступ к защищенному авторским правом материалу и используют его, что потенциально изменит будущее лицензирования данных и прав интеллектуальной собственности в быстро развивающейся сфере ИИ.