Reddit ha iniciado una demanda contra el motor de búsqueda de IA Perplexity y tres empresas de datos (Oxylabs UAB, AWMProxy y SerpApi) acusándolas de extraer ilegalmente su contenido con fines de entrenamiento de IA. La acción legal, presentada en el Tribunal de Distrito de EE. UU. para el Distrito Sur de Nueva York, afirma que estas entidades eludieron las medidas de seguridad de Reddit y Google para recolectar casi 3 mil millones de páginas de resultados de motores de búsqueda (SERP) en solo dos semanas en julio pasado.
Acusaciones de raspado sistemático
Según la demanda, los acusados emplearon tácticas engañosas para enmascarar sus identidades y ubicaciones mientras extraían datos de Reddit. La empresa comparó la operación con “aspirantes a ladrones de bancos” que tenían como objetivo el transporte de efectivo en lugar de la bóveda del banco en sí. Este raspado agresivo socava las protecciones de derechos de autor de Reddit, ya que la plataforma emitió previamente una carta de cese y desistimiento a Perplexity después de rastrear los datos robados hasta ellos.
Jugadores clave y conexiones
Perplexity sigue figurando como cliente de SerpApi, junto con importantes empresas de tecnología como Meta, Samsung y Nvidia. Esto pone de relieve la gran demanda de datos de formación entre los desarrolladores de IA. Reddit ya ha conseguido acuerdos de licencia con OpenAI y Google, pero también ha emprendido acciones legales contra Anthropic por el uso no autorizado de datos.
Panorama legal más amplio
Este caso es parte de una tendencia creciente de disputas por derechos de autor que involucran a empresas de inteligencia artificial. La Enciclopedia Británica, propietaria de Merriam-Webster, presentó recientemente una demanda similar contra Perplexity por infracción de derechos de autor. La cuestión central gira en torno a la insaciable necesidad de la IA de conjuntos de datos masivos de contenido generado por humanos (gran parte del cual tiene derechos de autor) y las complejidades legales de obtener ese contenido.
Defensa de la perplejidad
Perplexity sostiene que no requiere acuerdos de licencia porque no entrena modelos fundamentales de IA. En cambio, afirma que las respuestas de Reddit se utilizan en sus resultados de búsqueda “legalmente”. Sin embargo, esta afirmación contradice la afirmación de Reddit de que el raspado fue sistemático y no autorizado.
Por qué esto es importante
La demanda subraya la creciente tensión entre los desarrolladores de IA y los creadores de contenido sobre la propiedad de los datos. Reddit, con más de 110 millones de usuarios activos diarios y miles de millones de publicaciones, representa una valiosa fuente de datos de capacitación. El resultado de este caso podría sentar precedentes sobre cómo las empresas de IA acceden y utilizan material protegido por derechos de autor, lo que podría remodelar el futuro de las licencias de datos y los derechos de propiedad intelectual en el panorama de la IA en rápida evolución.
































