El desafío de la moderación de contenido está aumentando a medida que el contenido generado por IA inunda Internet, y una startup, Moonbounce, apuesta a que “políticas como código” es la respuesta. Fundada por el ex ejecutivo de Facebook y Apple Brett Levenson, la compañía acaba de recaudar 12 millones de dólares para construir una capa de seguridad en tiempo real para plataformas y sistemas de inteligencia artificial.

El fracaso de la moderación humana

La experiencia de Levenson en Facebook reveló un defecto crítico en la moderación tradicional: los revisores humanos, que a menudo trabajan a partir de políticas mal traducidas, toman decisiones apresuradas con sólo un 50% de precisión. Este enfoque reactivo no logra seguir el ritmo de los actores maliciosos, especialmente porque las herramientas de inteligencia artificial hacen que la generación de contenido dañino sea más rápida y económica. El problema es que la demora significa daño. Cuando un humano detecta algo, el daño ya está hecho.

Moonbounce: seguridad incorporada, no atornillada

Moonbounce adopta un enfoque diferente. Entrena un modelo de lenguaje grande (LLM) para interpretar las políticas de contenido de un cliente y aplicarlas en tiempo de ejecución. El sistema responde en menos de 300 milisegundos, ya sea ralentizando la distribución para revisión humana o bloqueando el contenido de alto riesgo inmediatamente. Esto es significativo porque:

  • La velocidad importa: Los LLM pueden reaccionar mucho más rápido que los revisores humanos.
  • La automatización mejora la coherencia: el código aplica políticas sin fatiga ni sesgos.
  • La seguridad proactiva se convierte en una característica: Las plataformas pueden promocionarse como más seguras por diseño.

Clientes clave y crecimiento

Actualmente, Moonbounce ofrece aplicaciones de citas, servicios complementarios de inteligencia artificial y generadores de imágenes, y procesa más de 40 millones de reseñas diarias para más de 100 millones de usuarios. Los clientes incluyen Channel AI, Civitai, Dippy AI y Moescape. Tinder ya ha experimentado una mejora de 10 veces en la precisión de la detección utilizando herramientas similares impulsadas por LLM.

El futuro: dirección iterativa

Moonbounce está desarrollando una “dirección iterativa”, un sistema que intercepta conversaciones dañinas y las redirige en tiempo real. En lugar de simplemente bloquear temas peligrosos, la IA modificaría las indicaciones para guiar a los chatbots hacia respuestas de apoyo. Esta es una respuesta a casos trágicos, como el suicidio de un niño de 14 años vinculado a interacciones con un chatbot de IA, que ilustra las consecuencias en el mundo real de las fallas de moderación.

La realidad empresarial

El fundador de la empresa admite que una adquisición por parte de un gigante tecnológico como Meta tendría sentido, pero le preocupa que tal acuerdo pueda sofocar la innovación. “Mis inversores me matarían por decir esto, pero odiaría ver que alguien nos compre y luego restrinja la tecnología”. El mensaje subyacente es claro: la seguridad de la IA es ahora una responsabilidad empresarial crítica, y las empresas están luchando por encontrar soluciones antes de que los reguladores o la reacción pública les obliguen.

En resumen: Moonbounce representa un cambio de la moderación reactiva a la seguridad proactiva, una necesidad a medida que el contenido generado por IA se vuelve cada vez más generalizado. El mercado de la seguridad de la IA está creciendo rápidamente y el modelo de Moonbounce pronto podría convertirse en una práctica estándar.