Le défi de la modération du contenu explose à mesure que le contenu généré par l’IA inonde Internet, et une startup, Moonbounce, parie que « la politique en tant que code » est la réponse. Fondée par Brett Levenson, ancien dirigeant de Facebook et d’Apple, la société vient de lever 12 millions de dollars pour créer une couche de sécurité en temps réel pour les plates-formes et les systèmes d’IA.
L’échec de la modération humaine
L’expérience de Levenson chez Facebook a révélé une faille critique dans la modération traditionnelle : les évaluateurs humains, travaillant souvent à partir de politiques mal traduites, prennent des décisions précipitées avec une précision d’environ 50 % seulement. Cette approche réactive ne parvient pas à suivre le rythme des acteurs malveillants, d’autant plus que les outils d’IA rendent la génération de contenu nuisible plus rapide et moins coûteuse. Le problème est que un retard signifie un préjudice. Au moment où un humain signale quelque chose, le mal est déjà fait.
Moonbounce : sécurité intégrée, non boulonnée
Moonbounce adopte une approche différente. Il entraîne un grand modèle de langage (LLM) pour interpréter les politiques de contenu d’un client et les appliquer au moment de l’exécution. Le système répond en moins de 300 millisecondes, soit en ralentissant la distribution pour examen humain, soit en bloquant immédiatement le contenu à haut risque. Ceci est important car :
- La vitesse compte : Les LLM peuvent réagir beaucoup plus rapidement que les évaluateurs humains.
- L’automatisation améliore la cohérence : Le code applique la politique sans lassitude ni parti pris.
- La sécurité proactive devient une fonctionnalité : Les plates-formes peuvent se présenter comme étant plus sûres de par leur conception.
Clients clés et croissance
Moonbounce propose actuellement des applications de rencontres, des services compagnons d’IA et des générateurs d’images, traitant plus de 40 millions d’avis quotidiens pour plus de 100 millions d’utilisateurs. Les clients incluent Channel AI, Civitai, Dippy AI et Moescape. Tinder a déjà constaté une amélioration de 10 fois de la précision de détection en utilisant des outils similaires basés sur LLM.
L’avenir : le pilotage itératif
Moonbounce développe un « pilotage itératif », un système qui intercepte les conversations nuisibles et les redirige en temps réel. Au lieu de simplement bloquer les sujets dangereux, l’IA modifierait les invites pour orienter les chatbots vers des réponses de soutien. Il s’agit d’une réponse à des cas tragiques, comme le suicide d’un jeune de 14 ans lié à des interactions avec un chatbot IA, illustrant les conséquences concrètes des échecs de modération.
La réalité commerciale
Le fondateur de l’entreprise admet qu’une acquisition par un géant de la technologie comme Meta serait logique, mais craint qu’un tel accord puisse étouffer l’innovation. “Mes investisseurs me tueraient pour avoir dit cela, mais je détesterais voir quelqu’un nous acheter et ensuite restreindre la technologie.” Le message sous-jacent est clair : la sécurité de l’IA est désormais une responsabilité commerciale cruciale, et les entreprises se démènent pour trouver des solutions avant que les régulateurs ou les réactions négatives du public ne leur forcent la main.
En bref : Moonbounce représente le passage d’une modération réactive à une sécurité proactive, une nécessité à mesure que le contenu généré par l’IA devient de plus en plus omniprésent. Le marché de la sécurité de l’IA connaît une croissance rapide et le modèle de Moonbounce pourrait bientôt devenir une pratique courante.
































