La sfida della moderazione dei contenuti sta esplodendo man mano che i contenuti generati dall’intelligenza artificiale inondano Internet e una startup, Moonbounce, scommette che la “politica come codice” è la risposta. Fondata dall’ex dirigente di Facebook e Apple Brett Levenson, la società ha appena raccolto 12 milioni di dollari per costruire un livello di sicurezza in tempo reale per piattaforme e sistemi di intelligenza artificiale.
Il fallimento della moderazione umana
L’esperienza di Levenson su Facebook ha rivelato un difetto critico nella moderazione tradizionale: i revisori umani, che spesso lavorano con politiche tradotte male, prendono decisioni affrettate con solo il 50% di precisione. Questo approccio reattivo non riesce a tenere il passo con gli attori malintenzionati, soprattutto perché gli strumenti di intelligenza artificiale rendono la generazione di contenuti dannosi più rapida ed economica. Il problema è che ritardo significa danno. Nel momento in cui un essere umano segnala qualcosa, il danno è già fatto.
Moonbounce: sicurezza integrata, non imbullonata
Moonbounce adotta un approccio diverso. Addestra un modello linguistico di grandi dimensioni (LLM) per interpretare le politiche sui contenuti di un cliente e applicarle in fase di esecuzione. Il sistema risponde in meno di 300 millisecondi, rallentando la distribuzione per la revisione umana o bloccando immediatamente i contenuti ad alto rischio. Ciò è significativo perché:
- La velocità conta: i LLM possono reagire molto più velocemente dei revisori umani.
- L’automazione migliora la coerenza: Il codice applica le policy senza fatica o pregiudizi.
- La sicurezza proattiva diventa una caratteristica: le piattaforme possono presentarsi come più sicure in base alla progettazione.
Clienti chiave e crescita
Moonbounce attualmente serve app di appuntamenti, servizi di intelligenza artificiale e generatori di immagini, elaborando oltre 40 milioni di recensioni giornaliere per oltre 100 milioni di utenti. I clienti includono Channel AI, Civitai, Dippy AI e Moescape. Tinder ha già riscontrato un miglioramento di 10 volte nella precisione del rilevamento utilizzando strumenti simili basati su LLM.
Il futuro: governo iterativo
Moonbounce sta sviluppando uno “sterzo iterativo”, un sistema che intercetta le conversazioni dannose e le reindirizza in tempo reale. Invece di bloccare semplicemente argomenti pericolosi, l’intelligenza artificiale modificherebbe i suggerimenti per indirizzare i chatbot verso risposte di supporto. Questa è una risposta a casi tragici, come il suicidio di un quattordicenne legato alle interazioni con un chatbot AI, che illustra le conseguenze nel mondo reale dei fallimenti nella moderazione.
La realtà aziendale
Il fondatore dell’azienda ammette che un’acquisizione da parte di un gigante tecnologico come Meta avrebbe senso, ma teme che un simile accordo possa soffocare l’innovazione. “I miei investitori mi ucciderebbero se dicessi questo, ma detesterei vedere qualcuno comprarci e poi limitare la tecnologia.” Il messaggio di fondo è chiaro: la sicurezza dell’intelligenza artificiale è ora una responsabilità aziendale fondamentale e le aziende si stanno affrettando a trovare soluzioni prima che i regolatori o la reazione pubblica forzano loro la mano.
In breve: Moonbounce rappresenta un passaggio dalla moderazione reattiva alla sicurezza proattiva, una necessità poiché i contenuti generati dall’intelligenza artificiale diventano sempre più pervasivi. Il mercato della sicurezza dell’intelligenza artificiale è in rapida crescita e il modello di Moonbounce potrebbe presto diventare una pratica standard.































