De uitdaging van het modereren van inhoud neemt explosief toe nu AI-gegenereerde inhoud het internet overspoelt, en een startup, Moonbounce, gokt erop dat ‘beleid als code’ het antwoord is. Het bedrijf, opgericht door voormalig Facebook- en Apple-directeur Brett Levenson, heeft zojuist $ 12 miljoen opgehaald om een ​​realtime veiligheidslaag voor platforms en AI-systemen te bouwen.

Het falen van menselijke moderatie

Levensons ervaring bij Facebook bracht een kritieke fout in de traditionele moderatie aan het licht: menselijke beoordelaars, die vaak werken vanuit slecht vertaald beleid, nemen overhaaste beslissingen met slechts ongeveer 50% nauwkeurigheid. Deze reactieve aanpak houdt geen gelijke tred met kwaadwillende actoren, vooral omdat AI-tools het genereren van schadelijke inhoud sneller en goedkoper maken. Het probleem is dat vertraging schade betekent. Tegen de tijd dat een mens iets signaleert, is de schade al aangericht.

Moonbounce: ingebouwde veiligheid, niet vastgeschroefd

Moonbounce hanteert een andere aanpak. Het traint een groot taalmodel (LLM) om het inhoudsbeleid van een klant te interpreteren en dit tijdens runtime af te dwingen. Het systeem reageert binnen 300 milliseconden, waardoor de distributie wordt vertraagd voor menselijke beoordeling of risicovolle inhoud onmiddellijk wordt geblokkeerd. Dit is belangrijk omdat:

  • Snelheid is belangrijk: LLM’s kunnen veel sneller reageren dan menselijke reviewers.
  • Automatisering verbetert de consistentie: Code dwingt beleid af zonder vermoeidheid of vooringenomenheid.
  • Proactieve veiligheid wordt een functie: Platforms kunnen zichzelf op de markt brengen als veiliger door hun ontwerp.

Belangrijkste klanten en groei

Moonbounce levert momenteel dating-apps, AI-begeleidende diensten en beeldgeneratoren, en verwerkt dagelijks meer dan 40 miljoen beoordelingen voor meer dan 100 miljoen gebruikers. Klanten zijn onder meer Channel AI, Civitai, Dippy AI en Moescape. Tinder heeft de detectienauwkeurigheid al tien keer verbeterd met behulp van vergelijkbare LLM-tools.

De toekomst: iteratieve besturing

Moonbounce ontwikkelt ‘iteratieve sturing’, een systeem dat schadelijke gesprekken onderschept en deze in realtime omleidt. In plaats van simpelweg gevaarlijke onderwerpen te blokkeren, zou de AI de aanwijzingen aanpassen om chatbots in de richting van ondersteunende reacties te sturen. Dit is een reactie op tragische gevallen, zoals de zelfmoord van een 14-jarige die verband houdt met interacties met een AI-chatbot, wat de reële gevolgen van moderatiefouten illustreert.

De zakelijke realiteit

De oprichter van het bedrijf geeft toe dat een overname door een technologiegigant als Meta zinvol zou zijn, maar vreest dat een dergelijke deal de innovatie in de weg zou kunnen staan. “Mijn investeerders zouden me vermoorden als ik dit zeg, maar ik zou het vreselijk vinden als iemand ons zou kopen en vervolgens de technologie zou beperken.” De onderliggende boodschap is duidelijk: AI-veiligheid is nu een cruciale bedrijfsrisico, en bedrijven doen hun uiterste best om oplossingen te vinden voordat toezichthouders of publieke reacties hen daartoe dwingen.

In het kort: Moonbounce vertegenwoordigt een verschuiving van reactieve moderatie naar proactieve veiligheid, een noodzaak omdat door AI gegenereerde inhoud steeds alomtegenwoordiger wordt. De markt voor AI-veiligheid groeit snel en het model van Moonbounce kan binnenkort de standaardpraktijk worden.