Problem moderacji treści rośnie w miarę zalewania Internetu treściami generowanymi przez sztuczną inteligencję, a jeden ze start-upów, Moonbounce, obstawia, że rozwiązaniem jest „polityka jako kod”. Założona przez byłego dyrektora Facebooka i Apple, Breta Levensona, firma właśnie zebrała 12 milionów dolarów na zbudowanie warstwy bezpieczeństwa w czasie rzeczywistym dla platform i systemów sztucznej inteligencji.

Niepowodzenie ręcznej moderacji

Doświadczenie Levensona na Facebooku ujawniło krytyczną wadę tradycyjnego moderowania: ludzcy moderatorzy, często pracujący ze źle przetłumaczonymi zasadami, podejmują błyskawiczne decyzje z dokładnością około 50%. To reaktywne podejście nie nadąża za atakującymi, zwłaszcza gdy narzędzia AI sprawiają, że tworzenie złośliwych treści jest szybsze i tańsze. Problem w tym, że opóźnienie oznacza szkodę. Zanim ktoś coś oznaczy, szkoda już została wyrządzona.

Moonbounce: bezpieczeństwo wbudowane w system, a nie przykręcone na górze

Moonbounce przyjmuje inne podejście. Firma szkoli duży model językowy (LLM), aby interpretować zasady treści klienta i stosować je w czasie rzeczywistym. System reaguje w czasie krótszym niż 300 milisekund, spowalniając propagację w celu ręcznego sprawdzenia lub natychmiast blokując treści wysokiego ryzyka. Jest to ważne, ponieważ:

  • Szybkość ma znaczenie: LLM mogą reagować znacznie szybciej niż moderatorzy.
  • Automatyzacja poprawia spójność: Kod stosuje zasady bez zmęczenia i uprzedzeń.
  • Proaktywne bezpieczeństwo staje się zaletą: Platformy mogą pozycjonować się jako bezpieczniejsze z założenia.

Kluczowi klienci i rozwój

Moonbounce obsługuje obecnie aplikacje randkowe, usługi towarzyszące AI i generatory obrazów, przetwarzając ponad 40 milionów czeków dziennie dla ponad 100 milionów użytkowników. Klientami są Channel AI, Civitai, Dippy AI i Moescape. Tinder osiągnął już dziesięciokrotną poprawę dokładności wykrywania, korzystając z podobnych narzędzi opartych na LLM.

Przyszłość: zarządzanie iteracyjne

Moonbounce opracowuje „kontrolę iteracyjną” – system przechwytujący złośliwe rozmowy i przekierowujący je w czasie rzeczywistym. Zamiast po prostu blokować niebezpieczne tematy, sztuczna inteligencja będzie modyfikować żądania, aby kierować chatboty do wsparcia. To odpowiedź na tragiczne przypadki, takie jak samobójstwo 14-latka, powiązana z interakcją z chatbotem AI, ilustrująca realne konsekwencje niepowodzeń moderacji.

Rzeczywistość biznesowa

Założyciel firmy przyznaje, że przejęcie przez technologicznego giganta takiego jak Meta byłoby logiczne, ale obawia się, że taka transakcja może zdusić innowacje. „Moi inwestorzy zabiją mnie za to, że to mówię, ale nie chciałbym, żeby ktoś nas kupił i ograniczył technologię”. Przesłanie leżące u podstaw tej sytuacji jest jasne: bezpieczeństwo sztucznej inteligencji jest obecnie kluczowym obowiązkiem biznesowym, a firmy gorączkowo szukają rozwiązań, zanim organy regulacyjne lub publiczne oburzenie zmuszą je do działania.

W skrócie: Moonbounce reprezentuje przejście od moderacji reaktywnej do proaktywnego bezpieczeństwa, które jest konieczne, ponieważ treści generowane przez sztuczną inteligencję stają się coraz bardziej powszechne. Rynek zabezpieczeń AI dynamicznie się rozwija, a model Moonbounce może wkrótce stać się standardową praktyką.