Проблема модерации контента обостряется по мере того, как интернет захлестывает сгенерированный ИИ контент, и один стартап, Moonbounce, делает ставку на то, что решение заключается в «политике как коде». Основанная бывшим руководителем Facebook и Apple Бретом Левенсоном, компания только что привлекла 12 миллионов долларов на создание слоя безопасности в реальном времени для платформ и ИИ-систем.

Провал Ручной Модерации

Опыт Левенсона в Facebook выявил критический недостаток традиционной модерации: люди-модераторы, часто работающие с плохо переведёнными правилами, принимают поспешные решения с точностью около 50%. Такой реактивный подход не успевает за злоумышленниками, особенно когда инструменты ИИ делают создание вредоносного контента быстрее и дешевле. Проблема в том, что задержка означает вред. К тому времени, как человек помечает что-то, ущерб уже нанесён.

Moonbounce: Безопасность, Встроенная в Систему, а Не Прикрученная Сверху

Moonbounce использует другой подход. Компания обучает большую языковую модель (LLM) интерпретировать правила контента клиента и применять их в реальном времени. Система реагирует менее чем за 300 миллисекунд, замедляя распространение для ручной проверки или немедленно блокируя контент с высоким риском. Это важно, потому что:

  • Скорость имеет значение: LLM могут реагировать гораздо быстрее, чем люди-модераторы.
  • Автоматизация повышает последовательность: Код применяет политику без усталости или предвзятости.
  • Проактивная безопасность становится преимуществом: Платформы могут позиционировать себя как более безопасные по дизайну.

Ключевые Клиенты и Рост

Moonbounce в настоящее время обслуживает приложения для знакомств, сервисы ИИ-компаньонов и генераторы изображений, обрабатывая более 40 миллионов ежедневных проверок для более чем 100 миллионов пользователей. Среди клиентов Channel AI, Civitai, Dippy AI и Moescape. Tinder уже добился десятикратного улучшения точности обнаружения, используя аналогичные инструменты на базе LLM.

Будущее: Итеративное Управление

Moonbounce разрабатывает «итеративное управление», систему, которая перехватывает вредоносные разговоры и перенаправляет их в реальном времени. Вместо простой блокировки опасных тем ИИ будет изменять запросы, чтобы направить чат-ботов на поддержку. Это реакция на трагические случаи, такие как самоубийство 14-летнего подростка, связанное с взаимодействием с ИИ-чатботом, что иллюстрирует реальные последствия сбоев в модерации.

Бизнес-Реальность

Основатель компании признаёт, что поглощение технологическим гигантом, таким как Meta, было бы логичным, но опасается, что такая сделка может задушить инновации. «Мои инвесторы убьют меня за то, что я это говорю, но я бы не хотел, чтобы кто-то купил нас и ограничил технологию». Основной посыл ясен: безопасность ИИ теперь является критической бизнес-ответственностью, и компании лихорадочно ищут решения, прежде чем регулирующие органы или общественное возмущение заставят их действовать.

Короче говоря: Moonbounce представляет собой переход от реактивной модерации к проактивной безопасности, что необходимо по мере того, как сгенерированный ИИ контент становится всё более распространённым. Рынок безопасности ИИ быстро растёт, и модель Moonbounce может скоро стать стандартной практикой.