Google опубликовала исходный код «Агента с постоянной памятью», который кардинально меняет подход к тому, как ИИ-агенты сохраняют и вспоминают информацию. В отличие от традиционных систем, полагающихся на векторные базы данных, этот агент использует большую языковую модель (LLM) для прямого управления постоянной памятью, храня данные в SQLite и консолидируя их в фоновом режиме. Проект, построенный с использованием Agent Development Kit (ADK) и Gemini 3.1 Flash-Lite от Google, знаменует собой важный шаг к непрерывной, долгосрочной автономии ИИ.
Сдвиг в сторону отказа от векторных баз данных
На протяжении многих лет память ИИ-агентов в значительной степени зависела от векторных баз данных для эффективного поиска. Этот новый подход полностью обходит эту сложность, полагаясь вместо этого на способность LLM организовывать и обновлять память напрямую. Это упрощает инфраструктуру, потенциально снижая затраты и операционные расходы, особенно для небольших или средних агентов. В этом дизайне скорость поиска в векторе заменяется задержкой модели, смещая узкое место производительности.
Почему это важно: рост постоянного ИИ
Этот шаг отражает растущий спрос на ИИ-системы, которые работают непрерывно, сохраняя контекст в течение длительных взаимодействий. Это критически важно для таких приложений, как долгосрочная исследовательская помощь, внутренние сопроцессоры и автоматизированные рабочие процессы. Однако постоянная память также создает новые проблемы управления. В отличие от агентов, ограниченных сессиями, системы с непрерывной памятью требуют четкой политики в отношении хранения данных, аудита и контроля доступа.
Как это работает: упрощенная архитектура
Агент работает как долгосрочная служба, поглощая различные типы данных (текст, изображения, аудио, видео, PDF) и сохраняя структурированную память в SQLite. Запланированная консолидация, по умолчанию каждые 30 минут, гарантирует, что LLM регулярно обновляет свою базу знаний. Локальный HTTP API и панель Streamlit обеспечивают доступ и возможности мониторинга. Ключевое утверждение заключается в том, что векторная база данных или конвейеры встраивания не требуются; LLM самостоятельно управляет организацией памяти.
Роль Flash-Lite: экономика и производительность
Модель Gemini 3.1 Flash-Lite от Google обеспечивает систему, обеспечивая баланс между скоростью и экономической эффективностью. Стоимость составляет 0,25 доллара США за 1 миллион входных токенов и 1,50 доллара США за 1 миллион выходных токенов. Flash-Lite на 2,5 раза быстрее, чем Gemini 2.5 Flash, и обеспечивает увеличение скорости вывода на 45%. Производительность модели (Elo score 1432 на Arena.ai) делает ее жизнеспособной для высокочастотных, постоянно включенных операций.
Проблемы управления и масштабируемости
Выпуск уже вызвал дискуссии, причем эксперты указывают на риски соответствия, связанные с неконтролируемой консолидацией памяти. Без детерминированных границ агент может «мечтать» и перекрестно-опылять воспоминания непредсказуемым образом, создавая кошмары аудита и ответственности. Масштабирование системы также вызывает вопросы о дрейфе памяти, циклических поведениях и эффективности поиска по мере роста базы знаний.
Общая картина: стратегия среды выполнения агента
ADK от Google представляет это не как отдельную демонстрацию, а как часть более широкой стратегии среды выполнения агента. Фреймворк является модель-агностиком и поддерживает различные модели развертывания, включая Cloud Run и Vertex AI Agent Engine. Это указывает на видение агентов как развертываемых программных систем, где память является неотъемлемым слоем среды выполнения.
В заключение, система памяти с открытым исходным кодом от Google сигнализирует о переходе к более постоянным и автономным ИИ-системам. Хотя эта технология предлагает убедительные преимущества в эффективности, ее долгосрочный успех будет зависеть от решения проблем управления и обеспечения масштабируемости в реальных корпоративных развертываниях.
