Google открывает исходный код системы «Постоянной памяти» агентов, обходя векторные базы данных

От

maxwelhelp

08.03.2026

Google опубликовала исходный код «Агента с постоянной памятью», который кардинально меняет подход к тому, как ИИ-агенты сохраняют и вспоминают информацию. В отличие от традиционных систем, полагающихся на векторные базы данных, этот агент использует большую языковую модель (LLM) для прямого управления постоянной памятью, храня данные в SQLite и консолидируя их в фоновом режиме. Проект, построенный с использованием Agent Development Kit (ADK) и Gemini 3.1 Flash-Lite от Google, знаменует собой важный шаг к непрерывной, долгосрочной автономии ИИ.

Сдвиг в сторону отказа от векторных баз данных

На протяжении многих лет память ИИ-агентов в значительной степени зависела от векторных баз данных для эффективного поиска. Этот новый подход полностью обходит эту сложность, полагаясь вместо этого на способность LLM организовывать и обновлять память напрямую. Это упрощает инфраструктуру, потенциально снижая затраты и операционные расходы, особенно для небольших или средних агентов. В этом дизайне скорость поиска в векторе заменяется задержкой модели, смещая узкое место производительности.

Почему это важно: рост постоянного ИИ

Этот шаг отражает растущий спрос на ИИ-системы, которые работают непрерывно, сохраняя контекст в течение длительных взаимодействий. Это критически важно для таких приложений, как долгосрочная исследовательская помощь, внутренние сопроцессоры и автоматизированные рабочие процессы. Однако постоянная память также создает новые проблемы управления. В отличие от агентов, ограниченных сессиями, системы с непрерывной памятью требуют четкой политики в отношении хранения данных, аудита и контроля доступа.

Как это работает: упрощенная архитектура

Агент работает как долгосрочная служба, поглощая различные типы данных (текст, изображения, аудио, видео, PDF) и сохраняя структурированную память в SQLite. Запланированная консолидация, по умолчанию каждые 30 минут, гарантирует, что LLM регулярно обновляет свою базу знаний. Локальный HTTP API и панель Streamlit обеспечивают доступ и возможности мониторинга. Ключевое утверждение заключается в том, что векторная база данных или конвейеры встраивания не требуются; LLM самостоятельно управляет организацией памяти.

Роль Flash-Lite: экономика и производительность

Модель Gemini 3.1 Flash-Lite от Google обеспечивает систему, обеспечивая баланс между скоростью и экономической эффективностью. Стоимость составляет 0,25 доллара США за 1 миллион входных токенов и 1,50 доллара США за 1 миллион выходных токенов. Flash-Lite на 2,5 раза быстрее, чем Gemini 2.5 Flash, и обеспечивает увеличение скорости вывода на 45%. Производительность модели (Elo score 1432 на Arena.ai) делает ее жизнеспособной для высокочастотных, постоянно включенных операций.

Проблемы управления и масштабируемости

Выпуск уже вызвал дискуссии, причем эксперты указывают на риски соответствия, связанные с неконтролируемой консолидацией памяти. Без детерминированных границ агент может «мечтать» и перекрестно-опылять воспоминания непредсказуемым образом, создавая кошмары аудита и ответственности. Масштабирование системы также вызывает вопросы о дрейфе памяти, циклических поведениях и эффективности поиска по мере роста базы знаний.

Общая картина: стратегия среды выполнения агента

ADK от Google представляет это не как отдельную демонстрацию, а как часть более широкой стратегии среды выполнения агента. Фреймворк является модель-агностиком и поддерживает различные модели развертывания, включая Cloud Run и Vertex AI Agent Engine. Это указывает на видение агентов как развертываемых программных систем, где память является неотъемлемым слоем среды выполнения.

В заключение, система памяти с открытым исходным кодом от Google сигнализирует о переходе к более постоянным и автономным ИИ-системам. Хотя эта технология предлагает убедительные преимущества в эффективности, ее долгосрочный успех будет зависеть от решения проблем управления и обеспечения масштабируемости в реальных корпоративных развертываниях.