Google опублікувала вихідний код “Агента з постійною пам’яттю”, який кардинально змінює підхід до того, як ІІ-агенти зберігають та згадують інформацію. На відміну від традиційних систем, що покладаються на векторні бази даних, цей агент використовує велику мовну модель (LLM) для прямого управління постійною пам’яттю, зберігаючи дані в SQLite та консолідуючи їх у фоновому режимі. Проект, побудований з використанням Agent Development Kit (ADK) та Gemini 3.1 Flash-Lite від Google, знаменує важливий крок до безперервної, довгострокової автономії ІІ.
Зсув у бік відмови від векторних баз даних
Протягом багатьох років пам’ять ІІ-агентів значною мірою залежала від баз даних для ефективного пошуку. Цей новий підхід повністю обходить цю складність, покладаючись натомість на здатність LLM організовувати та оновлювати пам’ять безпосередньо. Це спрощує інфраструктуру, потенційно знижуючи витрати та операційні витрати, особливо для невеликих чи середніх агентів. У цьому дизайні швидкість пошуку у векторі замінюється затримкою моделі, зміщуючи вузьке місце продуктивності.
Чому це важливо: зростання постійного ІІ
Цей крок відображає зростання попиту на ІІ-системи, які працюють безперервно, зберігаючи контекст протягом тривалих взаємодій. Це критично важливо для таких програм, як довгострокова дослідницька допомога, внутрішні співпроцесори та автоматизовані робочі процеси. Однак постійна пам’ять створює нові проблеми управління. На відміну від агентів, обмежених сесіями, системи з безперервною пам’яттю вимагають чіткої політики щодо зберігання даних, аудиту та контролю доступу.
Як це працює: спрощена архітектура
Агент працює як довгострокова служба, поглинаючи різні типи даних (текст, зображення, аудіо, відео, PDF) та зберігаючи структуровану пам’ять у SQLite. Запланована консолідація за промовчанням кожні 30 хвилин гарантує, що LLM регулярно оновлює свою базу знань. Локальний HTTP API та панель Streamlit забезпечують доступ та можливості моніторингу. Ключове твердження полягає в тому, що векторні бази даних або конвеєри вбудовування не потрібні; LLM самостійно керує організацією пам’яті.
Роль Flash-Lite: економіка та продуктивність
Модель Gemini 3.1 Flash-Lite від Google забезпечує систему, забезпечуючи баланс між швидкістю та економічною ефективністю. Вартість складає 0,25 долара США за 1 мільйон вхідних токенів та 1,50 долара США за 1 мільйон вихідних токенів. Flash-Lite на 2,5 рази швидше, ніж Gemini 2.5 Flash, та забезпечує збільшення швидкості виведення на 45%. Продуктивність моделі (Elo score 1432 на Arena.ai) робить її життєздатною для високочастотних, постійно увімкнених операцій.
Проблеми управління та масштабованості
Випуск уже викликав дискусії, причому експерти вказують на ризики відповідності, пов’язані з неконтрольованою консолідацією пам’яті. Без детермінованих кордонів агент може “мріяти” та перехресно-запилювати спогади непередбачуваним чином, створюючи кошмари аудиту та відповідальності. Масштабування системи також викликає питання про дрейф пам’яті, циклічні поведінки та ефективність пошуку в міру зростання бази знань.
Загальна картина: стратегія середовища виконання агента
ADK від Google представляє це не як окрему демонстрацію, а як частину ширшої стратегії середовища виконання агента. Фреймворк є модель-агностиком та підтримує різні моделі розгортання, включаючи Cloud Run та Vertex AI Agent Engine. Це вказує на бачення агентів як програмних систем, що розгортаються, де пам’ять є невід’ємним шаром середовища виконання.
Насамкінець, система пам’яті з відкритим вихідним кодом від Google сигналізує про перехід до більш постійних та автономних ІІ-систем. Хоча ця технологія пропонує переконливі переваги в ефективності, її довгостроковий успіх залежатиме від вирішення проблем управління та забезпечення масштабованості у реальних корпоративних розгортаннях.
