System agenta Google typu open source „Persistent Memory” z pominięciem wektorowych baz danych

maxwelhelp

08.03.2026

Google opublikował kod źródłowy „Persistent Memory Agent”, który rewolucjonizuje sposób, w jaki agenci AI przechowują i przywołują informacje. W przeciwieństwie do tradycyjnych systemów opartych na wektorowych bazach danych, agent ten wykorzystuje model dużego języka (LLM) do bezpośredniego zarządzania pamięcią trwałą, przechowywania danych w SQLite i konsolidowania ich w tle. Zbudowany przy użyciu zestawu deweloperskiego Google Agent Development Kit (ADK) i Gemini 3.1 Flash-Lite, projekt stanowi ważny krok w kierunku ciągłej, długoterminowej autonomii sztucznej inteligencji.

Odejdź od wektorowych baz danych

Przez wiele lat pamięć agentów AI w dużym stopniu opierała się na wektorowych bazach danych w celu wydajnego wyszukiwania. To nowe podejście całkowicie omija tę złożoność, opierając się zamiast tego na zdolności LLM do bezpośredniego organizowania i aktualizowania pamięci. Upraszcza to infrastrukturę, potencjalnie zmniejszając koszty i wydatki operacyjne, szczególnie w przypadku małych i średnich agentów. W tym projekcie prędkość wyszukiwania wektorowego zostaje zastąpiona opóźnieniem modelu, co powoduje przesunięcie wąskiego gardła wydajności.

Dlaczego to ma znaczenie: rozwój trwałej sztucznej inteligencji

Posunięcie to odzwierciedla rosnące zapotrzebowanie na systemy sztucznej inteligencji, które działają w sposób ciągły i zachowują kontekst podczas długoterminowych interakcji. Ma to kluczowe znaczenie w przypadku zastosowań takich jak długoterminowa pomoc badawcza, wewnętrzne koprocesory i zautomatyzowane przepływy pracy. Jednak pamięć trwała stwarza również nowe problemy w zarządzaniu. W przeciwieństwie do agentów związanych z sesją, systemy pamięci ciągłej wymagają jasnych zasad dotyczących przechowywania danych, audytu i kontroli dostępu.

Jak to działa: uproszczona architektura

Agent działa jako długotrwała usługa, pobierająca różne typy danych (tekst, obrazy, audio, wideo, PDF) i przechowująca pamięć strukturalną w SQLite. Zaplanowana konsolidacja, domyślnie co 30 minut, gwarantuje, że LLM regularnie aktualizuje swoją bazę wiedzy. Lokalne API HTTP i panel Streamlit zapewniają dostęp i możliwości monitorowania. Kluczowym założeniem jest to, że nie jest wymagana żadna baza danych wektorowych ani potoki osadzania; LLM niezależnie zarządza organizacją pamięci.

Rola Flash-Lite: ekonomia i produktywność

Model Google Gemini 3.1 Flash-Lite zasila system, zapewniając równowagę pomiędzy szybkością i opłacalnością. Koszt wynosi 0,25 USD za 1 milion tokenów wejściowych i 1,50 USD za 1 milion tokenów wyjściowych. Flash-Lite jest 2,5 razy szybszy niż Gemini 2.5 Flash i zapewnia 45% wzrost szybkości wyjściowej. Wydajność modelu (wynik Elo 1432 na Arena.ai) sprawia, że jest on opłacalny do ciągłych operacji o wysokiej częstotliwości.

Problemy z zarządzaniem i skalowalnością

Ta publikacja wywołała już debatę, a eksperci wskazali na ryzyko związane z niekontrolowaną konsolidacją pamięci. Bez deterministycznych granic agent może „śnić” i krzyżować wspomnienia w nieprzewidywalny sposób, tworząc koszmary związane z audytem i odpowiedzialnością. Skalowanie systemu rodzi również pytania dotyczące dryfu pamięci, zachowań cyklicznych i wydajności wyszukiwania w miarę powiększania się bazy wiedzy.

Ogólny obraz: strategia działania agenta

Zestaw ADK firmy Google przedstawia to nie jako samodzielną wersję demonstracyjną, ale jako część szerszej strategii działania agenta. Platforma jest niezależna od modelu i obsługuje różne modele wdrażania, w tym Cloud Run i Vertex AI Agent Engine. Wskazuje to na wizję agentów jako możliwych do wdrożenia systemów oprogramowania, w których pamięć stanowi integralną warstwę środowiska wykonawczego.

Podsumowując, system pamięci typu open source firmy Google sygnalizuje przejście w stronę bardziej trwałych i autonomicznych systemów sztucznej inteligencji. Chociaż technologia ta oferuje istotne korzyści w zakresie wydajności, jej długoterminowy sukces będzie zależał od rozwiązania problemów związanych z zarządzaniem i zapewnienia skalowalności w rzeczywistych wdrożeniach korporacyjnych.