Google hat einen Open-Source-„Always On Memory Agent“ veröffentlicht, der die Art und Weise, wie KI-Agenten Informationen speichern und abrufen, grundlegend verändert. Im Gegensatz zu herkömmlichen Systemen, die auf Vektordatenbanken basieren, verwendet dieser Agent ein großes Sprachmodell (LLM), um den persistenten Speicher direkt zu verwalten, Daten in SQLite zu speichern und im Hintergrund zu konsolidieren. Das Projekt, das mit dem Agent Development Kit (ADK) von Google und Gemini 3.1 Flash-Lite erstellt wurde, markiert einen bemerkenswerten Schritt in Richtung kontinuierlicher, langfristiger KI-Autonomie.
Die Abkehr von Vektordatenbanken
Seit Jahren ist der Speicher von KI-Agenten für einen effizienten Abruf weitgehend auf Vektordatenbanken angewiesen. Dieser neue Ansatz umgeht diese Komplexität vollständig und verlässt sich stattdessen auf die Fähigkeit des LLM, den Speicher direkt zu organisieren und zu aktualisieren. Dies vereinfacht die Infrastruktur und senkt potenziell die Kosten und den Betriebsaufwand, insbesondere für kleinere oder mittlere Agenten. Das Design tauscht die Latenz der Vektorsuche gegen die Latenz des Modells und verschiebt so den Leistungsengpass.
Warum das wichtig ist: Der Aufstieg der persistenten KI
Der Schritt spiegelt die wachsende Nachfrage nach KI-Systemen wider, die kontinuierlich arbeiten und den Kontext über längere Interaktionen hinweg beibehalten. Dies ist von entscheidender Bedeutung für Anwendungen wie langfristige Forschungsunterstützung, interne Copiloten und automatisierte Arbeitsabläufe. Allerdings bringt das persistente Gedächtnis auch neue Governance-Herausforderungen mit sich. Im Gegensatz zu sitzungsgebundenen Agenten erfordern Systeme mit kontinuierlichem Speicher klare Richtlinien zur Datenaufbewahrung, Überwachung und Zugriffskontrolle.
Wie es funktioniert: Vereinfachte Architektur
Der Agent fungiert als Langzeitdienst, der verschiedene Datentypen (Text, Bild, Audio, Video, PDF) aufnimmt und strukturierte Erinnerungen in SQLite speichert. Durch die geplante Konsolidierung, standardmäßig alle 30 Minuten, wird sichergestellt, dass das LLM seine Wissensdatenbank regelmäßig aktualisiert. Eine lokale HTTP-API und ein Streamlit-Dashboard bieten Zugriffs- und Überwachungsfunktionen. Der Hauptanspruch besteht darin, dass keine Vektordatenbank oder Einbettungspipelines erforderlich sind; Der LLM übernimmt die Speicherorganisation selbst.
Die Rolle von Flash-Lite: Wirtschaftlichkeit und Leistung
Das System wird von Googles Gemini 3.1 Flash-Lite-Modell angetrieben und bietet ein ausgewogenes Verhältnis von Geschwindigkeit und Kosteneffizienz. Mit einem Preis von 0,25 US-Dollar pro 1 Million Eingabe-Token und 1,50 US-Dollar pro 1 Million Ausgabe-Token ist Flash-Lite 2,5-mal schneller als Gemini 2.5 Flash und bietet eine Steigerung der Ausgabegeschwindigkeit um 45 %. Die Leistung des Modells (Elo-Wert von 1432 auf Arena.ai) macht es für hochfrequente, ständig aktive Vorgänge geeignet.
Bedenken hinsichtlich Governance und Skalierbarkeit
Die Veröffentlichung hat bereits eine Debatte ausgelöst, wobei Experten auf die Compliance-Risiken einer unkontrollierten Speicherkonsolidierung hinweisen. Ohne deterministische Grenzen könnte ein Agent „träumen“ und Erinnerungen auf unvorhersehbare Weise gegenseitig befruchten, was zu Prüfungs- und Haftungsalbträumen führen würde. Die Skalierung des Systems wirft auch Fragen zur Speicherdrift, zum Schleifenverhalten und zur Abrufeffizienz auf, wenn die Wissensbasis wächst.
Das Gesamtbild: Agent-Laufzeitstrategie
Das ADK von Google stellt dies nicht als eigenständige Demo dar, sondern als Teil einer umfassenderen Agentenlaufzeitstrategie. Das Framework ist modellunabhängig und unterstützt verschiedene Bereitstellungsmuster, einschließlich Cloud Run und Vertex AI Agent Engine. Dies legt eine Vision von Agenten als einsetzbaren Softwaresystemen nahe, mit Speicher als integraler Laufzeitschicht.
Zusammenfassend lässt sich sagen, dass der Open-Source-Speicheragent von Google einen Wandel hin zu beständigeren und autonomeren KI-Systemen signalisiert. Während die Technologie überzeugende Effizienzsteigerungen bietet, hängt ihr langfristiger Erfolg von der Bewältigung von Governance-Bedenken und der Sicherstellung der Skalierbarkeit in realen Unternehmensimplementierungen ab.































