Google heeft een open-source ‘Always On Memory Agent’ uitgebracht die een fundamentele verandering teweegbrengt in de manier waarop AI-agenten informatie bewaren en oproepen. In tegenstelling tot conventionele systemen die afhankelijk zijn van vectordatabases, gebruikt deze agent een groot taalmodel (LLM) om het persistente geheugen rechtstreeks te beheren, gegevens op te slaan in SQLite en deze op de achtergrond te consolideren. Het project, gebouwd met Google’s Agent Development Kit (ADK) en Gemini 3.1 Flash-Lite, markeert een opmerkelijke stap in de richting van continue, langdurige AI-autonomie.
De verschuiving weg van vectordatabases
Jarenlang was het geheugen van AI-agenten grotendeels afhankelijk van vectordatabases voor efficiënt ophalen. Deze nieuwe aanpak omzeilt die complexiteit volledig en vertrouwt in plaats daarvan op het vermogen van de LLM om het geheugen rechtstreeks te organiseren en bij te werken. Dit vereenvoudigt de infrastructuur, waardoor mogelijk de kosten en operationele overhead worden verlaagd, vooral voor kleinere of middelgrote agenten. Het ontwerp ruilt vectorzoeklatentie in voor modellatentie, waardoor het prestatieknelpunt wordt verschoven.
Waarom dit ertoe doet: de opkomst van persistente AI
Deze stap weerspiegelt een groeiende vraag naar AI-systemen die continu werken en de context behouden tijdens uitgebreide interacties. Dit is van cruciaal belang voor toepassingen als langdurige onderzoeksondersteuning, interne copiloten en geautomatiseerde workflows. Het persistente geheugen introduceert echter ook nieuwe bestuursuitdagingen. In tegenstelling tot sessiegebonden agenten vereisen systemen met continu geheugen een duidelijk beleid op het gebied van gegevensretentie, auditing en toegangscontrole.
Hoe het werkt: vereenvoudigde architectuur
De agent werkt als een langlopende service, neemt verschillende gegevenstypen op (tekst, afbeelding, audio, video, PDF) en slaat gestructureerde herinneringen op in SQLite. Geplande consolidatie, standaard elke 30 minuten, zorgt ervoor dat de LLM zijn kennisbank regelmatig bijwerkt. Een lokale HTTP API en Streamlit-dashboard bieden toegang en monitoringmogelijkheden. De belangrijkste claim is dat er geen vectordatabase of inbeddingspijplijnen nodig zijn; de LLM zorgt zelf voor de geheugenorganisatie.
De rol van Flash-Lite: economie en prestaties
Het Gemini 3.1 Flash-Lite-model van Google drijft het systeem aan en biedt een balans tussen snelheid en kosteneffectiviteit. Met een prijs van $0,25 per 1 miljoen invoertokens en $1,50 per 1 miljoen uitvoertokens is Flash-Lite 2,5 keer sneller dan Gemini 2.5 Flash en levert het een toename van 45% in de uitvoersnelheid. De prestaties van het model (Elo-score van 1432 op Arena.ai) maken het geschikt voor hoogfrequente, altijd-aan-operaties.
Zorgen over bestuur en schaalbaarheid
De release heeft al tot discussie geleid, waarbij experts wezen op de compliancerisico’s van ongecontroleerde geheugenconsolidatie. Zonder deterministische grenzen zou een agent op onvoorspelbare manieren kunnen ‘dromen’ en herinneringen kunnen kruisbestuiven, waardoor audit- en aansprakelijkheidsnachtmerries ontstaan. Het schalen van het systeem roept ook vragen op over geheugendrift, looping-gedrag en de efficiëntie van het ophalen naarmate de kennisbasis groeit.
Het grotere geheel: Agent Runtime-strategie
De ADK van Google beschouwt dit niet als een op zichzelf staande demo, maar als onderdeel van een bredere runtime-strategie voor agenten. Het framework is modelonafhankelijk en ondersteunt verschillende implementatiepatronen, waaronder Cloud Run en Vertex AI Agent Engine. Dit suggereert een visie van agenten als inzetbare softwaresystemen, met geheugen als een integrale runtimelaag.
Concluderend signaleert de open-source geheugenagent van Google een verschuiving naar meer persistente en autonome AI-systemen. Hoewel de technologie overtuigende efficiëntiewinsten biedt, zal het succes op de lange termijn afhangen van het aanpakken van bestuursproblemen en het garanderen van schaalbaarheid in bedrijfsimplementaties in de echte wereld.
