Google ha rilasciato un “Always On Memory Agent” open source che cambia radicalmente il modo in cui gli agenti AI conservano e richiamano le informazioni. A differenza dei sistemi convenzionali che fanno affidamento su database vettoriali, questo agente utilizza un Large Language Model (LLM) per gestire direttamente la memoria persistente, archiviando i dati in SQLite e consolidandoli in background. Il progetto, realizzato con l’Agent Development Kit (ADK) di Google e Gemini 3.1 Flash-Lite, segna un passo notevole verso l’autonomia dell’IA continua e di lunga durata.
L’allontanamento dai database vettoriali
Per anni, la memoria degli agenti IA è dipesa in gran parte dai database vettoriali per un recupero efficiente. Questo nuovo approccio aggira completamente tale complessità, basandosi invece sulla capacità di LLM di organizzare e aggiornare direttamente la memoria. Ciò semplifica l’infrastruttura, riducendo potenzialmente i costi e le spese generali operative, in particolare per gli agenti di piccole o medie dimensioni. Il progetto scambia la latenza della ricerca vettoriale con la latenza del modello, spostando il collo di bottiglia delle prestazioni.
Perché è importante: l’ascesa dell’intelligenza artificiale persistente
La mossa riflette una crescente domanda di sistemi di intelligenza artificiale che operano continuamente, mantenendo il contesto attraverso interazioni estese. Ciò è fondamentale per applicazioni come l’assistenza alla ricerca a lungo termine, i copiloti interni e i flussi di lavoro automatizzati. Tuttavia, la memoria persistente introduce anche nuove sfide di governance. A differenza degli agenti legati alla sessione, i sistemi con memoria continua richiedono policy chiare sulla conservazione dei dati, sulla verifica e sul controllo degli accessi.
Come funziona: architettura semplificata
L’agente funziona come un servizio a lunga durata, acquisendo vari tipi di dati (testo, immagine, audio, video, PDF) e archiviando memorie strutturate in SQLite. Il consolidamento pianificato, per impostazione predefinita ogni 30 minuti, garantisce che LLM aggiorni regolarmente la propria knowledge base. Un’API HTTP locale e un dashboard Streamlit forniscono funzionalità di accesso e monitoraggio. L’affermazione chiave è che non sono necessari database vettoriali o pipeline di incorporamento; il LLM gestisce l’organizzazione della memoria stessa.
Il ruolo di Flash-Lite: economia e performance
Il modello Gemini 3.1 Flash-Lite di Google alimenta il sistema, fornendo un equilibrio tra velocità ed efficienza dei costi. Con un prezzo di 0,25 dollari per 1 milione di token di input e 1,50 dollari per 1 milione di token di output, Flash-Lite è 2,5 volte più veloce di Gemini 2.5 Flash e offre un aumento del 45% nella velocità di output. Le prestazioni del modello (punteggio Elo di 1432 su Arena.ai) lo rendono idoneo per operazioni ad alta frequenza e sempre attive.
Preoccupazioni in materia di governance e scalabilità
Il rilascio ha già acceso il dibattito, con gli esperti che sottolineano i rischi di conformità derivanti dal consolidamento incontrollato della memoria. Senza confini deterministici, un agente potrebbe “sognare” e impollinare i ricordi in modi imprevedibili, creando incubi di audit e responsabilità. La scalabilità del sistema solleva anche interrogativi sulla deriva della memoria, sui comportamenti di looping e sull’efficienza del recupero man mano che la base di conoscenza cresce.
Il quadro più ampio: strategia di runtime dell’agente
L’ADK di Google non lo inquadra come una demo autonoma, ma come parte di una strategia di runtime dell’agente più ampia. Il framework è indipendente dal modello e supporta vari modelli di distribuzione, tra cui Cloud Run e Vertex AI Agent Engine. Ciò suggerisce una visione degli agenti come sistemi software distribuibili, con la memoria come livello di runtime integrale.
In conclusione, l’agente di memoria open source di Google segnala uno spostamento verso sistemi di intelligenza artificiale più persistenti e autonomi. Sebbene la tecnologia offra interessanti guadagni in termini di efficienza, il suo successo a lungo termine dipenderà dalla risoluzione dei problemi di governance e dalla garanzia della scalabilità nelle implementazioni aziendali nel mondo reale.






























