Google a publié un “Always On Memory Agent” open source qui modifie fondamentalement la façon dont les agents d’IA conservent et rappellent les informations. Contrairement aux systèmes conventionnels reposant sur des bases de données vectorielles, cet agent utilise un grand modèle de langage (LLM) pour gérer directement la mémoire persistante, en stockant les données dans SQLite et en les consolidant en arrière-plan. Le projet, construit avec l’Agent Development Kit (ADK) de Google et Gemini 3.1 Flash-Lite, marque une étape notable vers une autonomie continue et à long terme de l’IA.
L’abandon des bases de données vectorielles
Pendant des années, la mémoire des agents d’IA dépendait largement des bases de données vectorielles pour une récupération efficace. Cette nouvelle approche contourne entièrement cette complexité, en s’appuyant plutôt sur la capacité du LLM à organiser et mettre à jour directement la mémoire. Cela simplifie l’infrastructure, réduisant potentiellement les coûts et les frais généraux opérationnels, en particulier pour les agents de petite ou moyenne taille. La conception échange la latence de recherche vectorielle contre la latence du modèle, modifiant ainsi le goulot d’étranglement des performances.
Pourquoi c’est important : l’essor de l’IA persistante
Cette décision reflète une demande croissante de systèmes d’IA qui fonctionnent en continu, conservant le contexte lors d’interactions étendues. Ceci est crucial pour des applications telles que l’assistance à la recherche à long terme, les copilotes internes et les flux de travail automatisés. Cependant, la mémoire persistante introduit également de nouveaux défis en matière de gouvernance. Contrairement aux agents liés à la session, les systèmes dotés d’une mémoire continue nécessitent des politiques claires en matière de conservation des données, d’audit et de contrôle d’accès.
Comment ça marche : architecture simplifiée
L’agent fonctionne comme un service de longue durée, ingérant divers types de données (texte, image, audio, vidéo, PDF) et stockant des mémoires structurées dans SQLite. Une consolidation programmée, par défaut toutes les 30 minutes, garantit que le LLM met régulièrement à jour sa base de connaissances. Une API HTTP locale et un tableau de bord Streamlit fournissent des fonctionnalités d’accès et de surveillance. L’affirmation clé est qu’aucune base de données vectorielle ni pipeline d’intégration n’est nécessaire ; le LLM gère lui-même l’organisation de la mémoire.
Le rôle de Flash-Lite : économie et performances
Le modèle Gemini 3.1 Flash-Lite de Google alimente le système, offrant un équilibre entre vitesse et rentabilité. Au prix de 0,25 $ pour 1 million de jetons d’entrée et 1,50 $ pour 1 million de jetons de sortie, Flash-Lite est 2,5 fois plus rapide que Gemini 2.5 Flash et offre une augmentation de 45 % de la vitesse de sortie. Les performances du modèle (score Elo de 1 432 sur Arena.ai) le rendent viable pour les opérations à haute fréquence et toujours actives.
Problèmes de gouvernance et d’évolutivité
Cette version a déjà suscité un débat, les experts soulignant les risques de non-conformité liés à une consolidation incontrôlée de la mémoire. Sans frontières déterministes, un agent pourrait « rêver » et polliniser les souvenirs de manière imprévisible, créant ainsi des cauchemars en matière d’audit et de responsabilité. La mise à l’échelle du système soulève également des questions sur la dérive de la mémoire, les comportements en boucle et l’efficacité de la récupération à mesure que la base de connaissances se développe.
Vue d’ensemble : stratégie d’exécution des agents
L’ADK de Google ne présente pas cela comme une démonstration autonome, mais comme un élément d’une stratégie d’exécution d’agent plus large. Le framework est indépendant du modèle et prend en charge divers modèles de déploiement, notamment Cloud Run et Vertex AI Agent Engine. Cela suggère une vision des agents comme des systèmes logiciels déployables, avec la mémoire comme couche d’exécution intégrale.
En conclusion, l’agent mémoire open source de Google signale une évolution vers des systèmes d’IA plus persistants et autonomes. Même si la technologie offre des gains d’efficacité considérables, son succès à long terme dépendra de la résolution des problèmes de gouvernance et de la garantie de l’évolutivité des déploiements d’entreprise réels.
































