Sistema de memória de agente “Always On” de código aberto do Google, ignorando bancos de dados de vetores

08.03.2026

O Google lançou um “Agente Always On Memory” de código aberto que muda fundamentalmente a forma como os agentes de IA retêm e recuperam informações. Ao contrário dos sistemas convencionais dependentes de bancos de dados vetoriais, este agente utiliza um modelo de linguagem grande (LLM) para gerenciar diretamente a memória persistente, armazenando dados em SQLite e consolidando-os em segundo plano. O projeto, desenvolvido com o Agent Development Kit (ADK) do Google e o Gemini 3.1 Flash-Lite, marca um passo notável em direção à autonomia contínua e de longa duração da IA.

A mudança dos bancos de dados de vetores

Durante anos, a memória do agente de IA dependeu em grande parte de bancos de dados vetoriais para recuperação eficiente. Esta nova abordagem ignora totalmente essa complexidade, confiando, em vez disso, na capacidade do LLM de organizar e atualizar a memória diretamente. Isto simplifica a infraestrutura, reduzindo potencialmente os custos e as despesas operacionais, especialmente para agentes de pequena ou média dimensão. O design troca a latência de pesquisa vetorial pela latência do modelo, mudando o gargalo de desempenho.

Por que isso é importante: a ascensão da IA persistente

A mudança reflete uma demanda crescente por sistemas de IA que operem continuamente, mantendo o contexto em interações estendidas. Isto é crucial para aplicações como assistência à pesquisa de longo prazo, copilotos internos e fluxos de trabalho automatizados. Contudo, a memória persistente também introduz novos desafios de governação. Ao contrário dos agentes vinculados à sessão, os sistemas com memória contínua exigem políticas claras sobre retenção de dados, auditoria e controle de acesso.

Como funciona: arquitetura simplificada

O agente opera como um serviço de longa duração, ingerindo diversos tipos de dados (texto, imagem, áudio, vídeo, PDF) e armazenando memórias estruturadas em SQLite. A consolidação programada, por padrão a cada 30 minutos, garante que o LLM atualize regularmente sua base de conhecimento. Uma API HTTP local e um painel Streamlit fornecem recursos de acesso e monitoramento. A principal afirmação é que nenhum banco de dados vetorial ou pipelines de incorporação são necessários; o LLM cuida da própria organização da memória.

Papel do Flash-Lite: Economia e Desempenho

O modelo Gemini 3.1 Flash-Lite do Google alimenta o sistema, proporcionando um equilíbrio entre velocidade e economia. Com preço de US$ 0,25 por 1 milhão de tokens de entrada e US$ 1,50 por 1 milhão de tokens de saída, o Flash-Lite é 2,5 vezes mais rápido que o Gemini 2.5 Flash e oferece um aumento de 45% na velocidade de saída. O desempenho do modelo (pontuação Elo de 1.432 em Arena.ai) o torna viável para operações sempre ativas de alta frequência.

Preocupações com governança e escalabilidade

A divulgação já gerou debate, com especialistas apontando os riscos de conformidade da consolidação descontrolada da memória. Sem limites determinísticos, um agente poderia “sonhar” e polinizar memórias de maneiras imprevisíveis, criando pesadelos de auditoria e responsabilidade. O dimensionamento do sistema também levanta questões sobre desvios de memória, comportamentos de loop e eficiência de recuperação à medida que a base de conhecimento cresce.

Visão geral: estratégia de tempo de execução do agente

O ADK do Google enquadra isso não como uma demonstração independente, mas como parte de uma estratégia mais ampla de tempo de execução do agente. A estrutura é independente de modelo e oferece suporte a vários padrões de implantação, incluindo Cloud Run e Vertex AI Agent Engine. Isto sugere uma visão de agentes como sistemas de software implementáveis, com memória como uma camada integral de tempo de execução.

Concluindo, o agente de memória de código aberto do Google sinaliza uma mudança em direção a sistemas de IA mais persistentes e autônomos. Embora a tecnologia ofereça ganhos de eficiência convincentes, o seu sucesso a longo prazo dependerá da abordagem das preocupações de governação e da garantia de escalabilidade em implementações empresariais no mundo real.