Google telah merilis “Agen Memori Selalu Aktif” sumber terbuka yang secara mendasar mengubah cara agen AI menyimpan dan mengingat informasi. Tidak seperti sistem konvensional yang bergantung pada database vektor, agen ini menggunakan model bahasa besar (LLM) untuk mengelola memori persisten secara langsung, menyimpan data dalam SQLite, dan mengkonsolidasikannya di latar belakang. Proyek ini, yang dibuat dengan Agent Development Kit (ADK) Google dan Gemini 3.1 Flash-Lite, menandai langkah penting menuju otonomi AI yang berkelanjutan dan jangka panjang.
Pergeseran Dari Database Vektor
Selama bertahun-tahun, memori agen AI sangat bergantung pada database vektor untuk pengambilan yang efisien. Pendekatan baru ini mengabaikan kompleksitas tersebut sepenuhnya, dan mengandalkan kemampuan LLM untuk mengatur dan memperbarui memori secara langsung. Hal ini menyederhanakan infrastruktur, sehingga berpotensi mengurangi biaya dan overhead operasional, terutama untuk agen skala kecil atau menengah. Desain ini menukar latensi pencarian vektor dengan latensi model, sehingga menggeser hambatan kinerja.
Mengapa Ini Penting: Bangkitnya AI yang Persisten
Langkah ini mencerminkan meningkatnya permintaan akan sistem AI yang beroperasi secara terus-menerus, dengan tetap mempertahankan konteks dalam interaksi yang luas. Hal ini penting untuk aplikasi seperti bantuan penelitian jangka panjang, kopilot internal, dan alur kerja otomatis. Namun, ingatan yang terus-menerus juga menimbulkan tantangan baru dalam tata kelola. Tidak seperti agen yang terikat sesi, sistem dengan memori berkelanjutan memerlukan kebijakan yang jelas mengenai penyimpanan data, audit, dan kontrol akses.
Cara Kerja: Arsitektur Sederhana
Agen beroperasi sebagai layanan jangka panjang, menyerap berbagai tipe data (teks, gambar, audio, video, PDF) dan menyimpan memori terstruktur dalam SQLite. Konsolidasi terjadwal, secara default setiap 30 menit, memastikan LLM memperbarui basis pengetahuannya secara rutin. API HTTP lokal dan dasbor Streamlit menyediakan kemampuan akses dan pemantauan. Klaim utamanya adalah tidak diperlukan database vektor atau penyematan pipeline; LLM menangani organisasi memori itu sendiri.
Peran Flash-Lite: Ekonomi dan Kinerja
Model Flash-Lite Gemini 3.1 Google mendukung sistem, memberikan keseimbangan antara kecepatan dan efektivitas biaya. Dengan harga $0,25 per 1 juta token masukan dan $1,50 per 1 juta token keluaran, Flash-Lite 2,5 kali lebih cepat dari Gemini 2.5 Flash dan memberikan peningkatan kecepatan keluaran sebesar 45%. Performa model ini (skor Elo 1432 di Arena.ai) membuatnya layak untuk pengoperasian dengan frekuensi tinggi dan selalu aktif.
Masalah Tata Kelola dan Skalabilitas
Rilis ini telah memicu perdebatan, dengan para ahli menunjukkan risiko kepatuhan dari konsolidasi memori yang tidak terkendali. Tanpa batasan deterministik, seorang agen dapat “bermimpi” dan melakukan penyerbukan silang ingatan dengan cara yang tidak dapat diprediksi, sehingga menciptakan mimpi buruk audit dan tanggung jawab. Penskalaan sistem juga menimbulkan pertanyaan tentang penyimpangan memori, perilaku perulangan, dan efisiensi pengambilan seiring dengan berkembangnya basis pengetahuan.
Gambaran Lebih Besar: Strategi Runtime Agen
ADK Google membingkai ini bukan sebagai demo mandiri, namun sebagai bagian dari strategi runtime agen yang lebih luas. Kerangka kerja ini bersifat model-agnostik dan mendukung berbagai pola penerapan, termasuk Cloud Run dan Vertex AI Agent Engine. Hal ini menunjukkan visi agen sebagai sistem perangkat lunak yang dapat diterapkan, dengan memori sebagai lapisan runtime yang tidak terpisahkan.
Kesimpulannya, agen memori sumber terbuka Google menandakan adanya pergeseran menuju sistem AI yang lebih persisten dan otonom. Meskipun teknologi ini menawarkan peningkatan efisiensi yang menarik, keberhasilan jangka panjangnya akan bergantung pada penanganan masalah tata kelola dan memastikan skalabilitas dalam penerapannya di perusahaan di dunia nyata.
































