MemAware – yapay zeka ajanının "benim ne bildiğimi" bilip bilmediğini ölçen benchmark

(github.com/kevin-hs-sohn)

1 puan yazan 0xvinsohn 2026-03-27 | Henüz yorum yok. | WhatsApp'ta paylaş

AI ajanı bellek sistemleri geliştirirken mevcut benchmark’ların ortak bir sınırlamasını fark ettik.

LoCoMo, LongMemEval, MemoryAgentBench gibi mevcut bellek benchmark’larının hepsi aynı şeyi test ediyor: "Geçmiş konuşmalarda cevabı bulabiliyor mu?" Bu, bir arama motoru performans testi; bellek sistemi testi değil.

Gerçek çok oturumlu ajanlarda zor olan şey, kullanıcının belirtmediği geçmiş bağlamı kendi başına hatırlamak.

Örnek

Easy — anahtar kelimeler çakıştığı için aramayla bulunabilen durum:

"Kedim Luna yeni koltuğu sürekli tırmalıyor. Bir eğitim yöntemi önerir misin?"
→ Luna’nın kullanıcının kedisi olduğunu hatırlaması gerekir
Reklam

Medium — aynı alan içinde ama anahtar kelimeler farklı olduğunda:

"8:30 toplantısına yetişmek için alarmı kaça kurmalıyım?"
→ 6 hafta önce bahsedilen tek yön 45 dakikalık işe gidiş süresini hatırlaması gerekir. "alarm toplantı" diye ararsanız işe gidiş konuşması çıkmaz

Hard — tamamen farklı alanlar arasında bağlantı kurma:

"2010’da mezun olduğum üniversiteden transkript istedim ama mevcut ismimle kayıt bulamadıklarını söylüyorlar."
→ kullanıcının soyadını Johnson’dan değiştirdiğini hatırlaması gerekir. "transkript" ve "isim değişikliği" arasında hiç anahtar kelime örtüşmesi yok

Sonuçlar

900 soru için (her zorluk seviyesinde 300’er adet) baseline sonuçları:

Yöntem	Easy	Medium	Hard	Genel
Bellek yok	1.0%	0.7%	0.7%	0.8%
BM25 arama	4.7%	1.7%	2.0%	2.8%
BM25 + vektör arama	6.0%	3.7%	0.7%	3.4%

Temel bulgular:

BM25 arama neredeyse hiç yardımcı olmuyor. 0.8% → 2.8% gibi sınırlı bir iyileşme sağlarken 5 kat daha fazla token tüketiyor
Vektör arama da Hard seviyesinde 0.7% — yani bellek olmamasıyla aynı. Semantik benzerlikle "transkript talebi" → "isim değişikliği" bağlantısı kurulamıyor
"Her zaman ara" stratejisi sadece maliyet israfı. Soru başına ~4.7K token harcıyor ama çoğu alakasız gürültü

Şu anki RAG tabanlı bellek sistemlerinin (ChatGPT Memory, Mem0, MemGPT vb.) tamamı "her seferinde ara" kalıbına dayanıyor; bu veri de bunun örtük bağlam durumlarında yapısal sınırlara sahip olduğunu gösteriyor.

LongMemEval (ICLR 2025, MIT lisansı) oturum verileri temel alınmış ve kendi bellek sisteminizi test edebileceğiniz eklenti yapısına sahip.

Hard zorluk seviyesini çözebilecek yaklaşımlar hakkında görüşleri merak ediyorum.

MemAware – yapay zeka ajanının "benim ne bildiğimi" bilip bilmediğini ölçen benchmark

Örnek

Sonuçlar

İlgili okumalar

Henüz yorum yok.