AI ajan belleği deneyi: Özetlenmiş bilginin performansı aslında düşürdüğü görüldü
(blog.clawsouls.ai)Bu, AI ajanlara belleğin nasıl verilmesi gerektiğine dair gerçek deney sonuçlarıdır.
Aynı AI ajana (Claude) 4 farklı bellek yapılandırması verildi ve gerçek bir yazılım projesi hakkında aynı 20 soru soruldu.
Sonuçlar (5 puan üzerinden):
• Hibrit (deneyim+sentetik): 4.95
• Deneyimsel bellek (ham loglar): 4.55
• Başlangıç seviyesi (bellek yok): 3.30
• Sentetik bellek (düzenlenmiş özet): 2.65
En şaşırtıcı bulgu: Özenle düzenlenmiş sentetik bellek, hiç bellek olmamasından bile daha düşük puan aldı.
Buna "aşırı özgüven etkisi" adı verildi — temiz biçimde özetlenmiş bilgi, ajana temelsiz bir güven veriyor ve bilmediğini kabul etme becerisini zayıflatıyor. Buna karşılık ham deneyimsel kayıtlar, belirsizliğin izlerini koruduğu için ajanın daha dürüst akıl yürütmesini sağlıyor.
Makale (preprint): https://doi.org/10.5281/zenodo.18802214
Deney verileri (açık): https://github.com/clawsouls/experiential-memory-dataset
4 yorum
Ampirik olarak bir ölçüde hissettiğim bir şeydi ama sentetik bellek düşündüğümden bile çok daha fena durumda.
Kesinlikle. Ben de başta sentetik belleğin en azından baseline'dan daha iyi olacağını düşünmüştüm, ama sonuçları görünce şaşırdım.
İnceleyince kilit noktanın "belirsizliğin korunması" olduğunu gördüm. Ham loglarda "bunu denedik ama olmadı", "sebebini bilmiyorum" gibi izler kaldığı için ajan bilmediği şeylere bilmediğini söyleyerek yanıt veriyor; ama özetlenmiş sürümde bu bağlam tamamen silinince, aksine yanlış cevapları kendinden emin bir şekilde vermeye başlıyor.
Peki, sentetik belleğin bu tür görevlerin süreçlerini, başarısızlıklarını ve başarılarını içerecek şekilde yapılandırılması durumu biraz değiştirir mi?
İyi bir soru. Aslında deneyimizdeki "hibrit" koşul tam olarak bu yöndeydi — düzenlenmiş özetle birlikte ham deneyim günlüklerini de sunan bir yapıydı.
Sonuç olarak hibrit yaklaşım 4.95/5.0 ile en yüksek puanı aldı. Yalnızca özet verildiğinde puan 2.65'ti; ancak buna "başarısız oldu", "nedeni bilinmiyor" gibi süreç kayıtları eklenince, özetin zayıf yönleri tersine telafi edilmiş oldu.
Bu yüzden sonuç şu: "Sorun özetin kendisinde değil, sürecin ve belirsizliğin de birlikte aktarılması gerekiyor."
Ancak N=1 olduğu için bunun farklı kullanıcı gruplarında genel amaçlı olarak kullanılabilecek bir içerik olup olmadığını görmek için ek araştırma gerekiyor.