- Açık uçlu diyalog sistemlerinde kullanılan büyük dil modellerinin (LLM'ler) uzun süreli bellek yeteneğini geliştirmeye yönelik yeni bir yöntemi ele alan bir makale
- Uzun diyaloglarda önemli bilgilerin unutulması, açık uçlu diyalog sistemlerinin kritik bir sorunu
- Mevcut çözümler, konuşma içeriğinden temel bilgileri çıkarmak için belirli bir getirici veya özetleyici eğitmeyi gerektiriyor; ancak bu süreç zaman alıyor ve büyük ölçüde etiketli verinin kalitesine bağlı
- Önerilen yöntem, LLM'leri kullanarak özetleri veya anıları özyinelemeli biçimde üretip bu sorunu hafifletmeyi amaçlıyor
- Bu yöntemde önce LLM'lerin küçük diyalog bağlamlarını hatırlaması sağlanıyor, ardından önceki bellek ve sonraki bağlam kullanılarak yeni bellek özyinelemeli olarak üretiliyor
- En güncel belleğin yardımıyla LLM, oldukça tutarlı yanıtlar üretebiliyor
- Yöntem, ChatGPT ve text-davinci-003 kullanılarak değerlendirildi; yaygın olarak kullanılan açık veri kümeleri üzerindeki deney sonuçları, uzun bağlamlı diyaloglarda daha tutarlı yanıtlar üretilebildiğini gösteriyor
- Bu yöntem, LLM'lerin son derece uzun bağlamları modelleyebilmesini sağlayabilecek potansiyel bir çözüm
- Bu yönteme ait kod ve betiklerin ileride yayımlanması planlanıyor
- Bu araştırma, Simons Foundation, üye kurumlar ve tüm katkıda bulunanların desteğini aldı
1 yorum
Hacker News yorumu