1 puan yazan GN⁺ 2023-09-04 | 1 yorum | WhatsApp'ta paylaş
  • Açık uçlu diyalog sistemlerinde kullanılan büyük dil modellerinin (LLM'ler) uzun süreli bellek yeteneğini geliştirmeye yönelik yeni bir yöntemi ele alan bir makale
  • Uzun diyaloglarda önemli bilgilerin unutulması, açık uçlu diyalog sistemlerinin kritik bir sorunu
  • Mevcut çözümler, konuşma içeriğinden temel bilgileri çıkarmak için belirli bir getirici veya özetleyici eğitmeyi gerektiriyor; ancak bu süreç zaman alıyor ve büyük ölçüde etiketli verinin kalitesine bağlı
  • Önerilen yöntem, LLM'leri kullanarak özetleri veya anıları özyinelemeli biçimde üretip bu sorunu hafifletmeyi amaçlıyor
  • Bu yöntemde önce LLM'lerin küçük diyalog bağlamlarını hatırlaması sağlanıyor, ardından önceki bellek ve sonraki bağlam kullanılarak yeni bellek özyinelemeli olarak üretiliyor
  • En güncel belleğin yardımıyla LLM, oldukça tutarlı yanıtlar üretebiliyor
  • Yöntem, ChatGPT ve text-davinci-003 kullanılarak değerlendirildi; yaygın olarak kullanılan açık veri kümeleri üzerindeki deney sonuçları, uzun bağlamlı diyaloglarda daha tutarlı yanıtlar üretilebildiğini gösteriyor
  • Bu yöntem, LLM'lerin son derece uzun bağlamları modelleyebilmesini sağlayabilecek potansiyel bir çözüm
  • Bu yönteme ait kod ve betiklerin ileride yayımlanması planlanıyor
  • Bu araştırma, Simons Foundation, üye kurumlar ve tüm katkıda bulunanların desteğini aldı

1 yorum

 
GN⁺ 2023-09-04
Hacker News yorumu
  • CodeRabbit, PR incelemesi için makalede tartışılan yaklaşıma benzer bir yöntemi kullanıyor; her commit için özetlerin özetini oluşturuyor ve ek commitler geldikçe bunu kademeli olarak güncelliyor.
  • Bazı kullanıcılar, belleğin "metin uzayında" inşa edilmesinin etkisine şüpheyle yaklaşıyor ve belleğin, tüm anlamı koruyabilen yoğun embedding uzayında daha iyi saklanacağını öne sürüyor.
  • Araştırmada şeffaflık ve yeniden üretilebilirlik çağrısı var; bazı kullanıcılar, deneylerde kullanılan kod ve scriptlere erişim olmadan iddialara inanmıyor.
  • Özyinelemeli özetlemenin kullanımı iş ortamında başarıyla uygulanmış; binlerce "briefing" beş paragraflık metne özetleniyor ve her briefing konu ve alt konulara göre sınıflandırılıyor.
  • Bazı kullanıcılar özyinelemeli özetleme ile ilgili sorunlar yaşadıklarını söylüyor; örneğin belirli parçaların tüm özetleme turlarından sağ çıkıp modelin belli bir konuya takılı kalmasına yol açması gibi.
  • Makaledeki ayrıntı eksikliği eleştiriliyor; bazı kullanıcılar bunu hayal kırıklığı yaratan ve LLM geliştiricileri için çok da değerli olmayan bir çalışma olarak görüyor.
  • Bazı kullanıcılar tekniğin yeniliğini sorguluyor; LLM tabanlı sohbet geçmişi belleğinin özetlenmesinin zaten yerleşik bir teknik olduğunu, makalede önerildiği gibi tüm mesajlardan özet çıkarmanın ise temel performans darboğazı olduğunu savunuyor.
  • Makaledeki bellek metninin promptun bir parçası olarak eklenmesine dair soru işaretleri var; bunun yerine context window tokenlarını tüketmeyen bir depolama/erişim sistemi öneriliyor.
  • Makalede ele alınan teknik, Langchain'in "summary" bellek özelliğiyle karşılaştırılıyor; bunun 2023 Mart ayından beri var olduğu belirtiliyor.