- Büyük dil modellerinin (Large Language Models, LLMs) akış tabanlı uygulamalarda dağıtımına dair bir yazı; bu, bellek tüketimi ve LLM'lerin eğitim dizi uzunluğundan daha uzun metinlere genelleme yapma becerisinin yetersizliği nedeniyle zorludur.
- Yazarlar, semantik olarak önemli olmasalar bile ilk token'lara yönelik güçlü attention skorları olgusunu ifade eden
attention sink kavramını tanıtıyor.
- Yazarlar, sonlu uzunlukta bir attention penceresiyle eğitilmiş LLM'lerin ince ayar gerektirmeden sonsuz dizi uzunluklarına genelleme yapmasını sağlayan verimli bir çerçeve olan StreamingLLM'i sunuyor.
- StreamingLLM, Llama-2, MPT, Falcon ve Pythia gibi modellerin 4 milyondan fazla token'a kadar kararlı ve verimli dil modellemesi yapabilmesini sağlıyor.
- Yazarlar ayrıca, ön eğitim sırasında özel attention sink olarak yer tutucu token'lar eklemenin akış tabanlı dağıtımı daha da iyileştirebileceğini buldu.
- Akış senaryosunda StreamingLLM, sliding window yeniden hesaplama temelini en fazla 22,2 kat hızla geride bırakıyor.
- Yazarlar, LLM'lerin bağlam penceresinin StreamingLLM'de genişlemediğini ve modelin yalnızca en güncel token'ları işleyebildiğini açıkça belirtiyor.
- StreamingLLM, modelin geniş bellek ya da geçmiş verilere dayanmadan çalışmaya devam etmesi gereken çok turlu sohbet gibi akış tabanlı uygulamalar için idealdir.
- Yazarlar, Llama-2, MPT, Falcon ve Pythia desteği dahil StreamingLLM'in temel kodunu; ayrıca perplexity kodunu, Streaming Llama Chatbot demosunu, StreamEval veri kümesini ve değerlendirme kodunu yayımlamayı planlıyor.
Henüz yorum yok.