- LLM'ler yaygın biçimde kullanıldıkça, uzun dizilere uygulanabilmesi daha önemli hale geliyor: belge özetleme, kod yazma, protein dizi tahmini vb.
- Ancak çoğu açık kaynak LLM (LLaMA, MPT, Falcon) en fazla 2K token dizi uzunluğuyla eğitiliyor
- XGen-7B, en fazla 8K dizi uzunluğuna kadar 1.5T token üzerinde eğitildi
- Standart NLP benchmark'larında, aynı model boyutundaki MPT, Falcon, LLaMA, Redpajama, OpenLLaMA ile eşdeğer veya daha iyi performans
- Hem metin (MMLU, QA) hem de kod (HumanEval) görevlerinde güçlü sonuçlar
- TPU-v4 ile 1T token için yaklaşık $150K eğitim maliyeti
Henüz yorum yok.