XGen-7B - 1.5T token üzerinde en fazla 8K dizi uzunluğuyla eğitilmiş 7B LLM

xguru · 2023-07-01T10:02:01+09:00

LLM'ler yaygın biçimde kullanıldıkça, uzun dizilere uygulanabilmesi daha önemli hale geliyor: belge özetleme, kod yazma, protein dizi tahmini vb. Ancak çoğu açık kaynak LLM (LLaMA, MPT, Falcon) en fazla 2K token dizi uzunluğuyla eğitiliyor XGen-7B, en fazla 8K dizi uzunluğuna kadar 1.5T token üzerinde eğitildi Standart NLP benchmark'larında, aynı model boyutundaki MPT, Falcon, LLaMA, Redpajama, OpenLLaMA ile eşdeğer veya daha iyi performans Hem metin (MMLU, QA) hem de kod (HumanEval) görevlerinde güçlü sonuçlar TPU-v4 ile 1T token için yaklaşık $150K eğitim maliyeti

(blog.salesforceairesearch.com)

4 puan yazan xguru 2023-07-01 | Henüz yorum yok. | WhatsApp'ta paylaş

LLM'ler yaygın biçimde kullanıldıkça, uzun dizilere uygulanabilmesi daha önemli hale geliyor: belge özetleme, kod yazma, protein dizi tahmini vb.
Ancak çoğu açık kaynak LLM (LLaMA, MPT, Falcon) en fazla 2K token dizi uzunluğuyla eğitiliyor
XGen-7B, en fazla 8K dizi uzunluğuna kadar 1.5T token üzerinde eğitildi
Standart NLP benchmark'larında, aynı model boyutundaki MPT, Falcon, LLaMA, Redpajama, OpenLLaMA ile eşdeğer veya daha iyi performans
Hem metin (MMLU, QA) hem de kod (HumanEval) görevlerinde güçlü sonuçlar
TPU-v4 ile 1T token için yaklaşık $150K eğitim maliyeti

XGen-7B - 1.5T token üzerinde en fazla 8K dizi uzunluğuyla eğitilmiş 7B LLM

İlgili okumalar

Henüz yorum yok.