4 puan yazan xguru 2023-07-01 | Henüz yorum yok. | WhatsApp'ta paylaş
  • LLM'ler yaygın biçimde kullanıldıkça, uzun dizilere uygulanabilmesi daha önemli hale geliyor: belge özetleme, kod yazma, protein dizi tahmini vb.
  • Ancak çoğu açık kaynak LLM (LLaMA, MPT, Falcon) en fazla 2K token dizi uzunluğuyla eğitiliyor
  • XGen-7B, en fazla 8K dizi uzunluğuna kadar 1.5T token üzerinde eğitildi
  • Standart NLP benchmark'larında, aynı model boyutundaki MPT, Falcon, LLaMA, Redpajama, OpenLLaMA ile eşdeğer veya daha iyi performans
  • Hem metin (MMLU, QA) hem de kod (HumanEval) görevlerinde güçlü sonuçlar
  • TPU-v4 ile 1T token için yaklaşık $150K eğitim maliyeti

Henüz yorum yok.

Henüz yorum yok.