- Gradient tarafından geliştirilen bu model, LLama-3 8B'nin bağlam uzunluğunu 8k'dan 1040K'nin üzerine genişletiyor.
- SOTA bir LLM'nin RoPE theta'yı uygun şekilde ayarlayarak minimum eğitimle uzun bağlamlarda çalışmayı öğrenebileceğini gösteriyor.
- Bu adım 830M token ile eğitildi; tüm adımlarda toplamda 1.4B token kullanıldı ve bu, Llama3'ün orijinal ön eğitim verisinin yalnızca %0.1'ine denk geliyor.
- Not: 256k bağlam kullanmak için en az 64GB bellek gereklidir. 1M'den fazla bağlam için en az 100GB bellek gerekir.
1 yorum
Bağlam penceresi genişletildiği için performansın, orijinal LLaMa 3'e kıyasla belirgin şekilde düştüğü ve kullanılamayacak kadar kötü olduğu yönünde bir yorum var.
https://twitter.com/ArkaPal999/status/1785611161540378707