6 puan yazan xguru 2024-05-02 | 1 yorum | WhatsApp'ta paylaş
  • Gradient tarafından geliştirilen bu model, LLama-3 8B'nin bağlam uzunluğunu 8k'dan 1040K'nin üzerine genişletiyor.
  • SOTA bir LLM'nin RoPE theta'yı uygun şekilde ayarlayarak minimum eğitimle uzun bağlamlarda çalışmayı öğrenebileceğini gösteriyor.
  • Bu adım 830M token ile eğitildi; tüm adımlarda toplamda 1.4B token kullanıldı ve bu, Llama3'ün orijinal ön eğitim verisinin yalnızca %0.1'ine denk geliyor.
  • Not: 256k bağlam kullanmak için en az 64GB bellek gereklidir. 1M'den fazla bağlam için en az 100GB bellek gerekir.

1 yorum

 
livekth 2024-05-02

Bağlam penceresi genişletildiği için performansın, orijinal LLaMa 3'e kıyasla belirgin şekilde düştüğü ve kullanılamayacak kadar kötü olduğu yönünde bir yorum var.

https://twitter.com/ArkaPal999/status/1785611161540378707