Llama3-gradient - LLAMA'nın bağlam uzunluğunu 8k'dan 1M'e genişleten model

xguru · 2024-05-02T10:46:01+09:00

Gradient tarafından geliştirilen bu model, LLama-3 8B'nin bağlam uzunluğunu 8k'dan 1040K'nin üzerine genişletiyor. SOTA bir LLM'nin RoPE theta'yı uygun şekilde ayarlayarak minimum eğitimle uzun bağlamlarda çalışmayı öğrenebileceğini gösteriyor. Bu adım 830M token ile eğitildi; tüm adımlarda toplamda 1.4B token kullanıldı ve bu, Llama3'ün orijinal ön eğitim verisinin yalnızca %0.1'ine denk geliyor. Not: 256k bağlam kullanmak için en az 64GB bellek gereklidir. 1M'den fazla bağlam için en az 100GB bellek gerekir.

(ollama.com)

6 puan yazan xguru 2024-05-02 | 1 yorum | WhatsApp'ta paylaş

Gradient tarafından geliştirilen bu model, LLama-3 8B'nin bağlam uzunluğunu 8k'dan 1040K'nin üzerine genişletiyor.
SOTA bir LLM'nin RoPE theta'yı uygun şekilde ayarlayarak minimum eğitimle uzun bağlamlarda çalışmayı öğrenebileceğini gösteriyor.
Bu adım 830M token ile eğitildi; tüm adımlarda toplamda 1.4B token kullanıldı ve bu, Llama3'ün orijinal ön eğitim verisinin yalnızca %0.1'ine denk geliyor.
Not: 256k bağlam kullanmak için en az 64GB bellek gereklidir. 1M'den fazla bağlam için en az 100GB bellek gerekir.

1 yorum

livekth 2024-05-02

Bağlam penceresi genişletildiği için performansın, orijinal LLaMa 3'e kıyasla belirgin şekilde düştüğü ve kullanılamayacak kadar kötü olduğu yönünde bir yorum var.

https://twitter.com/ArkaPal999/status/1785611161540378707

Llama3-gradient - LLAMA'nın bağlam uzunluğunu 8k'dan 1M'e genişleten model

İlgili okumalar

1 yorum