- 8B ve 70B modellerini (hem temel model hem de fine-tuned modeller olarak) yayımladı. Bunlar kendi model sınıflarında güçlü performans gösteriyor.
- 400B model hâlâ eğitiliyor, ancak şimdiden GPT-4 seviyesine yaklaşıyor (ör. MMLU 84.8, GPT-4'ün 86.5 değerine karşı)
Tokenizer
- Token sayısı 32K'dan (Llama 2) 128K'ya (Llama 3) çıkarak 4 kat arttı
- Daha fazla token ile sequence length daha iyi sıkıştırılabiliyor. %15 daha az token kullanıldığı belirtiliyor ve downstream performans artıyor
Mimari
- Llama 2'de yalnızca büyük modeller Grouped Query Attention (GQA) kullanıyordu, artık en küçük 8B model dahil tüm modeller GQA kullanıyor
- GQA, Attention'ın key/value tarafında parametre paylaşım şemasıdır ve inference sırasında KV cache boyutunu azaltır
- Bu, karmaşıklığı azaltan ve optimizasyon sağlayan iyi ve memnuniyet verici bir değişiklik
Sequence length
- Context window içindeki maksimum token sayısı 4096'dan (Llama 2) ve 2048'den (Llama 1) 8192'ye çıktı
- Bu artış memnuniyet verici olsa da güncel standartlara göre (ör. GPT-4 128K) oldukça küçük kalıyor
- Birçok kişi bu eksende daha fazlasını beklemiş olabilir. Belki daha sonra fine-tuning ile mümkün olur(?)
Eğitim verisi
- Llama 2, 2T token ile eğitilmişti; Llama 3 ise 15T'lik bir eğitim veri kümesine çıktı
- Veri kalitesine, 4 kat daha fazla code token'a ve 30'dan fazla dildeki %5 non-en token'a ciddi özen gösterilmiş
- %5 non-en, non-en:en karışımı açısından oldukça düşük; yani bu model büyük ölçüde İngilizce bir model. Yine de 0'dan büyük olması oldukça iyi
Ölçekleme yasaları
- 15T, 8B parametre gibi "küçük" bir modeli eğitmek için son derece büyük bir veri kümesi ve bu genelde yapılmayan, yeni ve çok memnuniyet verici bir yaklaşım
- Chinchilla "compute optimal" noktasında 8B bir modeli eğitmek için yaklaşık 200B token yeterli olurdu
- Eğer yalnızca model performansında "bang-for-the-buck" ile ilgileniyorsanız bu kadar yeterlidir
- Ancak Meta bu noktayı yaklaşık 75 kat aşacak kadar eğitim yaptı; bu alışılmadık olsa da bence kişisel olarak çok memnuniyet verici
- Sonuçta hepimiz son derece yetkin, çok küçük, üzerinde çalışması kolay ve inference'ı kolay modeller kazanıyoruz
- Meta, bu noktada bile modelin standart anlamda "yakınsamış" görünmediğini belirtiyor
- Yani günlük olarak çalıştığımız LLM'ler, yakınsama noktasına yaklaşmaktan çok uzak ve aslında 100-1000 kat daha uzun eğitimden yoksun
- Umarım daha uzun süre eğitilen ve çok daha küçük modellerin yayımlanması eğilimi devam eder
Sistem
- Llama 3'ün 16K GPU üzerinde gözlenen 400 TFLOPS throughput ile eğitildiği belirtiliyor
- Açıkça söylenmese de bunların, NVIDIA pazarlama materyallerinde 1,979 TFLOPS veren H100 fp16 olduğu varsayılıyor
- Ancak hepimiz o küçük yıldızın (*with sparsity) çok şey yaptığını biliyoruz; gerçek TFLOPS'u elde etmek için bu sayıyı 2'ye bölüp yaklaşık 990 almak gerekiyor
- (Sparsity neden FLOPS olarak sayılıyor ki?)
- Her hâlükârda 400/990 ~= %40 kullanım oranı demek; bu kadar çok GPU için hiç de fena değil!
- Bu ölçekte bu seviyeye ulaşmak için gerçekten sağlam bir mühendislik gerekiyor
Özet
- Llama 3, oldukça yetkin görünen ve çok memnuniyet verici bir model sürümü
- Temellere sadık kalıyor, sağlam sistem ve veri çalışmasına çok zaman ayırıyor ve uzun süre eğitilen modellerin sınırlarını araştırıyor
- 400B model de oldukça heyecan verici; GPT-4 seviyesindeki ilk open source sürüm olabilir
- Birçok kişinin daha uzun context length isteyeceğini düşünüyorum
Henüz yorum yok.