Andrej Karpathy'nin Meta Llama 3 değerlendirmesi

xguru · 2024-04-19T09:17:00+09:00

8B ve 70B modellerini (hem temel model hem de fine-tuned modeller olarak) yayımladı. Bunlar kendi model sınıflarında güçlü performans gösteriyor. 400B model hâlâ eğitiliyor, ancak şimdiden GPT-4 seviyesine yaklaşıyor (ör. MMLU 84.8, GPT-4'ün 86.5 değerine karşı) Tokenizer Token sayısı 32K'dan (Llama 2) 128K'ya (Llama 3) çıkarak 4 kat arttı Daha fazla token ile sequence length daha iyi sıkıştırılabiliyor. %15 daha az token kullanıldığı belirtiliyor ve downstream performans artıyor Mimari Llama 2'de yalnızca büyük modeller Grouped Query Attention (GQA) kullanıyordu, artık en küçük 8B model dahil tüm modeller GQA kullanıyor GQA, Attention'ın key/value tarafında parametre paylaşım şemasıdır ve inference sırasında KV cache boyutunu azaltır Bu, karmaşıklığı azaltan ve optimizasyon sağlayan iyi ve memnuniyet verici bir değişiklik Sequence length Context window içindeki maksimum token sayısı 4096'dan (Llama 2) ve 2048'den (Llama 1) 8192'ye çıktı Bu artış memnuniyet verici olsa da güncel standartlara göre (ör. GPT-4 128K) oldukça küçük kalıyor Birçok kişi bu eksende daha fazlasını beklemiş olabilir. Belki daha sonra fine-tuning ile mümkün olur(?) Eğitim verisi Llama 2, 2T token ile eğitilmişti; Llama 3 ise 15T'lik bir eğitim veri kümesine çıktı Veri kalitesine, 4 kat daha fazla code token'a ve 30'dan fazla dildeki %5 non-en token'a ciddi özen gösterilmiş %5 non-en, non-en:en karışımı açısından oldukça düşük; yani bu model büyük ölçüde İngilizce bir model. Yine de 0'dan büyük olması oldukça iyi Ölçekleme yasaları 15T, 8B parametre gibi "küçük" bir modeli eğitmek için son derece büyük bir veri kümesi ve bu genelde yapılmayan, yeni ve çok memnuniyet verici bir yaklaşım Chinchilla "compute optimal" noktasında 8B bir modeli eğitmek için yaklaşık 200B token yeterli olurdu Eğer yalnızca model performansında "bang-for-the-buck" ile ilgileniyorsanız bu kadar yeterlidir Ancak Meta bu noktayı yaklaşık 75 kat aşacak kadar eğitim yaptı; bu alışılmadık olsa da bence kişisel olarak çok memnuniyet verici Sonuçta hepimiz son derece yetkin, çok küçük, üzerinde çalışması kolay ve inference'ı kolay modeller kazanıyoruz Meta, bu noktada bile modelin standart anlamda "yakınsamış" görünmediğini belirtiyor Yani günlük olarak çalıştığımız LLM'ler, yakınsama noktasına yaklaşmaktan çok uzak ve aslında 100-1000 kat daha uzun eğitimden yoksun Umarım daha uzun süre eğitilen ve çok daha küçük modellerin yayımlanması eğilimi devam eder Sistem Llama 3'ün 16K GPU üzerinde gözlenen 400 TFLOPS throughput ile eğitildiği belirtiliyor Açıkça söylenmese de bunların, NVIDIA pazarlama materyallerinde 1,979 TFLOPS veren H100 fp16 olduğu varsayılıyor Ancak hepimiz o küçük yıldızın (*with sparsity) çok şey yaptığını biliyoruz; gerçek TFLOPS'u elde etmek için bu sayıyı 2'ye bölüp yaklaşık 990 almak gerekiyor (Sparsity neden FLOPS olarak sayılıyor ki?) Her hâlükârda 400/990 ~= %40 kullanım oranı demek; bu kadar çok GPU için hiç de fena değil! Bu ölçekte bu seviyeye ulaşmak için gerçekten sağlam bir mühendislik gerekiyor Özet Llama 3, oldukça yetkin görünen ve çok memnuniyet verici bir model sürümü Temellere sadık kalıyor, sağlam sistem ve veri çalışmasına çok zaman ayırıyor ve uzun süre eğitilen modellerin sınırlarını araştırıyor 400B model de oldukça heyecan verici; GPT-4 seviyesindeki ilk open source sürüm olabilir Birçok kişinin daha uzun context length isteyeceğini düşünüyorum

(twitter.com/karpathy)

16 puan yazan xguru 2024-04-19 | Henüz yorum yok. | WhatsApp'ta paylaş

8B ve 70B modellerini (hem temel model hem de fine-tuned modeller olarak) yayımladı. Bunlar kendi model sınıflarında güçlü performans gösteriyor.
400B model hâlâ eğitiliyor, ancak şimdiden GPT-4 seviyesine yaklaşıyor (ör. MMLU 84.8, GPT-4'ün 86.5 değerine karşı)

Tokenizer

Token sayısı 32K'dan (Llama 2) 128K'ya (Llama 3) çıkarak 4 kat arttı
Daha fazla token ile sequence length daha iyi sıkıştırılabiliyor. %15 daha az token kullanıldığı belirtiliyor ve downstream performans artıyor

Mimari

Llama 2'de yalnızca büyük modeller Grouped Query Attention (GQA) kullanıyordu, artık en küçük 8B model dahil tüm modeller GQA kullanıyor
GQA, Attention'ın key/value tarafında parametre paylaşım şemasıdır ve inference sırasında KV cache boyutunu azaltır
Bu, karmaşıklığı azaltan ve optimizasyon sağlayan iyi ve memnuniyet verici bir değişiklik

Sequence length

Context window içindeki maksimum token sayısı 4096'dan (Llama 2) ve 2048'den (Llama 1) 8192'ye çıktı
Bu artış memnuniyet verici olsa da güncel standartlara göre (ör. GPT-4 128K) oldukça küçük kalıyor
Birçok kişi bu eksende daha fazlasını beklemiş olabilir. Belki daha sonra fine-tuning ile mümkün olur(?)

Eğitim verisi

Llama 2, 2T token ile eğitilmişti; Llama 3 ise 15T'lik bir eğitim veri kümesine çıktı
Veri kalitesine, 4 kat daha fazla code token'a ve 30'dan fazla dildeki %5 non-en token'a ciddi özen gösterilmiş
%5 non-en, non-en:en karışımı açısından oldukça düşük; yani bu model büyük ölçüde İngilizce bir model. Yine de 0'dan büyük olması oldukça iyi

Ölçekleme yasaları

15T, 8B parametre gibi "küçük" bir modeli eğitmek için son derece büyük bir veri kümesi ve bu genelde yapılmayan, yeni ve çok memnuniyet verici bir yaklaşım
Chinchilla "compute optimal" noktasında 8B bir modeli eğitmek için yaklaşık 200B token yeterli olurdu
Eğer yalnızca model performansında "bang-for-the-buck" ile ilgileniyorsanız bu kadar yeterlidir
Ancak Meta bu noktayı yaklaşık 75 kat aşacak kadar eğitim yaptı; bu alışılmadık olsa da bence kişisel olarak çok memnuniyet verici
Sonuçta hepimiz son derece yetkin, çok küçük, üzerinde çalışması kolay ve inference'ı kolay modeller kazanıyoruz
Meta, bu noktada bile modelin standart anlamda "yakınsamış" görünmediğini belirtiyor
Yani günlük olarak çalıştığımız LLM'ler, yakınsama noktasına yaklaşmaktan çok uzak ve aslında 100-1000 kat daha uzun eğitimden yoksun
Umarım daha uzun süre eğitilen ve çok daha küçük modellerin yayımlanması eğilimi devam eder

Sistem

Llama 3'ün 16K GPU üzerinde gözlenen 400 TFLOPS throughput ile eğitildiği belirtiliyor
Açıkça söylenmese de bunların, NVIDIA pazarlama materyallerinde 1,979 TFLOPS veren H100 fp16 olduğu varsayılıyor
Ancak hepimiz o küçük yıldızın (*with sparsity) çok şey yaptığını biliyoruz; gerçek TFLOPS'u elde etmek için bu sayıyı 2'ye bölüp yaklaşık 990 almak gerekiyor
(Sparsity neden FLOPS olarak sayılıyor ki?)
Her hâlükârda 400/990 ~= %40 kullanım oranı demek; bu kadar çok GPU için hiç de fena değil!
Bu ölçekte bu seviyeye ulaşmak için gerçekten sağlam bir mühendislik gerekiyor

Özet

Llama 3, oldukça yetkin görünen ve çok memnuniyet verici bir model sürümü
Temellere sadık kalıyor, sağlam sistem ve veri çalışmasına çok zaman ayırıyor ve uzun süre eğitilen modellerin sınırlarını araştırıyor
400B model de oldukça heyecan verici; GPT-4 seviyesindeki ilk open source sürüm olabilir
Birçok kişinin daha uzun context length isteyeceğini düşünüyorum