16 puan yazan xguru 2024-04-19 | Henüz yorum yok. | WhatsApp'ta paylaş
  • 8B ve 70B modellerini (hem temel model hem de fine-tuned modeller olarak) yayımladı. Bunlar kendi model sınıflarında güçlü performans gösteriyor.
  • 400B model hâlâ eğitiliyor, ancak şimdiden GPT-4 seviyesine yaklaşıyor (ör. MMLU 84.8, GPT-4'ün 86.5 değerine karşı)

Tokenizer

  • Token sayısı 32K'dan (Llama 2) 128K'ya (Llama 3) çıkarak 4 kat arttı
  • Daha fazla token ile sequence length daha iyi sıkıştırılabiliyor. %15 daha az token kullanıldığı belirtiliyor ve downstream performans artıyor

Mimari

  • Llama 2'de yalnızca büyük modeller Grouped Query Attention (GQA) kullanıyordu, artık en küçük 8B model dahil tüm modeller GQA kullanıyor
  • GQA, Attention'ın key/value tarafında parametre paylaşım şemasıdır ve inference sırasında KV cache boyutunu azaltır
  • Bu, karmaşıklığı azaltan ve optimizasyon sağlayan iyi ve memnuniyet verici bir değişiklik

Sequence length

  • Context window içindeki maksimum token sayısı 4096'dan (Llama 2) ve 2048'den (Llama 1) 8192'ye çıktı
  • Bu artış memnuniyet verici olsa da güncel standartlara göre (ör. GPT-4 128K) oldukça küçük kalıyor
  • Birçok kişi bu eksende daha fazlasını beklemiş olabilir. Belki daha sonra fine-tuning ile mümkün olur(?)

Eğitim verisi

  • Llama 2, 2T token ile eğitilmişti; Llama 3 ise 15T'lik bir eğitim veri kümesine çıktı
  • Veri kalitesine, 4 kat daha fazla code token'a ve 30'dan fazla dildeki %5 non-en token'a ciddi özen gösterilmiş
  • %5 non-en, non-en:en karışımı açısından oldukça düşük; yani bu model büyük ölçüde İngilizce bir model. Yine de 0'dan büyük olması oldukça iyi

Ölçekleme yasaları

  • 15T, 8B parametre gibi "küçük" bir modeli eğitmek için son derece büyük bir veri kümesi ve bu genelde yapılmayan, yeni ve çok memnuniyet verici bir yaklaşım
  • Chinchilla "compute optimal" noktasında 8B bir modeli eğitmek için yaklaşık 200B token yeterli olurdu
  • Eğer yalnızca model performansında "bang-for-the-buck" ile ilgileniyorsanız bu kadar yeterlidir
  • Ancak Meta bu noktayı yaklaşık 75 kat aşacak kadar eğitim yaptı; bu alışılmadık olsa da bence kişisel olarak çok memnuniyet verici
  • Sonuçta hepimiz son derece yetkin, çok küçük, üzerinde çalışması kolay ve inference'ı kolay modeller kazanıyoruz
  • Meta, bu noktada bile modelin standart anlamda "yakınsamış" görünmediğini belirtiyor
  • Yani günlük olarak çalıştığımız LLM'ler, yakınsama noktasına yaklaşmaktan çok uzak ve aslında 100-1000 kat daha uzun eğitimden yoksun
  • Umarım daha uzun süre eğitilen ve çok daha küçük modellerin yayımlanması eğilimi devam eder

Sistem

  • Llama 3'ün 16K GPU üzerinde gözlenen 400 TFLOPS throughput ile eğitildiği belirtiliyor
  • Açıkça söylenmese de bunların, NVIDIA pazarlama materyallerinde 1,979 TFLOPS veren H100 fp16 olduğu varsayılıyor
  • Ancak hepimiz o küçük yıldızın (*with sparsity) çok şey yaptığını biliyoruz; gerçek TFLOPS'u elde etmek için bu sayıyı 2'ye bölüp yaklaşık 990 almak gerekiyor
  • (Sparsity neden FLOPS olarak sayılıyor ki?)
  • Her hâlükârda 400/990 ~= %40 kullanım oranı demek; bu kadar çok GPU için hiç de fena değil!
  • Bu ölçekte bu seviyeye ulaşmak için gerçekten sağlam bir mühendislik gerekiyor

Özet

  • Llama 3, oldukça yetkin görünen ve çok memnuniyet verici bir model sürümü
  • Temellere sadık kalıyor, sağlam sistem ve veri çalışmasına çok zaman ayırıyor ve uzun süre eğitilen modellerin sınırlarını araştırıyor
  • 400B model de oldukça heyecan verici; GPT-4 seviyesindeki ilk open source sürüm olabilir
  • Birçok kişinin daha uzun context length isteyeceğini düşünüyorum

Henüz yorum yok.

Henüz yorum yok.