`llm.c` kullanarak GPT-2 modelini düşük maliyetle yeniden uygulamak

(github.com/karpathy)

12 puan yazan GN⁺ 2024-05-29 | Henüz yorum yok. | WhatsApp'ta paylaş

llm.c kullanarak GPT-2 (124M) modelinin 90 dakikada 20 $ maliyetle nasıl yeniden üretileceği anlatılıyor
GPT-2 (124M), OpenAI'nin 2019'da yayımladığı en küçük model
Lambda üzerinde 8X A100 80GB SXM düğümü kullanıldığında saatlik yaklaşık 14 $, toplam maliyet yaklaşık 20 $
- Eğitim tek GPU ile de mümkün, ancak daha uzun sürüyor (4-24 saat)

FineWeb doğrulama veri kümesinde, OpenAI'nin yayımladığı checkpoint'ten daha iyi performans gösteriyor
- Ancak GPT-2, WebText ile eğitildiği için bu tamamen adil bir karşılaştırma değil
HellaSwag doğruluğu da ölçülmüş; GPT-3 Small (124M)'in 33.7 puanına yakın olan 29.9'a ulaşılıyor
- GPT-2 (124M)'nin 29.4 puanı ise şimdiden aşılmış durumda
- Ancak burada eğitim 10B token ile yapıldı; GPT-3 ise 300B token ile eğitildi

10B eğitim token'ı ve 0.5M batch boyutu temelinde yaklaşık 20K adım bekleniyor
A100 40GB PCIe GPU temelinde step başına süre, MFU ve token işleme çıktısı gösteriliyor
Eğitimin başında gradient exploding görülüyor ancak clipping ile çözülüyor

Log dosyasını parse edip eğitim eğrilerini görselleştiren bir Jupyter notebook sağlanıyor

Sampling mümkün mü?: Evet, ancak verimsiz.
Sohbet mümkün mü?: Şu anda yalnızca ön eğitim mümkün, sohbet ince ayarı desteklenmiyor.
Çok düğümlü dağıtık eğitim: Mümkün, ancak henüz test edilmedi.
Bit düzeyinde deterministik mi?: Neredeyse deterministik, ancak bazı kernel yamaları gerekiyor.
FP8 eğitim mümkün mü?: Şu anda BF16 ile eğitim yapılıyor, FP8 desteği yakında planlanıyor.
NVIDIA dışı GPU desteği var mı?: Şu anda yalnızca C/CUDA destekleniyor.

GN⁺ görüşü

GPT-2, modern LLM'lerin başlangıç noktası olarak çok önemli bir model. Sonraki GPT-3 ve diğer LLM'ler de GPT-2'den temelde çok farklı değil.
Bu proje, GPT-2 seviyesindeki bir modeli herkesin makul bir maliyetle doğrudan eğitip deneyebilmesini sağlıyor. LLM'leri anlamayı derinleştirmede büyük fayda sağlayabilir.
Ancak henüz inference için optimize edilmediğinden, gerçek hizmetlerde kullanım açısından sınırlı. Diyalog tabanlı modele fine-tune etmek de desteklenmiyor.
Şu anda yalnızca NVIDIA GPU'ları destekliyor; gelecekte AMD, Apple Silicon ve diğer platformlar için destek bekleniyor.
Benzer amaçlı açık kaynak projeler arasında Megatron-LM, DeepSpeed ve FairSeq bulunuyor. Her birinin artıları ve eksileri olduğundan, kullanım amacına göre seçmek iyi olabilir.
LLM geliştirme ekosisteminin canlanması açısından son derece teşvik edici bir proje. Geleceği daha da merak uyandırıyor.