- "Bir arXiv preprint’i için yaklaşık $10M (130 milyar won) yakmanın yolu"
- DeepMind (GDM) yakın zamanda "Scaling Exponents Across Parameterizations and Optimizers" adlı mükemmel bir makale yayımladı
- Bu makale, farklı ortamlarda en iyi hiperparametreleri çıkarmak için 10.000’den fazla LLM eğitim çalıştırması gerçekleştirdi
- Makaleyi okuduktan sonra, deney sonuçlarının tamamını toplayıp makaleyi yeniden üretmek için gereken toplam hesaplama maliyetini hesaplamayı denemiş
- Sonuç olarak gereken toplam FLOPS 5.42e24, maliyet ise $12.9M (178 milyar won) (saatlik $3/H100 baz alındığında)
- Büyük resimde bakıldığında 5.42e24, "o kadar da büyük olmayan" bir ölçek
- Bu, Llama 3 için kullanılan hesaplamanın %15’ine bile ulaşmıyor ve 100.000 H100’lük bir küme ile tüm bu deneyler yalnızca 2 günde tamamlanabilir
H100 değerine dair ek açıklama
- Google DeepMind kaynaklı bir makale olduğu için deneylerin neredeyse kesin olarak TPU ile yürütüldüğü düşünülüyor
- Makalede int8 kullanımından söz edilmediği için muhtemelen bfloat16 hassasiyeti kullanılmış olduğu tahmin ediliyor
- H100-SXM, 16 bit tensor işlemlerinde 989.40 TFLOP/s performansa sahip
- Son PyTorch blog yazısı ve torchtitan, H100 MFU’yu yaklaşık %40 olarak bildiriyor
- H100 düğüm maliyetinin saatlik yaklaşık $3 olduğu tahmin ediliyor (nerede kullanıldığına göre biraz değişebildiği için ortalama bir değer)
1 yorum
Fiyattan çok, kullanılan toplam enerji miktarını merak ediyorum.