Google DeepMind makalesinin maliyetini hesaplama denemesi

(152334H.github.io)

4 puan yazan GN⁺ 2024-07-31 | 1 yorum | WhatsApp'ta paylaş

"Bir arXiv preprint’i için yaklaşık $10M (130 milyar won) yakmanın yolu"
DeepMind (GDM) yakın zamanda "Scaling Exponents Across Parameterizations and Optimizers" adlı mükemmel bir makale yayımladı
- Bu makale, farklı ortamlarda en iyi hiperparametreleri çıkarmak için 10.000’den fazla LLM eğitim çalıştırması gerçekleştirdi
Makaleyi okuduktan sonra, deney sonuçlarının tamamını toplayıp makaleyi yeniden üretmek için gereken toplam hesaplama maliyetini hesaplamayı denemiş
Sonuç olarak gereken toplam FLOPS 5.42e24, maliyet ise $12.9M (178 milyar won) (saatlik $3/H100 baz alındığında)
- Büyük resimde bakıldığında 5.42e24, "o kadar da büyük olmayan" bir ölçek
- Bu, Llama 3 için kullanılan hesaplamanın %15’ine bile ulaşmıyor ve 100.000 H100’lük bir küme ile tüm bu deneyler yalnızca 2 günde tamamlanabilir

H100 değerine dair ek açıklama

Google DeepMind kaynaklı bir makale olduğu için deneylerin neredeyse kesin olarak TPU ile yürütüldüğü düşünülüyor
Makalede int8 kullanımından söz edilmediği için muhtemelen bfloat16 hassasiyeti kullanılmış olduğu tahmin ediliyor
H100-SXM, 16 bit tensor işlemlerinde 989.40 TFLOP/s performansa sahip
Son PyTorch blog yazısı ve torchtitan, H100 MFU’yu yaklaşık %40 olarak bildiriyor
H100 düğüm maliyetinin saatlik yaklaşık $3 olduğu tahmin ediliyor (nerede kullanıldığına göre biraz değişebildiği için ortalama bir değer)

parkindani 2024-08-01

Fiyattan çok, kullanılan toplam enerji miktarını merak ediyorum.