4 puan yazan GN⁺ 2024-07-31 | 1 yorum | WhatsApp'ta paylaş
  • "Bir arXiv preprint’i için yaklaşık $10M (130 milyar won) yakmanın yolu"
  • DeepMind (GDM) yakın zamanda "Scaling Exponents Across Parameterizations and Optimizers" adlı mükemmel bir makale yayımladı
    • Bu makale, farklı ortamlarda en iyi hiperparametreleri çıkarmak için 10.000’den fazla LLM eğitim çalıştırması gerçekleştirdi
  • Makaleyi okuduktan sonra, deney sonuçlarının tamamını toplayıp makaleyi yeniden üretmek için gereken toplam hesaplama maliyetini hesaplamayı denemiş
  • Sonuç olarak gereken toplam FLOPS 5.42e24, maliyet ise $12.9M (178 milyar won) (saatlik $3/H100 baz alındığında)
    • Büyük resimde bakıldığında 5.42e24, "o kadar da büyük olmayan" bir ölçek
    • Bu, Llama 3 için kullanılan hesaplamanın %15’ine bile ulaşmıyor ve 100.000 H100’lük bir küme ile tüm bu deneyler yalnızca 2 günde tamamlanabilir

H100 değerine dair ek açıklama

  • Google DeepMind kaynaklı bir makale olduğu için deneylerin neredeyse kesin olarak TPU ile yürütüldüğü düşünülüyor
  • Makalede int8 kullanımından söz edilmediği için muhtemelen bfloat16 hassasiyeti kullanılmış olduğu tahmin ediliyor
  • H100-SXM, 16 bit tensor işlemlerinde 989.40 TFLOP/s performansa sahip
  • Son PyTorch blog yazısı ve torchtitan, H100 MFU’yu yaklaşık %40 olarak bildiriyor
  • H100 düğüm maliyetinin saatlik yaklaşık $3 olduğu tahmin ediliyor (nerede kullanıldığına göre biraz değişebildiği için ortalama bir değer)

1 yorum

 
parkindani 2024-08-01

Fiyattan çok, kullanılan toplam enerji miktarını merak ediyorum.