- "Behind the Compute" serisi, Stability AI’nin iş yolculuğunu belgeleyen ve başkalarının üretken yapay zekanın gücünden yararlanabilmesi için içgörüler sunan bir blog yazısı serisi
- Bu bölümde, çeşitli bilgi işlem çözümlerinin performans benchmark’ları ve avantajları daha derinlemesine inceleniyor
Performans analizi
- Performans analizi için iki model eğitildi; bunlardan biri büyük merakla beklenen Stable Diffusion 3
- Eğitim hızı, Intel Gaudi 2 hızlandırıcısı ile Nvidia’nın A100 ve H100 modelleri karşılaştırılarak ölçüldü
- Bunlar, girişimler ve geliştiricilerin büyük dil modellerini eğitmek için en sık tercih ettiği seçenekler
Model 1: Stable Diffusion 3
- Stable Diffusion 3, yakında erken önizleme aşamasına girecek en yetenekli metinden görsele model
- Stable Diffusion 3’ün herkese açık sürümü, 800M ile 8B parametre aralığında boyutlarla sunulacak
- 2B parametreli sürümle yapılan analiz, beklentilerin üzerinde sonuçlar gösterdi
- 2B Multimodal Diffusion Transformer (MMDiT) mimarisine sahip modelin eğitim throughput’u ölçüldü; burada d=24, BFloat16 mixed precision ve optimize attention (
A100 için xFormers, Intel Gaudi için FusedSDPA) kullanıldı
- Modelin bu sürümü MMDiT-ps2-d24 olarak adlandırılıyor
- 2 düğüm ve toplam 16 hızlandırıcı (Gaudi/GPU) ile yapılan eğitim benchmark sonuçlarına göre, Gaudi 2 sistemi hızlandırıcı başına batch size’ı 16’da tutarak saniyede 927 eğitim görseli işledi - H100-80GB’den 1,5 kat daha hızlı
- Gaudi 2’nin 96GB yüksek bant genişlikli belleği (HBM2E) kullanılarak hızlandırıcı başına batch size 32’ye çıkarıldı ve eğitim hızı saniyede 1.254 görsele yükseldi
- Dağıtık eğitim 32 Gaudi 2 düğümüne (toplam 256 hızlandırıcı) ölçeklendirildiğinde de oldukça rekabetçi performans ölçüldü
- Bu yapılandırmada Gaudi 2 kümesi, A100-80GB GPU’ya kıyasla saniyede 3 kattan fazla daha fazla görsel işledi. Bu, A100’ün oldukça optimize bir yazılım yığınına sahip olmasına rağmen etkileyici
- Stable Diffusion 3’ün 8B parametreli modeli için yapılan inference testlerinde, Gaudi 2 çipi temel PyTorch ile Nvidia A100 çipine benzer inference hızı sundu
- Ancak TensorRT optimizasyonuyla A100 çipi, Gaudi 2’den %40 daha hızlı görsel üretti
- Ek optimizasyonlarla Gaudi 2’nin bu modelde yakında A100’ü aşması bekleniyor
- Temel PyTorch ile yapılan önceki testlerde Gaudi 2, 1024x1024 görselleri 30 adımda 3,2 saniyede üretirken, A100’de bu süre PyTorch ile 3,6 saniye, TensorRT ile 2,7 saniye oldu
- Gaudi 2’nin daha yüksek bellek kapasitesi, daha hızlı ara bağlantıları ve diğer tasarım tercihleri sayesinde, yeni nesil medya modellerini destekleyen Diffusion Transformer mimarisini çalıştırma konusunda rekabetçi olduğu görülüyor
Model 2: Stable Beluga 2.5 70B
- Stable Beluga 2.5 70B, LLaMA 2 70B’nin ince ayarlı bir sürümü ve belirli benchmark’larda ChatGPT 3.5’i geride bırakan ilk açık model olan Stable Beluga 2’yi temel alıyor
- Bu eğitim benchmark’ı 256 Gaudi 2 hızlandırıcısında gerçekleştirildi ve ek optimizasyon olmadan PyTorch kodu olduğu gibi çalıştırılarak ortalama toplam throughput’un 116.777 token/sn olduğu ölçüldü
- Burada FP16 veri türü, 1024 global batch size, 2 gradient accumulation step ve 2 micro-batch size kullanıldı
- Gaudi 2 üzerinde 70B dil modeli için yapılan inference testinde, 128 giriş token boyutu ve 2048 çıkış token boyutu ile hızlandırıcı başına 673 token/sn üretildi
- TensorRT-LLM ile karşılaştırıldığında, Gaudi 2, A100’ün 525 token/sn değerinden %28 daha hızlı
- FP8 ile daha yüksek hız artışı bekleniyor
Bilgi işlem çözümlerine talep
- Bizim gibi şirketlerde giderek daha güçlü ve verimli bilgi işlem çözümlerine olan talep artıyor
- Bulgularımız, Gaudi 2 gibi alternatiflere duyulan ihtiyacı vurguluyor. Bu alternatifler yalnızca diğer 7nm çiplere göre daha iyi performans sunmakla kalmıyor; aynı zamanda fiyat/performans oranı, daha düşük maliyet ve daha kısa tedarik süresi gibi pazardaki kritik ihtiyaçlara da yanıt veriyor
- Bilgi işlem seçeneklerinde tercih imkânının artması, katılımı ve inovasyonu genişletiyor; ileri yapay zeka teknolojilerini herkes için daha erişilebilir hale getiriyor
1 yorum
Hacker News görüşleri