Intel Gaudi 2 çipi, Diffusion Transformer benchmark’ında Nvidia H100’ü geride bıraktı

xguru · 2024-03-12T10:46:01+09:00

"Behind the Compute" serisi, Stability AI’nin iş yolculuğunu belgeleyen ve başkalarının üretken yapay zekanın gücünden yararlanabilmesi için içgörüler sunan bir blog yazısı serisi Bu bölümde, çeşitli bilgi işlem çözümlerinin performans benchmark’ları ve avantajları daha derinlemesine inceleniyor Performans analizi Performans analizi için iki model eğitildi; bunlardan biri büyük merakla beklenen Stable Diffusion 3 Eğitim hızı, Intel Gaudi 2 hızlandırıcısı ile Nvidia’nın A100 ve H100 modelleri karşılaştırılarak ölçüldü Bunlar, girişimler ve geliştiricilerin büyük dil modellerini eğitmek için en sık tercih ettiği seçenekler Model 1: Stable Diffusion 3 Stable Diffusion 3, yakında erken önizleme aşamasına girecek en yetenekli metinden görsele model Stable Diffusion 3’ün herkese açık sürümü, 800M ile 8B parametre aralığında boyutlarla sunulacak 2B parametreli sürümle yapılan analiz, beklentilerin üzerinde sonuçlar gösterdi 2B Multimodal Diffusion Transformer (MMDiT) mimarisine sahip modelin eğitim throughput’u ölçüldü; burada d=24, BFloat16 mixed precision ve optimize attention (A100 için xFormers, Intel Gaudi için FusedSDPA) kullanıldı Modelin bu sürümü MMDiT-ps2-d24 olarak adlandırılıyor 2 düğüm ve toplam 16 hızlandırıcı (Gaudi/GPU) ile yapılan eğitim benchmark sonuçlarına göre, Gaudi 2 sistemi hızlandırıcı başına batch size’ı 16’da tutarak saniyede 927 eğitim görseli işledi - H100-80GB’den 1,5 kat daha hızlı Gaudi 2’nin 96GB yüksek bant genişlikli belleği (HBM2E) kullanılarak hızlandırıcı başına batch size 32’ye çıkarıldı ve eğitim hızı saniyede 1.254 görsele yükseldi Dağıtık eğitim 32 Gaudi 2 düğümüne (toplam 256 hızlandırıcı) ölçeklendirildiğinde de oldukça rekabetçi performans ölçüldü Bu yapılandırmada Gaudi 2 kümesi, A100-80GB GPU’ya kıyasla saniyede 3 kattan fazla daha fazla görsel işledi. Bu, A100’ün oldukça optimize bir yazılım yığınına sahip olmasına rağmen etkileyici Stable Diffusion 3’ün 8B parametreli modeli için yapılan inference testlerinde, Gaudi 2 çipi temel PyTorch ile Nvidia A100 çipine benzer inference hızı sundu Ancak TensorRT optimizasyonuyla A100 çipi, Gaudi 2’den %40 daha hızlı görsel üretti Ek optimizasyonlarla Gaudi 2’nin bu modelde yakında A100’ü aşması bekleniyor Temel PyTorch ile yapılan önceki testlerde Gaudi 2, 1024x1024 görselleri 30 adımda 3,2 saniyede üretirken, A100’de bu süre PyTorch ile 3,6 saniye, TensorRT ile 2,7 saniye oldu Gaudi 2’nin daha yüksek bellek kapasitesi, daha hızlı ara bağlantıları ve diğer tasarım tercihleri sayesinde, yeni nesil medya modellerini destekleyen Diffusion Transformer mimarisini çalıştırma konusunda rekabetçi olduğu görülüyor Model 2: Stable Beluga 2.5 70B Stable Beluga 2.5 70B, LLaMA 2 70B’nin ince ayarlı bir sürümü ve belirli benchmark’larda ChatGPT 3.5’i geride bırakan ilk açık model olan Stable Beluga 2’yi temel alıyor Bu eğitim benchmark’ı 256 Gaudi 2 hızlandırıcısında gerçekleştirildi ve ek optimizasyon olmadan PyTorch kodu olduğu gibi çalıştırılarak ortalama toplam throughput’un 116.777 token/sn olduğu ölçüldü Burada FP16 veri türü, 1024 global batch size, 2 gradient accumulation step ve 2 micro-batch size kullanıldı Gaudi 2 üzerinde 70B dil modeli için yapılan inference testinde, 128 giriş token boyutu ve 2048 çıkış token boyutu ile hızlandırıcı başına 673 token/sn üretildi TensorRT-LLM ile karşılaştırıldığında, Gaudi 2, A100’ün 525 token/sn değerinden %28 daha hızlı FP8 ile daha yüksek hız artışı bekleniyor Bilgi işlem çözümlerine talep Bizim gibi şirketlerde giderek daha güçlü ve verimli bilgi işlem çözümlerine olan talep artıyor Bulgularımız, Gaudi 2 gibi alternatiflere duyulan ihtiyacı vurguluyor. Bu alternatifler yalnızca diğer 7nm çiplere göre daha iyi performans sunmakla kalmıyor; aynı zamanda fiyat/performans oranı, daha düşük maliyet ve daha kısa tedarik süresi gibi pazardaki kritik ihtiyaçlara da yanıt veriyor Bilgi işlem seçeneklerinde tercih imkânının artması, katılımı ve inovasyonu genişletiyor; ileri yapay zeka teknolojilerini herkes için daha erişilebilir hale getiriyor

(stability.ai)

6 puan yazan xguru 2024-03-12 | 1 yorum | WhatsApp'ta paylaş

"Behind the Compute" serisi, Stability AI’nin iş yolculuğunu belgeleyen ve başkalarının üretken yapay zekanın gücünden yararlanabilmesi için içgörüler sunan bir blog yazısı serisi
Bu bölümde, çeşitli bilgi işlem çözümlerinin performans benchmark’ları ve avantajları daha derinlemesine inceleniyor

Performans analizi

Performans analizi için iki model eğitildi; bunlardan biri büyük merakla beklenen Stable Diffusion 3
Eğitim hızı, Intel Gaudi 2 hızlandırıcısı ile Nvidia’nın A100 ve H100 modelleri karşılaştırılarak ölçüldü
Bunlar, girişimler ve geliştiricilerin büyük dil modellerini eğitmek için en sık tercih ettiği seçenekler

Model 1: Stable Diffusion 3

Stable Diffusion 3, yakında erken önizleme aşamasına girecek en yetenekli metinden görsele model
Stable Diffusion 3’ün herkese açık sürümü, 800M ile 8B parametre aralığında boyutlarla sunulacak
2B parametreli sürümle yapılan analiz, beklentilerin üzerinde sonuçlar gösterdi
2B Multimodal Diffusion Transformer (MMDiT) mimarisine sahip modelin eğitim throughput’u ölçüldü; burada d=24, BFloat16 mixed precision ve optimize attention (A100 için xFormers, Intel Gaudi için FusedSDPA) kullanıldı
Modelin bu sürümü MMDiT-ps2-d24 olarak adlandırılıyor
2 düğüm ve toplam 16 hızlandırıcı (Gaudi/GPU) ile yapılan eğitim benchmark sonuçlarına göre, Gaudi 2 sistemi hızlandırıcı başına batch size’ı 16’da tutarak saniyede 927 eğitim görseli işledi - H100-80GB’den 1,5 kat daha hızlı
Gaudi 2’nin 96GB yüksek bant genişlikli belleği (HBM2E) kullanılarak hızlandırıcı başına batch size 32’ye çıkarıldı ve eğitim hızı saniyede 1.254 görsele yükseldi
Dağıtık eğitim 32 Gaudi 2 düğümüne (toplam 256 hızlandırıcı) ölçeklendirildiğinde de oldukça rekabetçi performans ölçüldü
Bu yapılandırmada Gaudi 2 kümesi, A100-80GB GPU’ya kıyasla saniyede 3 kattan fazla daha fazla görsel işledi. Bu, A100’ün oldukça optimize bir yazılım yığınına sahip olmasına rağmen etkileyici
Stable Diffusion 3’ün 8B parametreli modeli için yapılan inference testlerinde, Gaudi 2 çipi temel PyTorch ile Nvidia A100 çipine benzer inference hızı sundu
Ancak TensorRT optimizasyonuyla A100 çipi, Gaudi 2’den %40 daha hızlı görsel üretti
Ek optimizasyonlarla Gaudi 2’nin bu modelde yakında A100’ü aşması bekleniyor
Temel PyTorch ile yapılan önceki testlerde Gaudi 2, 1024x1024 görselleri 30 adımda 3,2 saniyede üretirken, A100’de bu süre PyTorch ile 3,6 saniye, TensorRT ile 2,7 saniye oldu
Gaudi 2’nin daha yüksek bellek kapasitesi, daha hızlı ara bağlantıları ve diğer tasarım tercihleri sayesinde, yeni nesil medya modellerini destekleyen Diffusion Transformer mimarisini çalıştırma konusunda rekabetçi olduğu görülüyor

Model 2: Stable Beluga 2.5 70B

Stable Beluga 2.5 70B, LLaMA 2 70B’nin ince ayarlı bir sürümü ve belirli benchmark’larda ChatGPT 3.5’i geride bırakan ilk açık model olan Stable Beluga 2’yi temel alıyor
Bu eğitim benchmark’ı 256 Gaudi 2 hızlandırıcısında gerçekleştirildi ve ek optimizasyon olmadan PyTorch kodu olduğu gibi çalıştırılarak ortalama toplam throughput’un 116.777 token/sn olduğu ölçüldü
Burada FP16 veri türü, 1024 global batch size, 2 gradient accumulation step ve 2 micro-batch size kullanıldı
Gaudi 2 üzerinde 70B dil modeli için yapılan inference testinde, 128 giriş token boyutu ve 2048 çıkış token boyutu ile hızlandırıcı başına 673 token/sn üretildi
TensorRT-LLM ile karşılaştırıldığında, Gaudi 2, A100’ün 525 token/sn değerinden %28 daha hızlı
FP8 ile daha yüksek hız artışı bekleniyor

Bilgi işlem çözümlerine talep

Bizim gibi şirketlerde giderek daha güçlü ve verimli bilgi işlem çözümlerine olan talep artıyor
Bulgularımız, Gaudi 2 gibi alternatiflere duyulan ihtiyacı vurguluyor. Bu alternatifler yalnızca diğer 7nm çiplere göre daha iyi performans sunmakla kalmıyor; aynı zamanda fiyat/performans oranı, daha düşük maliyet ve daha kısa tedarik süresi gibi pazardaki kritik ihtiyaçlara da yanıt veriyor
Bilgi işlem seçeneklerinde tercih imkânının artması, katılımı ve inovasyonu genişletiyor; ileri yapay zeka teknolojilerini herkes için daha erişilebilir hale getiriyor

1 yorum

xguru 2024-03-12

Hacker News görüşleri

TPU'ların A100'leri rahatça geçtiği gerçeği ilginç. dreamlook.ai, TPU kullanarak Stable Diffusion fine-tuning hizmeti sunuyor ve insanlar sağlanan hız ile maliyete şaşırıyor. Ama ortada büyük bir sır yok; sadece iş başına daha hızlı ve daha ucuz donanım kullanılıyor.
Yeni donanımlarla model eğitimi rekabetini teşvik etmek iyi, ancak bu makinelerin erişilebilirliği çok sınırlı. Büyük bulut sağlayıcıları Gaudi2 VM'lerini saatlik kiralamaya izin vermiyor ve Intel'in kendi sitesi sizi 40 bin USD'nin üzerinde fiyatlı 8x GPU sunucu satın almaya yönlendiriyor. Şu an için Nvidia hâlâ yazılım yığını ve erişilebilirlik açısından avantajlı, ancak bu yılın sonuna kadar değişim başlayabilir.
NVIDIA, H100'lerde neredeyse %92 kâr marjı bırakıyor. Daha fazla çip şirketinin "ML hızlandırıcı" alanına atlamamış olması şaşırtıcı.
Donanım metrikleri 3 kat daha iyi değilken neden 3 kat daha hızlı olunabildiğine dair bir analiz olsaydı, bu gerçekten faydalı ve içgörülü bir bilgi olurdu. Aksi takdirde bu sadece reklam.
H100 neredeyse 1 yıl önce piyasaya çıktı, dolayısıyla Intel geçen yılın modeliyle rekabet etmeye hazırsa bu fena değil. CUDA'nın çok önemli bir parça olduğunu ve hem donanımın hem yazılımın birlikte olgunlaşmasının 10 yıl sürdüğünü unutmamak gerekir.
H100 zaten yaklaşık 1 yıldır yüksek hacimde sevk ediliyor. Gaudi2 de benzer ölçekte erişilebilir mi? NVIDIA, benzer zaman dilimlerinde rakip parçalara karşı net bir üstünlük kuramadığı noktaya gelene kadar NVIDIA'yı asla göz ardı etmemek gerekir.
Gaudi ile Ponte Vecchio'nun ikisinin birden neden var olduğuna, Intel AXG çalışanları da dahil olmak üzere, kimse tatmin edici bir yanıt veremedi. Intel'in tek bir ürün hattına odaklanması başarı şansını artırmaz mı?
Yapay zeka bilim insanlarının bugünlerde nasıl çalıştığını merak ediyorum. Gerçekten Cudakernels üzerinde hack mi yapıyorlar, yoksa pytorch gibi yüksek seviyeli araç setleriyle mi modelleri birleştiriyorlar? İkincisi geçerliyse, pytorch farklı donanımlar için optimize edilmiş backend'ler sunarsa CUDA gerçekten büyük bir engel mi?