Dolar başına performans daha hızlı ve daha ucuz hale geliyor

(wafer.ai)

1 puan yazan GN⁺ 4 시간 전 | 1 yorum | WhatsApp'ta paylaş

Çıkarım talebi arzın önüne geçerken ve NVIDIA GPU'ları ile token maliyetleri yükselirken, AMD MI355X, B300'e kıyasla GPU başına ortalama yaklaşık 2,75 kat daha ucuz olmasıyla düşük maliyetli bir çıkarım alternatifi olarak öne çıkıyor
AMD Instinct MI350 serisi, silikon düzeyinde Blackwell ile rekabet ediyor ancak NVIDIA'nın yazılım üstünlüğü ve day-0 desteği, gerçek sunum hızı ile devreye alma zorluğunu belirliyor
Wafer, GLM-5.2'yi MI355X üzerinde optimize ederek 20k girdi/1k çıktı, %60 cache hit oranlı iş yükünde 2626 tok/s/node ve 2.4 rps elde etti; bu, B200'de ölçülen performansın %80'i düzeyinde
Tek akış bazında ise 10k giriş token'ı/1.5k çıkış token'ında 213 tok/s kaydedildi; liderlik tablosunun zirvesinde olmasa da performans başına maliyette avantajlı olduğu değerlendiriliyor
Bu sonuç, özel kernel yazmadan; framework hatalarını düzeltme, kuantizasyon, speculative decode ve MoE kernel seçimi ayarıyla elde edildiği için AMD'nin sorunu giderek yazılımın kendisinden çok destek meselesine yaklaşıyor

AMD çıkarım maliyeti ve NVIDIA yazılım farkı

Çıkarım talebi hızla artıyor ve arzı geride bırakıyor; Claude Fable, GLM-5.2 ve Minimax M3 gibi öncü modeller neredeyse iki haftada bir çıkarken token talebi de büyüyor
Blackwell arzı yeterli olmadığı için NVIDIA GPU fiyatları ile token maliyetleri birlikte yükseliyor
AMD MI355X, B300'e kıyasla GPU başına ortalama yaklaşık 2,75 kat daha ucuz ve donanım özellikleri karşılaştırılabilir seviyede
AMD Instinct MI350 serisi, silikon düzeyinde Blackwell ile rekabet ediyor ancak NVIDIA, day-0 desteği ve yazılım ekosistemi sayesinde en yeni modellerin çıkarımını daha hızlı ve daha az sürtünmeyle sunabiliyor
MI355X ve ROCm yığınında, en yeni öncü modellerin SOTA performansı çoğu zaman varsayılan olarak gelmiyor; hatta çalıştırılabilir imaj bulmak bile zor olabiliyor
Day-0 desteği olmadığında, en yeni modeli derleyip optimize etmek için haftalarca mühendislik ve hesaplama kaynağı gerekiyor; bu sırada daha yeni bir model çıkıyor ve AMD sürekli yetişmeye çalışan tarafta kalıyor

MI355X üzerinde GLM-5.2 performansı

Wafer'a göre, ajanların kernel ve model optimizasyonunda iyileşmesiyle AMD ile NVIDIA arasındaki gerçek kullanım farkı daralıyor
20k girdi/1k çıktı, %60 cache hit oranlı iş yükünde 2626 tok/s/node elde edildi
- Sürdürülebilir RPS: 2.4 rps
- Tanımlanan knee noktası: TTFT 5 saniye altı
- B200'de ölçülen performansın %80'i düzeyinde
- MI355X, 2 katın üzerinde daha ucuz

Sürdürülebilir RPS	Toplam tok/s/node	TTFT p50 / p95	Başarı oranı
0.5	449	0.59s / 0.60s	100%
1.0	974	0.60s / 0.81s	100%
1.5	1913	0.62s / 1.03s	100%
2.0	1944	0.62s / 1.05s	100%
2.25	2089	0.63s / 1.23s	100%
2.4 doygunluk	2626	0.81s / 2.22s	100%

Artificial Analysis ölçütüne göre, GLM-5.2 tek akışta 10k giriş token'ı/1.5k çıkış token'ı koşulunda 213 tok/s elde edildi
Bu değer Artificial Analysis liderlik tablosunun zirvesinde değil ancak performans başına maliyette avantajlı olduğu değerlendiriliyor
Test, TensorWave'in AMD MI355X kapasitesi üzerinde servis edildi

Kuantizasyon ve çıkarım framework'ü seçimi

İlk adım kuantizasyon ve framework seçimi oldu; Wafer, bf16 tabanlı GLM-5.2'yi AMD Quark ile MXFP4 kuantize etti
z-ai'nin resmi FP8 kuantizasyonuyla karşılaştırıldığında, MXFP4'ün GPQA-Diamond, tau2 ve GSM8K üzerinde kayıpsız denebilecek düzeyde olduğu değerlendirildi

Değerlendirme	FP8 referans	MXFP4	Δ
GSM8K, 200 soru, 5-shot, greedy	0.965 ± 0.013	0.955 ± 0.014	−0.010
GPQA-Diamond, 198 soru × 2 seeds, temp 1.0	0.9217 ± 0.027	0.9026 ± 0.029	−0.019
tau2 macro	0.819	0.834	+0.015

Çıkarım framework'ü adayları vLLM, ATOM ve sglang olmak üzere 3 adetti
- vLLM'de MXFP4 + GlmMoeDsa yolu çalışmadığı için MXFP4 ağırlıklarının avantajı kullanılamadı
- ATOM'da uzun bağlamlarda çıktı kalitesi düştü
- sglang, yerel desteğe ulaşana kadar en az sürtünme yaratan seçenek oldu; kuantizasyonu kullanırken tutarlı çıktıyı da korudu

Speculative decode'u engelleyen iki sorun

Verimi artırmak için sglang'de speculative decode etkinleştirilmek istendi ancak sglang ROCm imajı bunu varsayılan olarak desteklemiyordu
MTP'nin düzgün çalışması için iki düzeltme gerekiyordu
İlk sorun, MTP head'in shared expert bölümünün bf16 olarak saklanmasına rağmen sglang'in kuantizasyon aramasının modül prefix uyumsuzluğu nedeniyle bunu MXFP4 olarak derlemeye çalışmasıydı
- Quark, bf16 shared expert'i model.layers.78.mlp.shared_experts.* olarak adlandırıyor
- MTP katmanının gerçek prefix'i ise model.decoder.*
- Bu uyumsuzluk nedeniyle yükleme sırasında tam genişlikli bf16 ağırlıklar yarım genişlikli 4-bit slotlara okunmaya çalışılıyor ve shape mismatch yüzünden başlatma başarısız oluyordu
- Wafer, speculative decode'u açmak için katman 78 girdilerini sglang'in gerçekten kullandığı decoder adıyla bir kez daha kopyaladı ve tek akış verimi neredeyse 3 kat arttı
İkinci sorun, z-ai'nin önerdiği 5/1/6 ayarı gibi derin speculative decode yapılarını engelleyen durumdu
- Draft depth 4 ve üzeri için gereken fused multi-step metadata kernel'i, ROCm guard olmadan #include <cuda_runtime.h> yazıyordu
- Bu durum tek bir #ifdef USE_ROCM guard ile düzeltildi
Speculative decode düzgün çalıştıktan sonra --kv-cache-dtype fp8_e4m3, --enable-aiter-allreduce-fusion gibi ayar optimizasyonları da eklenerek tek akış decode performansı 213 tok/s düzeyine ulaştı

Toplam verim darboğazı ve MoE ayarı

Tanımlanan iş yükünde yalnızca decode optimizasyonu yeterli olmadı; 20k giriş ve %60 cache koşulunda temel darboğaz prefill idi
Tek akış decode'a göre ayarlanmış TP8 yapılandırmasında MI355X, GLM-5.2-MXFP4'ü 1461 tok/s/node ile çalıştırdı
TP4×DP2'ye geçildiğinde aynı iş yükünde 1944 tok/s/node ve 2.0 RPS elde edildi
Ancak Wafer'ın ölçtüğü Blackwell performansı 3.0 RPS'de 3192 tok/s/node idi ve MI355X'in prefill performansı görece yavaştı
Bunun büyük bir nedeni, sglang imajında GLM-5.2'nin fp4 MoE'sinin sessizce yavaş FlyDSL sezgisel fallback yoluna düşmesiydi
- aiter yalnızca a8w8/fp8 yolu için ayarlanmış yapılandırmalar sunuyor
- Wafer, GLM'nin fp4 şekillerine uyacak şekilde MoE kernel seçimini doğrudan kendisi ayarladı
- Hedef şekiller model_dim 6144, moe_inter 2048, E=256, topk=8 idi
Bu ayarla toplam verim 2626 tok/s/node ve 2.4 RPS düzeyine çıktı

AMD'de SOTA performansa ulaşmak için gerekenler

MI355X üzerinde en iyi performans başına maliyete ulaşma sürecinde bir miktar sürtünme vardı ancak bunun özellikle zor olmadığı değerlendirildi
Qwen3.5 397B çalışmasının aksine, bu kez özel kernel yazılmadı
Bu çalışma çok düğümlü performansı ele almasa da tek düğümlü dağıtım gerçek dünyada hâlâ yaygın şekilde kullanılıyor
AMD'de SOTA performans elde etme sorunu giderek yazılımın kendisinden çok destek sorunu haline geliyor
Sonuç olarak CUDA moat'ın gerçek zamanlı olarak zayıfladığı savunuluyor

1 yorum

GN⁺ 4 시간 전

Hacker News yorumları

Böyle karşılaştırmalarda watt başına performansın da bir metrik olarak eklenmesini isterdim. AMD’nin gerçek performansa kıyasla maliyet açısından nerede durduğunu bilmek istiyorum.
ABD dışında veri merkezi kurmak isteyen şirketlerle konuşunca, yeterli ölçekte Nvidia tedariki bulmanın zor olduğunu söylüyorlar.
AMD watt başına performansta rekabetçiyse ve yazılım desteği de genel olarak güvenilirse, ABD dışında elektrik fiyatları çoğu zaman görece pahalı olduğundan bu epey önemli.
Uygun bir fiyatla küçük ölçekli veri merkezlerini mümkün kılarsa, Nvidia arzının sınırlı olduğu bölgelerde AMD stack’in bir parçası olabilir gibi görünüyor.
Yine de AMD GPU tedarikinin gerçekte nasıl olduğunu pek bilmiyorum; ABD’deki Wafer ve birkaç şirket dışında AMD kullanan pek şirket görmediğim için Nvidia balonunun içinde sıkışmış da olabilirim.
- DGX B200 yaklaşık 500 bin dolar ve yaklaşık 14 kW güç tüketiyor.
  8 yıl boyunca %100 çalıştığını varsayarsak yaklaşık 1 GWh eder; elektrik fiyatının pahalı olduğu Almanya gibi yerlerde bile bu yaklaşık 100 bin avro seviyesinde, yani 500 bin dolarlık ilk donanım bedeline kıyasla 8 yıla yayılmış maliyet olarak büyük değil.
  Yüksek güç tüketiminin asıl sorunu elektrik faturası değil, veri merkezine getirilebilecek güç besleme sınırı. Daha verimli bir yapılandırmanın iyi olması, sınırlı elektrik bağlantısı içinde daha fazla ekipman koyabilmek demek.
- AMD kullanan birkaç yer var, denemelere başlayanlar daha da fazla. Ancak AMD bu alanda uzun süredir hayal kırıklığı yarattığı için nihayet rekabet geliyor diye iyimser olmakta temkinliyim.
  Pazarın Nvidia’ya gerçek bir rakibe gerçekten ihtiyacı var; özellikle de performans/watt önemli.
- Meta AMD kullanıyor: https://www.amd.com/en/newsroom/press-releases/2026-2-24-amd...
  OpenAI da öyle: https://www.amd.com/en/newsroom/press-releases/2025-10-6-amd...
- AMD’nin son yıllarda video oyun konsollarının donanım tarafını fiilen domine ettiğini de hatırlamakta fayda var. Bunun yakın zamanda biteceğine dair bir işaret de yok.
- Genelde Nvidia’nın siparişlerini tam karşılayamadığı bir şirketse, elinde en azından bir miktar AMD GPU bulunur.
Güzel ama gerçek kullanımda FP4 quantizationın fiilen kayıpsız olduğu durumlar çok nadir. Birçok sağlayıcı Kimi ve GLM’de yüksek saniye başına token sayılarını öne çıkarıyor, fakat model işlevsel olarak kısıtlanmış hâle geliyor ve artık sınır seviye kaliteye yakın olmuyor.
Keşke bu doğru olmasaydı.
- Kimi INT4’ü varsayılan format olarak kullanıyor; bu yüzden o model için “4 bit hassasiyetten daha iyi” diye bir kavram yok.
  Bu, 16 bit hassasiyetin varsayılan olduğu ve 8 bitin de yaygın kullanıldığı GLM’den farklı.
- MI355X, FP4 ile aynı hızda FP6 işlemleri yapabiliyor. Bu AMD’ye özgü bir özellik.
  Bu yüzden insanların neredeyse kayıpsıza yakın, performans olarak da FP8’den çok FP4’e daha yakın MXFP6 quantization geliştirmesi gerekiyor.
- Nvidia da NVFP4’ün kayıpsız olduğunu iddia etmiyor mu?
  Nvidia’nın NVFP4’e dönüştürdüğü modeli GLM 5.2 dışında yeterince test etmedim, ama bana göre iyiydi.
  Kendi denemelerimin sonucu modele göre çok değişkendi.
- Benim de ilk gözüme çarpan kısım buydu.
- Hatırladığım kadarıyla doğruluğun %96~98 civarıydı.
Daha hızlı ve ucuz hâle getiren geliştirme yolundan bahsedeceğini sanmıştım; bu yazıda ise quantized sürümü tam sürümle aynı fiyata sunuyor, hızlı sürümü de çok daha pahalıya satıyor gibi görünüyor.
Bu neredeyse zaten olması gereken şey değil mi? Dolar başına performans bir mandal mekanizması gibi tek yönde iyileşmeli. Daha pahalı olan, daha ucuz olanın yerini nasıl alacak?
Bence böyle yazı başlıklarında quantization yöntemi belirtilmezse bunun yasak olması gerekir.
- MXFP4.
- Başlıkta “Why this matters” yazılmasını da yasaklasalar keşke.
- İyi bir filtre, sonunun .ai olup olmadığına bakmaktır. Bunu görürseniz düşük emekli, clickbait, yüzeysel, işe yaramaz veya dolandırıcı nitelikte bir yazı olma olasılığı çok yüksektir.
Bellek içi hesaplama ve nöromorfik paradigma, önümüzdeki 10 yılda bu eğilimi çok daha ileri taşıyabilir.
Daha radikal iyileştirmeler laboratuvar dışına çıktıkça sonunda yeni malzemeler ve nano cihazlar devreye girecek; verimlilik birkaç basamak mertebesinde artabilir.
MRAM gibi mevcut teknolojileri ölçeklemek bile alan açıyor.
fp8’den mxfp4’e geçerken doğruluk düşüşü belirginleşiyor.
- Wafer, lansmandan sadece birkaç hafta sonra kendi amiral gemisi kodlama planı olan Wafer Pass’i sonlandırdı ve oransal iade yapmak zorunda kaldı.
  Buna rağmen uygulaması açıkça yetersizken quantization ile maliyeti daha da düşürdüğüyle övünüyor.
  [1] https://www.ycombinator.com/launches/Q9i-wafer-pass-flat-rat...
- Yine de bir şekilde “kayıpsız” olduğunu iddia ettiler.
Yeni bir olgu değil. Dolar başına performans yaklaşık 1900’den beri oldukça istikrarlı biçimde üstel olarak iyileşiyor.
1900~2010: https://www.thekurzweillibrary.com/exponential-growth-of-com...
1939~2023: https://medium.com/@timventura/kurzweils-law-for-the-ai-age-...
Blackwell ile rekabet etmesi şaşırtıcı değil. Rubin, inference’da Blackwell’den 5 kat hızlı ve Blackwell, Nvidia’nın inference için özel olarak optimize etmediği son nesil.
Kaçırdığım bir şey varsa söylenmesini isterim.
- Rubin’de inference için optimize edildi denebilecek özel olarak ne olduğu çok belirsiz.
  Prefill düğümleriyle decoding düğümlerini ayıran ayrık yapılandırma görünüyor, ama bunun dışında ne var bilmiyorum.
- Inference bellek bant genişliği ile sınırlıyken inference nasıl 5 kat hızlandırılabilir? H100’ün 5 katı bellek bant genişliği elde etmek fiziksel olarak zor görünüyor.
Özellikle de birçok para biriminin zayıfladığı bir ortamda daha da öyle.

Dolar başına performans daha hızlı ve daha ucuz hale geliyor

AMD çıkarım maliyeti ve NVIDIA yazılım farkı

MI355X üzerinde GLM-5.2 performansı

Kuantizasyon ve çıkarım framework'ü seçimi

Speculative decode'u engelleyen iki sorun

Toplam verim darboğazı ve MoE ayarı

AMD'de SOTA performansa ulaşmak için gerekenler

İlgili okumalar

1 yorum

Hacker News yorumları