AMD'nin yapay zeka geleceği raf ölçeğinde ‘Helios’

(morethanmoore.substack.com)

1 puan yazan GN⁺ 2025-06-16 | 1 yorum | WhatsApp'ta paylaş

AMD Instinct MI355X GPU, iki kat yapay zeka hesaplama performansı, daha fazla HBM bellek ve NVIDIA'ya kıyasla token/$ verimliliğinde %40 artış sunuyor
ROCm 7 yazılımı, performans iyileştirmeleriyle birlikte Day-0 desteğini öne çıkarıyor ve yapay zeka ekosistemini büyütmeye odaklanıyor
Raf ölçeğinde entegre çözüm, AMD CPU+GPU+ağ bileşimini bir araya getiren anahtar teslim yapay zeka altyapısı sağlıyor
Yol haritası: 2026'da 4 kat performans, HBM4, ölçeklenebilirlik içeren yeni nesil mimari ve Helios rafının tanıtılması planlanıyor
Enerji verimliliği: 2030'a kadar raf ölçeği bazında 20 kat verimlilik artışı hedefleniyor; bunun için donanım ve yazılımda eşzamanlı yenilikler yürütülüyor

Genel özet

Raf ölçeğinde yapay zeka büyümesine dayanan AMD hamlesi

Yapay zeka donanım talebindeki hızlı artış nedeniyle sektörün önde gelen yarı iletken şirketlerinin tamamı pazar payını ve büyümeyi hızlandırmaya odaklanıyor
AMD, Instinct MI300X ile yapay zeka sunucusu GPU pazarına hızla girerken, yakın dönemde temel özellikler ve performansa tamamen odaklanan ilk mimarisini piyasaya sürme deneyimiyle yüksek marjlı gelir elde etti
Bunun ardından yeni nesil yapay zeka sunucu donanımı ile konumunu sürekli genişletme stratejisini açıkladı

Instinct MI350 hızlandırıcılarındaki ayrıntılı yenilikler

Yapay zeka hesaplama performansında sıçrama

Instinct MI350 serisi, yeni CDNA4 mimarisi üzerine kurulu olup MI300X'e kıyasla matris işlemleri (tensor işlemleri) iş hacmini saat çevrimi başına iki kattan fazla artıran bir yapıya sahip
FP6, FP4 gibi düşük hassasiyetli kayan nokta işlemlerini tam anlamıyla destekleyerek çıkarım yükünü azaltırken toplam hesaplama hacmini de büyük ölçüde artırıyor
FP6 işlemleri özelinde, rakip NVIDIA Blackwell'e kıyasla iki kat hızda çalışacak şekilde tasarlanarak performans üstünlüğü hedefleniyor
288GB HBM3E bellek (8 stack) ve 8TB/sec bant genişliği gibi bellek yapılandırmaları da önemli ölçüde yükseltilmiş durumda
TSMC N3P sürecine dayanan devasa 185 milyar transistörlü çip, verimli die stacking yapısıyla hayata geçirildi

Çeşitli SKU'lar ve yüksek performans/yüksek güç eğilimi

Ürünler, yalnızca sıvı soğutmalı MI355X (2.4GHz, 5PFLOPS) ve hava soğutmalı MI350X (2.2GHz, 4.6PFLOPS) olarak ayrılıyor
Güç tüketimi MI300X'e göre artmış durumda; hava soğutmalı model 1000W, sıvı soğutmalı model ise 1400W seviyesinde
Bir rafta 128 adet MI355X kullanıldığında yalnızca GPU'lar için 180kW sınıfında güç tüketimi mümkün
Fiyat rekabetçiliği de vurgulanıyor; token/$ bazında NVIDIA'ya göre %40'ın üzerinde üstünlük (%30 daha ucuz) bekleniyor
İş ortaklarına sevkiyat 2024'ün 3. çeyreğinden itibaren başlıyor, ancak gerçek tedarik hızı değişken olabilir

ROCm 7 yazılım stratejisi

Day-0 desteği ve performansı en üst düzeye çıkarma

ROCm 7, CDNA4 ve MI350 serisi hızlandırıcılara destek ile performans, kurumsal yönetim ve diğer alanlarda kapsamlı iyileştirmeler getiriyor
Pytorch gibi başlıca framework'ler için Day-0 desteği hedefleniyor
2024'ün 3. çeyreğinde Windows yerel Pytorch, ONNX Runtime ve RDNA 4/3 GPU desteği de başlıyor
Yalnızca yazılım optimizasyonlarıyla MI300X neslinin performansı ROCm 7'de, ROCm 6'ya kıyasla en fazla 3.8 kat artıyor
ROCm Enterprise AI, büyük ölçekli yapay zeka kümesi işletimi, model fine-tuning gibi kurumsal odaklı araçlar sunuyor

Ağ ekosisteminin tamamlanması: Pollara 400 AI NIC

Pensando satın alımının ardından AMD'nin ilk ağ kartı olan Pollara 400 AI NIC (400G Ethernet, TSMC N4 süreci) piyasaya sürüldü
Ölçeklenebilirlik ve programlanabilir P4 NIC özellikleriyle AMD tabanlı süper bilgisayar raf yapılandırmalarını destekliyor
Ultra Ethernet Consortium ile uyumlu ilk AI NIC olarak, yeni nesil ölçeklenebilir ağ altyapısının temelini atıyor

MI400 tabanlı raf ölçeğinde gelecek yol haritası

MI400 (2026): FP8 bazında yapay zeka performansını iki katına çıkarma, HBM4 ile 432GB/19.6TB/sec bant genişliği ve yeni nesil mimariyi (CDNA Next) hedefliyor
Ultra Accelerator Link ile 8 GPU'dan 1024 GPU'ya ölçek büyütme sağlanarak büyük ölçekli paralel işlem destekleniyor
Helios raf sistemi: MI400, EPYC Venice (6. nesil) ve Vulcano (800G NIC) birleşimiyle yeni nesil rakip kampa (NVIDIA Vera Rubin) karşı bellek/ağ üstünlüğü vurgulanıyor
Açık yol haritası üzerinden her yıl CPU, GPU ve raf sistemi için temel mimari yenilik planları sunuluyor
2030'a kadar raf ölçeğinde enerji verimliliğini 20 kat, toplam verimliliği 100 kat artırma hedefiyle donanım ve yazılım optimizasyonlarına yoğunlaşılıyor

Sonuç

AMD, Instinct MI350~Helios serisi, CDNA 4~Next ve raf ölçeğinde anahtar teslim çözümlerle yapay zeka altyapısı pazarında farklılaştırılmış liderlik elde etmeyi hedefliyor
Yakın vadede yeni MI350, CDNA4 mimarisi ve ROCm 7 yazılımının ana odak olması bekleniyor
NVIDIA ile yapay zeka sunucusu pazarı rekabetinde performans, maliyet, ölçeklenebilirlik ve verimliliğin tamamını güçlendirmeye yönelik bir strateji izliyor

1 yorum

GN⁺ 2025-06-16

Hacker News yorumları

ROCm kullanımının gerçekten duruma göre çok değiştiği hissi var; dürüst olmak gerekirse tüketici tipi ekran kartı desteğine de güvenmek zor. Keşke iyi bir alternatif olsaydı ama CUDA’ya geçtikten sonra baş ağrıtan sorunları ve zaman kaybını ciddi ölçüde azalttım; özellikle HIP’te MiOpen benchmark’larını çalıştırmanın fazla uzun sürmesi büyük bir problemdi.
Bilimsel hesaplama için CUDA’nın öne çıkmaya başladığı yaklaşık 2010’dan beri aynı hikâyenin tekrarlandığı hissi var. 15 yıl geçmiş olmasına rağmen AMD’nin bu başarı modelini yakalayamamış olmasını anlamıyorum; NVIDIA yazılım ekosistemini tamamen ele geçirmişken artık çok geç kalınmış gibi görünüyor.
AMD’nin sunduğu yazılımları iyi bilen birinin genel tabloyu açıklamasını isterdim. Neural network çıkarımı ya da eğitimi için gerçekten kullanılabilir SDK’nın hangisi olduğunu merak ediyorum. Seçenekler o kadar fazla ki bir süre araştırmış olsam da yönün çok farklı taraflara dağıldığı hissi veriyor; bu yüzden nereye gidildiğini anlamak zor.
Jensen’ın CUDA stack ve workstation alanında gerçekten güçlü bir birikimi olduğu hissediliyor. AMD’nin sadece donanımı büyütmesinin yetmeyeceği, bu stack’in kendisini aşması gerektiği açık. Pazarın büyük çoğunluğu, pazar payı %10’u bile bulmayan bir yapı için uzun süre çalışıp karmaşık bir stack öğrenmek istemiyor.
Gerçekte CUDA API’sini doğrudan çağıran geliştirici neredeyse yok. Bu yüzden AMD’nin odaklanması gereken asıl noktanın ROCm backend’ini XLA ve PyTorch’a düzgün bağlamak olduğunu düşünüyorum. Bunu bile iyi yaparsa ciddi bir pazar açabilir. Ayrıca AMD’nin de 10 küsur yıl önce Nvidia’nın yaptığı gibi GPU’ları üniversitelere neredeyse bedava dağıtarak araştırmacı ekosistemini büyütmesi gerektiğini düşünüyorum. Bugünlerde yapay zeka hesaplama kaynağı eksikliğinden üniversitelerin çoğu 2-3 nesil geride kalmış donanımlar kullanıyor. AMD yarı fiyata istikrarlı GPU’lar sunarsa doktora öğrencileri doğal olarak AMD ekosistemine girer ve bu deneyim zamanla sanayiye de taşınabilir.
İnsanlar CUDA’dan söz ederken çoğunlukla sadece C dilini düşünüyor ama gerçekte CUDA 3.0’dan beri C++ varsayılan, Fortran desteği de var. NVIDIA, farklı dillerin PTX ortamını kullanabilmesi için aktif destek sağlıyor. 2025’te Python CUDA JIT DSL’yi de getirmeyi planlıyorlar. En yeni sürüm olmasa bile CUDA SDK giriş seviyesi dizüstülerde de çalıştığı için donanım zayıf olsa bile yavaş yavaş öğrenebilme avantajı var.
Giriş seviyesi donanımlarda yazılım desteği hakkında çok kötü şeyler duydum. Giriş bariyeri düşük bir başlangıç yolu çok önemli. Öte yandan veri merkezi donanımını öne çıkarmak, ürün portföyünü daha küçük tutarken cloud sağlayıcıları üzerinden daha geniş erişim sağlayabilir. MI350-A workstation gibi yeni başlayanlara uygun bir cihaz çıksa güzel olurdu ama bunun gerçekleşmesi pek olası görünmüyor.
Şu anda AMD içinde ciddi sorunlar yüzünden yazılım stack’inin yetersiz kaldığını düşünüyorum. Çeşitli sorunlarda müşteri sesini dinlemek ve ekipleri büyütmek için yeterince zaman vardı ama gerçek ilerleme pek yok gibi. Teşvikler de büyük ama değişim az. CEO Lisa Su’nun harika bir yönetici olduğuna katılıyorum ama sonuçta donanım kökenli olduğu için yazılım inovasyonunda daha az agresif davranıyor olabilir diye düşünüyorum.
ROCm desteği olup olmaması hâlâ genel AI kullanıcıları için büyük bir mesele değil diyenler var. Yaklaşık 10 yıldır standart AMD sürücüsünde yer alan Vulkan API sayesinde llama.cpp ya da LM Studio gibi başlıca tek tıkla çalışan LLM uygulamaları da çalışıyor. Hız yavaş ama pratikte kullanılabilir bir ortam var.
NVIDIA ile AMD’nin gelecekteki rekabeti hakkında biraz mizahi biçimde, “O gelecek gerçekten geldiğinde sizi önce biz ararız” şeklinde bir şaka yapılıyor.
“Bunu Bob Page mi yürütüyor?” diye kısa bir soru var.
"Atropos log, abandoning Helios" oyun repliğinin duygusal bir çağrışım yaptığını, bununla ilgili haber çıktıkça aklına geldiğini söyleyen bir yorum var.
AMD’nin H100’ü aşan bir eğitim çipi üretmesini umanlar var.
Geçen yıl MI300X ile eğitim yaparken bazı sorunlar yaşadım; çalıştığında bile H100’e göre %20-30 daha yavaştı. Son dönemde ise güncel ROCm ve PyTorch kurulumu ile OpenRLHF (transformers/DeepSpeed tabanlı) DPO eğitimi denediğimde, kısa 12 saatlik işlerde GPU-saat başına performansın neredeyse H200 ile aynı çıktığını gördüm. Eskiden 8 GPU’lu node ile test ediyordum, şimdi ise tek bir MI300X GPU üzerinde deniyorum; bu yüzden tamamen adil bir karşılaştırma değil. Multi-GPU ya da multi-node eğitim hâlâ belirsiz, bunu tekil bir örnek olarak görmek gerek.
H100’ün piyasaya çıkmasının üzerinden zaten 3 yıl geçmiş olduğunu düşününce fark daha da büyük hissediliyor; inovasyon hızının etkisi bu.
Bunun görece daha yavaş bir çipi kastettiğini düşünüyorum; aslında MI300 serisinin zaten H100’ün önüne geçtiği ve MI400’ün de yakında çıkabileceği yönünde bir ton var.
Asıl önemli olan, “Software++: ROCm 7 Released” başlığındaki ana maddelerden kaçının benim CUDA’da olduğu gibi sıradan tüketici dizüstüsünde kullanabileceğim şeyler olduğu.
Dürüst olmak gerekirse ilgili makaleyi okumak zordu ve yazara bir adet mi355 versen boşa gitmez diye düşündüm. AMD’nin makalede beklendiği kadar güven verilmesini hak edecek hiçbir nedeni yok. RDNA4 serisini ROCm’de aylarca desteklememesi özellikle çok kötüydü. AMD’nin takvime göre day 120’de destek verebiliriz gibi sorumsuz bir tavır sergilemesi de öyle. Ayrıca benchmark’larda performansın tam olarak nereden geldiğini açıkça belirtmemişler; sanki FP4 performansını FP8 ya da 16 ile kıyaslayan sonuçlar sunup yanlış alıntılanabilecek bir tablo çiziyorlar gibi güçlü bir şüphem var.
ROCm’e tüketici tarafında düzgün yatırım yapılmaması ve desteğin gecikmesi hâlâ şaşırtıcı ve rahatsız edici, ancak yakın zamanda client kartlarda da day 1 destek vereceklerini resmen açıkladılar. Elbette asıl mesele bu sözü tutmaları. Yine de AMD’nin sonunda ROCm’i stack’in tamamında güçlü biçimde desteklemenin ne kadar önemli olduğunu anlıyor gibi görünmesi önemli. Hem Ryzen hem Radeon üreten bir şirket için bu durum tuhaf bile kaçıyor. Bu yıl Radeon’un oldukça iyi gittiğini düşünüyorum ama RDNA4 için resmî ROCm desteğinin bu kadar geç gelmesi üzücü. Yine de tüketici ürünlerinde 9070 XT ve FSR4 sayesinde ilk izlenim kötü değildi; AMD’nin eskisi gibi fırsattan kaçmak yerine bir hareket göstermesi yüzünden çok temkinli bir iyimserliğim var. Umarım bu tür vaatler kalıcı olur. ilgili bağlantı
AMD’nin tüketici GPU’larında compute desteğine çok önem vermediği, ama veri merkezi GPU’larında oldukça iyi bir yazılım stack’i ve destek sunduğu düşünülüyor.
“Bu yazı AMD’ye fazla güven veriyor gibi” diyen asıl yoruma karşılık, burada belki AnandTech’ten tanınan Ryan Smith’in kastedilip kastedilmediği yeniden soruluyor. bağlantı
AMD’nin artık bir pazarlama şirketi olduğu, özünde pazarda teknolojiyle değil pazarlamayla rekabet ettiği ima ediliyor.

AMD'nin yapay zeka geleceği raf ölçeğinde ‘Helios’

Genel özet

Raf ölçeğinde yapay zeka büyümesine dayanan AMD hamlesi

Instinct MI350 hızlandırıcılarındaki ayrıntılı yenilikler

Yapay zeka hesaplama performansında sıçrama

Çeşitli SKU'lar ve yüksek performans/yüksek güç eğilimi

ROCm 7 yazılım stratejisi

Day-0 desteği ve performansı en üst düzeye çıkarma

Ağ ekosisteminin tamamlanması: Pollara 400 AI NIC

MI400 tabanlı raf ölçeğinde gelecek yol haritası

Sonuç

İlgili okumalar

1 yorum

Hacker News yorumları