CPU’nun Geri Dönüşü: 2026’da Veri Merkezi CPU Pazarına Bakış

(newsletter.semianalysis.com)

5 puan yazan GN⁺ 2026-02-10 | Henüz yorum yok. | WhatsApp'ta paylaş

Pekiştirmeli öğrenme ve ajanik yapay zeka çıkarımına yönelik patlayıcı talep, veri merkezlerinde CPU’nun rolünü yeniden öne çıkarırken GPU merkezli yatırım akışında değişim yaratıyor
Intel, 2025 sonlarında beklenmedik bir sunucu CPU talep artışı yaşadı; 2026’da dökümhane tesis yatırımlarını genişletirken PC için ayrılan wafer’ları sunucuya kaydırıyor
AMD Venice, TSMC N2 süreci tabanlı 256 çekirdekli Zen6c CCD ve mesh ağı sunarak performans ve güç verimliliğinde Intel karşısındaki farkı daha da açacak gibi görünüyor
NVIDIA, AWS, Microsoft, Google, ARM ve diğerleriyle hiperscaler’ların kendi ARM CPU cephesi ciddi biçimde genişlerken x86’nın tekel yapısı hızla çözülüyor
Huawei Kunpeng 950’nin de dahil olmasıyla 2026, tüm üreticilerin yeni nesil CPU’ları aynı anda piyasaya sürdüğü eşi benzeri görülmemiş bir rekabet yılı olacak

Veri merkezi CPU’sunun değişen rolü ve evrimi

PC çağından dot-com dönemine
- 1990’larda PC işlemcilerindeki performans artışı, ana bilgisayar ve iş istasyonlarının yerini alacak talebi doğurdu; Intel Pentium Pro (1995) ve Xeon markası (1998) ile sunucu pazarına girdi
- 2000’lerde internet çağında Web 2.0, e-ticaret ve akıllı telefonların yaygınlaşmasıyla veri merkezi CPU’su milyarlarca dolarlık bir pazar haline geldi
- GHz yarışının sona ermesinin ardından çok çekirdekli CPU ve bellek denetleyicisi entegrasyonu (AMD), PCIe doğrudan bağlantısı gibi tasarım yenilikleri geldi
- SMT (Simultaneous Multi-Threading), hem Intel hem de AMD tarafından benimsenerek paralel işleme performansını artırdı
Sanallaştırma·bulut bilişim·hiperscaler çağı
- 2000’lerin sonlarında AWS gibi genel bulutların ortaya çıkmasıyla CapEx modelinden OpEx modeline geçildi; süreç sunucusuz bilişime (AWS Lambda vb.) kadar ilerledi
- CPU donanım sanallaştırması, bulutun temel dayanağı haline geldi; hipervizörler (VMware ESXi vb.) tek bir CPU üzerinde çok sayıda bağımsız VM çalıştırabildi
- 2018’deki Spectre ve Meltdown açıkları, SMT’nin devre dışı bırakılması gerekliliğini gündeme taşıdı ve %30’a varan performans kaybına yol açtı
  - Dallanma tahmini işlevini kullanan saldırılarla bulut güvenliği tehdidi somut hale geldi
Yapay zeka GPU’su ve CPU entegrasyonu çağı
- ChatGPT’nin piyasaya çıkışından (Kasım 2022) önceki 5 yılda Intel, 100 milyondan fazla Xeon Scalable CPU sevk etti
- Yapay zeka modeli eğitimi ve çıkarımı, GPU’nun büyük ölçekli vektör birimleri ve Tensor Core üzerinde 100 ila 1000 kat daha verimli yürütülüyor
- CPU, GPU’ya kıyasla matris işlem performansında son derece zayıf kaldığı için destek rolüne geriledi ve güç önceliği GPU’ya verildi
- CPU kullanımı iki kola ayrıldı:
  - Baş düğüm: GPU’ya veri sağlar ve onu yönetir; yüksek çekirdek performansı, büyük önbellek ve yüksek bant genişlikli bellek gerekir (NVIDIA Grace, Venice+MI455X, Graviton5+Trainium3 vb.)
  - Bulut yerel soket konsolidasyonu: Güç verimliliğini en üst düzeye çıkarmak için eski sunucular, en yeni CPU’larla 10:1’den yüksek oranlarda değiştiriliyor; COVID döneminde satın alınan milyonlarca Intel Cascade Lake sunucusu emekliye ayrılıyor
Pekiştirmeli öğrenme·ajanik çağ
- Microsoft’un OpenAI için kurduğu "Fairwater" veri merkezinde 48 MW’lık CPU ve depolama binası, 295 MW’lık GPU kümesini destekliyor; petabayt ölçeğinde veri işlemek için on binlerce CPU kullanılıyor
- Pekiştirmeli öğrenme (RL) ortamlarında modelin ürettiği eylemleri çalıştırmak ve ödülü hesaplamak için kod derleme, doğrulama, yorumlama ve araç kullanımı gibi işlemlerde büyük miktarda CPU gerekiyor
  - GPU performansındaki artış hızı CPU’yu açık ara geride bırakıyor; gelecekte Rubin neslinde CPU/GPU güç oranı 1:6’nın da üzerine çıkabilir
- RAG modelleri ve ajanik modeller, API çağrıları, internet aramaları ve veritabanı sorgularını büyük ölçekte yürüttükçe genel amaçlı CPU talebi keskin biçimde artıyor
- AWS ve Azure, kendi Graviton ve Cobalt CPU’larıyla birlikte x86 sunucularını da büyük ölçekte kuruyor
- Frontier AI laboratuvarları, RL eğitimi için CPU kıtlığıyla karşı karşıya ve bulut sağlayıcılarla genel amaçlı x86 sunucularını güvence altına almak için doğrudan rekabet ediyor
- Intel, beklenmedik stok tükenmesi nedeniyle Xeon fiyat artışını değerlendiriyor ve ek üretim ekipmanı temin ediyor
- AMD, tedarik kapasitesini genişletirken 2026’da sunucu CPU TAM’inin “güçlü çift haneli” büyüme göstereceğini öngörüyor

Çok çekirdekli CPU ara bağlantılarının tarihi

İlk crossbar tasarımları ve sınırları
- İlk çift çekirdekli işlemcilerde (Intel Pentium D, AMD Athlon 64 X2, 2005) FSB (Front Side Bus) veya kalıp üstü NoC tabanlı bağlantı kullanıldı
- Crossbar yaklaşımında çekirdek sayısı arttıkça bağlantı sayısı hızla arttı (2 çekirdek=1, 4 çekirdek=6, 6 çekirdek=15, 8 çekirdek=28); bu nedenle 4 çekirdek pratik sınır haline geldi
- AMD Istanbul (2009) 6 yönlü crossbar, Magny-Cours (2010) çift kalıplı 12 çekirdek, Interlagos ise 16 çekirdeğe kadar ölçeklendi
Intel ring bus mimarisi
- Intel, Nehalem-EX (2010) ile ring bus yapısını tanıttı; 8 çekirdeği tek kalıpta birleştirirken IMC ve QPI bağlantılarını da dahil etti
- Çift ters yönde dönen ring, gecikme ve tıkanıklığı azalttı; ancak çekirdekten çekirdeğe erişim gecikmesi eşit değildi (NUMA)
- Ivy Bridge-EX: 3 sütun 5 satırlı yerleşimde 3 "sanal ring" ile 15 çekirdeğe ulaştı
- Haswell/Broadwell: çift bağımsız ring bus ile 18~24 çekirdek, ancak ringler arası buffered switch geçişinde 100 ns üzerinde gecikme oluştu
  - "Cluster on Die" yapılandırmasıyla 2 NUMA düğümüne ayrılabiliyordu
Intel mesh mimarisi
- 2016'da Xeon Phi "Knights Landing" ile mesh ara bağlantısı tanıtıldı, 2017'de Skylake-X Xeon Scalable (28 çekirdek) ailesine genişletildi
- 2D ızgara düzeninde çekirdekler, L3 önbellek dilimleri, PCIe IO, IMC ve hızlandırıcılar her mesh durağına yerleştirildi
- Sub-NUMA Clustering (SNC) modu ile mesh dört bölüme ayrılarak ortalama gecikme azaltıldı
- Skylake-X: 6x6 mesh, 2.4 GHz mesh saat hızıyla Broadwell çift ring'e benzer ortalama gecikme sağladı
- Ice Lake: 10nm geçişiyle 8x7 mesh üzerinde 40 çekirdeğe kadar ölçeklendi (reticle sınırı)
EMIB ile dağıtık mesh
- Sapphire Rapids: Intel 7 düğümünde tek monolitik kalıpla 34 çekirdekte kaldı; AMX engine eklenmesi çekirdek alanını büyüttü
  - EMIB advanced packaging ile 4 kalıp bağlanarak 8x12 mesh düzeninde 60 çekirdeğe ulaşıldı (yaklaşık 1600 mm² silikon)
  - Çekirdekten çekirdeğe ortalama gecikme 47 ns'den (Skylake) 59 ns'ye kötüleşti
  - Her çekirdeğin özel L2 cache'i 2 MB'a çıkarıldı (toplam L2 > L3: 120 MB vs 112.5 MB)
  - E5 stepping'e kadar ilerleyip yıllarca gecikti; başlangıçta 2021 için planlanmışken 2023 başında çıktı
- Emerald Rapids (2023 sonu): kalıp sayısını 2'ye düşürdü, çekirdek sayısını 66'ya çıkardı (en fazla 64 aktif) ve L3 önbelleği neredeyse 3 kat artırarak 320 MB yaptı
Xeon 6'nın heterojen dağıtık tasarımı
- 2024 Xeon 6 platformunda I/O ile hesaplama heterojen biçimde ayrıldı: I/O kalıbı Intel 7, hesaplama kalıbı ise Intel 3
- P-core Granite Rapids ile E-core Sierra Forest yapılandırmaları karıştırılabiliyor
- Granite Rapids-AP Xeon 6900P: 3 hesaplama kalıbıyla 10x19 mesh, 132 çekirdek (en fazla 128 aktif)
- Sierra Forest: 4 E-core'u bir kümede toplayarak 8x6 mesh üzerinde 144 çekirdek sundu; ancak hyperscaler'lar zaten AMD ve kendi ARM CPU'larını benimsediği için benimsenmesi sınırlı kaldı
  - Çift kalıplı 288 çekirdekli Sierra Forest-AP (Xeon 6900E) yalnızca sınırlı üretimde kaldı
Clearwater Forest'ın sınırları
- Xeon 6+ Clearwater Forest-AP: Intel'in Foveros Direct hibrit bonding teknolojisiyle 18A çekirdek kalıpları Intel 3 taban kalıbı üzerine yığılarak 288 çekirdeğe ulaşıyor
- 12 adet 24 çekirdekli hesaplama kalıbından oluşan karmaşık bir tasarıma sahip
- Foveros Direct entegrasyon sorunları nedeniyle 2025'in ikinci yarısından 2026'nın ilk yarısına ertelendi
- 4 çekirdekli küme başına taban kalıbı L3 ve mesh erişim bant genişliği yalnızca 35 GB/s
- Aradaki 2 yıla rağmen Sierra Forest'a kıyasla aynı çekirdek sayısında yalnızca %17 performans artışı sağlıyor
- Intel, 2025'in 4. çeyrek finansal sonuçlarında Clearwater Forest'tan neredeyse hiç söz etmedi; yüksek hacimli üretimden çok Foveros Direct verim öğrenme aracı olarak kullanılma ihtimali bulunuyor

AMD Zen ara bağlantı mimarisi

EPYC Naples (2017)
- AMD'nin veri merkezine dönüş ürünü olarak, 4 adet "Zeppelin" kalıbını MCM yapısında birleştirip 32 çekirdeğe ulaştı
- Her kalıpta 2 CCX bulunuyordu (4 çekirdek + 8 MB L3, crossbar bağlantılı); kalıplar arasında Infinity Fabric on Package (IFOP) bağlantıları vardı
- Birleşik L3 önbelleğin olmaması ve çok sayıdaki NUMA alanı (Intra-CCX, Inter-CCX, Die-to-die, Inter-Socket) nedeniyle gecikme farkı büyüktü
- Intel bunu "4 masaüstü kalıbının yapıştırılması" diye küçümsedi, ancak bu küçük bir ekibin kaynak açısından verimli tasarımıydı
EPYC Rome (2019) ve sonraki nesillerin evrimi
- Rome: merkezî I/O kalıbının etrafına 8 adet 8 çekirdekli CCD yerleştirildi; CCD'ler TSMC N7, I/O kalıbı GlobalFoundries 12nm idi
  - Tüm CCX'ler arası iletişim I/O kalıbından geçen GMI bağlantıları üzerinden ilerlediği için işlevsel olarak 16 adet 4 çekirdekli NUMA düğümü oluşuyordu
- Milan (2021): CCX boyutunu 8 çekirdeğe çıkardı ve ring bus benimsedi; Rome'un I/O kalıbını yeniden kullandı
- Genoa (2022): 12 CCD, Turin (2024): en fazla 16 CCD ile 128 çekirdek (EPYC 9755); DDR5 ve PCIe5'e yükseltildi
- Chiplet tasarımının temel avantajı: tek bir CCD tape-out ile tüm çekirdek sayısı ürün yelpazesi oluşturulabiliyor; küçük kalıplar verim ve pazara çıkış hızında avantaj sağlıyor
- Kompakt Zen 4c/Zen 5c çekirdek varyantlarıyla Bergamo (Zen 4c) ve Turin-Dense (192 çekirdek) de aynı platformda sunuluyor

Intel Diamond Rapids mimarisi

4 adet CBB (Core Building Block) kalıbının 2 adet IMH (I/O and Memory Hub) kalıbını çevrelediği yapı, görünüş olarak AMD tasarımına benziyor
Her CBB içindeki 32 çift çekirdek modülü (DCM), Intel 18A-P ile üretilip Intel 3-PT taban kalıbına hibrit bonding ile bağlanıyor
- 2 çekirdek ortak bir L2 önbelleği paylaşıyor; bu tasarım 2008'deki Dunnington neslini hatırlatıyor
Toplam 256 çekirdek bulunuyor, ancak ana akım SKU'larda en fazla 192 çekirdeğin etkin olması bekleniyor
IMH kalıbı: 16 kanallı DDR5, PCIe6 (CXL3 desteği), Intel veri yolu hızlandırıcıları (QAT, DLB, IAA, DSA)
EMIB yerine kalıplar arası bağlantı için paket alt katmanı üzerindeki uzun mesafeli izler kullanılıyor; böylece her CBB her iki IMH'ye de doğrudan erişebiliyor
- Ancak CBB'ler arası cross-CBB gecikmesinin ciddi biçimde kötüleşmesi bekleniyor
SMT'nin kaldırılması sorunu
- Spectre/Meltdown sonrasında Intel, P-core'larda SMT'yi kaldırdı; bu değişiklik 2024'te istemci tarafındaki Lion Cove ile başladı
- Veri merkezinde en yüksek toplam throughput önemli olduğundan, bu durum Diamond Rapids için ciddi bir zayıflık oluşturuyor
- Mevcut Granite Rapids'in 128 çekirdek/256 iş parçacığına kıyasla, 192 çekirdek/192 iş parçacıklı Diamond Rapids'in yalnızca yaklaşık %40 performans artışı sunması bekleniyor
- Ana akım 8 kanallı Diamond Rapids-SP platformu tamamen iptal edildi; bu da en az 2028'e kadar bu pazarda yeni nesil eksikliği anlamına geliyor
  - Sonuç olarak yapay zeka araçları kullanımı ve context storage için gereken genel amaçlı işlem CPU pazarı kaçırılıyor

AMD Venice mimarisi

AMD ilk kez gelişmiş paketleme teknolojisini benimsiyor; CCD ile I/O kalıbını yüksek hızlı kısa mesafe bağlantılarla bağlıyor
CCD bağlantıları için ek shoreline nedeniyle merkezi I/O hub’ı 2 kalıba ayrılıyor; çipin iki tarafı arasında ek NUMA alanları oluşuyor
16 bellek kanalı (Genoa’daki 12 kanaldan artış), MRDIMM-12800 çoklanmış bellek ile 1,64 TB/s bant genişliği (Turin’e kıyasla 2,67 kat)
CCD içinde mesh ağ kullanılıyor: 32 Zen6c çekirdeği 4x8 ızgara düzenine yerleştiriliyor, TSMC N2 süreci
8 CCD ile toplam 256 çekirdek, Turin-Dense’in 192 çekirdeğine göre 1/3 artış
Zen6c’de çekirdek başına 4 MB L3 önbelleğin tamamı ayrılıyor (önceki Zen5c’de yarısıydı), CCD başına 128 MB önbellek alanı
Yapay zeka head node’ları için düşük çekirdekli, yüksek saat hızlı "-F" SKU: masaüstü/mobil için 12 çekirdekli Zen6 CCD kullanıyor, en fazla 96 çekirdek
I/O kalıbının yanındaki DDR5 arayüzü yakınında yer alan 8 küçük IPD (Integrated Passive Device) ile güç beslemesi kararlı hale getiriliyor
Venice performansı ve yeni komutlar
- 256 çekirdekli en üst model, 192 çekirdekli Turin’e kıyasla SPECrate®2017_int_base ölçümünde watt başına 1,7 kattan fazla performans sunuyor
- Zen 6 mikro mimarisinde yüksek IPC (Instructions per Clock) artışı
- Yeni yapay zeka veri tipi komutları: AVX512_FP16, AVX_VVNI_INT8, AVX512_BMM (bit matris çarpımı)
  - BMM: FPU register’larında 16x16 ikili matris saklanıyor, OR ve XOR işlemleriyle BMM birikimi gerçekleştiriliyor
  - Verilog simülasyonu gibi işlerde verimli olsa da LLM’ler için hassasiyet yetersiz olduğundan benimsenmesinin sınırlı kalması bekleniyor
- AMD’nin 96 çekirdekli Turin’i Intel’in 128 çekirdekli Granite Rapids’iyle denk durumdayken, Venice ile Diamond Rapids arasındaki performans farkının daha da açılması bekleniyor
- Intel 8 kanallı işlemciyi iptal ederken AMD yeni 8 kanallı Venice SP8 platformunu sunuyor; EPYC 8004 Siena’nın devamı olarak en fazla 128 çekirdekli Zen 6c sağlayacak
  - Intel’in geleneksel olarak güçlü olduğu kurumsal pazarda AMD’nin payını artırması bekleniyor

NVIDIA Grace ve Vera

Grace CPU
- GPU head node’ları ve genişletilmiş GPU belleği için tasarlandı; NVLink-C2C (çift yönlü 900 GB/s) sayesinde GPU, CPU belleğine tam bant genişliğinde erişebiliyor
- Mobil sınıf LPDDR5X bellek kullanıyor; 512 bit bellek veri yolu ile 500 GB/s bant genişliği, CPU başına en fazla 480 GB
- 72 adet ARM Neoverse V2 çekirdeği (76’dan 72’si aktif), 6x7 mesh, 117 MB L3 önbellek
- Veri akışına odaklı 3,2 TB/s çift yönlü bölünmüş bant genişliğine sahip mesh ağ
- Mikro mimari darboğaz: Branch Target Buffer 24 bölgeyi aştığında performans sert düşüyor, 32 bölgeyi aştığında 64 MB tamponun tamamı flush ediliyor
  - Optimize edilmemiş HPC kodlarında %50 performans düşüşü, GB200/GB300’ün yapay zeka iş yüklerini de etkiliyor
Vera CPU (2026)
- Rubin platformu için C2C bant genişliği 1,8 TB/s ile 2 katına çıkıyor
- 8 adet 128 bit SOCAMM modülü ile 1,5 TB bellek, 1,2 TB/s bant genişliği
- 7x13 mesh üzerinde 91 çekirdek (88’i aktif), 162 MB L3 önbellek
- CoWoS-R paketleme: 1 adet 3 nm reticle boyutunda compute die + 4 adet LPDDR5 bellek kalıbı + 1 adet PCIe6/CXL3 IO kalıbı (toplam 6 kalıp)
- Neoverse çekirdeklerinin performans darboğazlarından çıkarak şirketin kendi tasarımı Olympus çekirdeğine geri dönüyor
  - 88 çekirdek/176 thread (SMT destekli), ARMv9.2, 6x 128b FPU portu (Neoverse V2’deki 4’ten artış)
  - ARM SVE2 FP8 işlemleri destekleniyor, çekirdek başına 2 MB L2 önbellek (Grace’e göre 2 kat)
  - Genel olarak 2 kat performans artışı

AWS Graviton5

AWS, kendi CPU’sunu bulutta başarıyla devreye alan ilk hyperscaler; Annapurna Labs satın alımı ve ARM Neoverse CSS kullanımıyla bunu gerçekleştirdi
Graviton2: COVID patlaması döneminde büyük indirimlerle ARM geçişini teşvik etti, 64 Neoverse N1 çekirdeği
Graviton3: Neoverse V1 ile çekirdek başına kayan nokta performansı 2 katına çıktı, EMIB chiplet tasarımı kullandı, DDR5 ve PCIe5’i AMD ile Intel’den 1 yıl önce devreye aldı
Graviton4: 96 Neoverse V2 çekirdeği, 12 bellek kanalı, 96 hat PCIe5, çift soket desteği
Graviton5 (Aralık 2025 önizleme): 192 Neoverse V3 çekirdeği, TSMC 3 nm, 172 milyar transistör
- 192 MB L3 önbellek (Graviton4’teki 36 MB’a göre büyük artış), 12 kanallı DDR5-8800
- PCIe6’ya yükseltiliyor ancak hat sayısı 96’dan 64’e düşüyor (kullanılmayan hatların maliyetini optimize etmek için)
- 8x12 mesh, 2 çekirdek aynı mesh stop’u paylaşıyor, birden fazla compute die’a bölünme ve yeni paketleme stratejisi benimseniyor
AWS içeride binlerce Graviton CPU’yu CI/CD ve EDA için kullanarak bir sonraki nesil Graviton, Trainium ve Nitro tasarımlarında yararlanıyor (kendi ürününü kendi kullanma yaklaşımı)
Trainium3 hızlandırıcısı, Graviton CPU’yu head node olarak kullanıyor (1 CPU : 4 XPU)

Microsoft Cobalt 200

Cobalt 100’ün (2023, 128 Neoverse N2 çekirdeği) devamı olarak 2025 sonlarında çıkacak
132 Neoverse V3 çekirdeği, çekirdek başına 3 MB L2 önbellek, 2 adet TSMC 3 nm compute die
Kalıp başına 8x8 mesh, 72 çekirdek basılmış/66 çekirdek aktif, 192 MB L3 önbellek, 6 kanallı DDR5, 64 hat PCIe6
Cobalt 100’e kıyasla %50 performans artışı
Yalnızca Azure genel amaçlı CPU bilgi işlem hizmetlerine yönelik; yapay zeka head node’larında kullanılmıyor (Microsoft Maia 200, Intel Granite Rapids kullanıyor)

Google Axion C4A, N4A

2024’te duyuruldu, 2025’te GA oldu; Google, GCP özel silikon CPU pazarına giriş yaptı
Axion C4A: En fazla 72 Neoverse V2 çekirdeği, 8 kanallı DDR5, PCIe5, monolitik 5 nm kalıp (81 çekirdek basılmış, 9x9 mesh)
- 2025 sonlarında önizlenen 96 çekirdekli bare-metal instance için yeni 3 nm kalıp tasarımı olduğu tahmin ediliyor
Axion N4A: Maliyet etkin scale-out için, 64 Neoverse N3 çekirdeği, TSMC 3 nm tam özel tasarım
Google, dahili altyapısını (Gmail, YouTube, Google Play vb.) ARM’a geçiriyor; ileride TPU kümesi head node’larında da Axion kullanmayı planlıyor

Ampere Computing ve SoftBank satın alımı

Ticari ARM silikonunun öncülerinden biri olarak Oracle ile ortaklık kurdu; Altra (80 çekirdek) ve Altra Max (128 çekirdek) ile x86 tekelini zorladı
- Neoverse N1 çekirdekleri, şirketin kendi mesh ara bağlantısı (4 çekirdekli küme), 8 kanallı DDR4, 128 PCIe4 hattı, TSMC 7 nm tek kalıp
AmpereOne: 5 nm süreç, 192 çekirdek, ayrık I/O chiplet tasarımı (DDR5 ve PCIe), interposer gerektirmeyen MCM tasarımı
- Özel ARM çekirdekleri (çekirdek yoğunluğu optimize edilmiş) + 2 MB L2 önbellek (noisy neighbor sorununu hafifletmek için)
- Chiplet yeniden kullanımıyla 12 kanallı AmpereOne-M, 3 nm 256 çekirdekli AmpereOne-MX gibi varyantlar planlandı
2025’te SoftBank tarafından 6,5 milyar dolara satın alındı; amaç, Stargate girişimi için CPU tasarım kadrosunu güvence altına almaktı
Ampere’nin başarısızlık nedenleri:
- Altra nesli, ARM yerel yazılım ekosistemi henüz olgunlaşmadan fazla erken çıktı
- AmpereOne, çok sayıda gecikme nedeniyle ancak 2024’ün ikinci yarısında kullanıma sunulabildi; bu sırada hyperscaler ARM CPU’ları ciddi ölçeğe ulaşmış ve AMD çekirdek başına 3-4 kat daha yüksek performansla 192 çekirdek sunar hale gelmişti
- Oracle’ın Ampere CPU satın alımı: FY2023’te 48 milyon dolar → FY2024’te 3 milyon dolar → FY2025’te 3,7 milyon dolara keskin düşüş gösterdi

ARM Phoenix

ARM, 2026’da tam veri merkezi CPU tasarım ve satış işine girerek mevcut Neoverse CSS lisanslı müşterileriyle doğrudan rekabet edecek
Şu ana kadar veri merkezi CPU ve DPU’larında 1 milyardan fazla Neoverse çekirdeği devreye alındı; 12 şirkete 21 CSS lisansı verildi
Veri merkezi telif geliri yıllık bazda 2 kattan fazla büyüdü; önümüzdeki birkaç yıl içinde CSS’in telif gelirinin %50’sinden fazlasını oluşturması bekleniyor
Phoenix: 128 Neoverse V3 çekirdeği, ARM CMN mesh, TSMC 3nm yarım reticle 2 kalıp
- 12 kanallı DDR5 (8400MT/s), 96 hat PCIe Gen 6, 250~350W TDP yapılandırılabilir
- İlk müşteri Meta; OpenAI (Stargate/SoftBank girişimi) ve Cloudflare da potansiyel müşteri adayları
- PCIe6 tabanlı Accelerator Enablement Kit ile XPU ve coherent paylaşımlı bellek bağlantısı mümkün

Huawei Kunpeng

Kunpeng 920 ve 920B
- İlk nesiller (Hi1610~Kunpeng 916): ARM Cortex A57→A72, TSMC 16nm
- Kunpeng 920 (2019): 64 çekirdekli özel TaiShan V110, 2 adet TSMC 7nm compute kalıbı, CoWoS-S paketleme (CPU’da CoWoS-S kullanan ilk uygulama)
  - 8 kanallı DDR4, 40 PCIe4 hattı, entegre çift 100GbE
  - ABD yaptırımları nedeniyle TSMC tedariki kesildi, yeni nesil Kunpeng 930 piyasaya çıkmadı
- Kunpeng 920B (2024): TaiShan V120 çekirdeğinde SMT desteği, kalıp başına 10 adet 4 çekirdekli küme (toplam 80 çekirdek/160 iş parçacığı)
  - 8 kanallı DDR5, ayrık yerleştirilmiş I/O kalıbı, SMIC N+2 süreciyle yeniden tasarlandı (5 yıllık boşluğun ardından)
Kunpeng 950 (2026)
- 192 çekirdekli yeni LinxiCore (SMT destekli); 96 çekirdekli küçük sürüm de üretilecek
- TaiShan 950 SuperPoD rack yapılandırması: 16 adet çift soketli sunucu, en fazla 48TB DDR5 (12 kanal olduğu tahmin ediliyor)
- Kunpeng 920B’ye kıyasla OLTP veritabanı performansında 2,9 kat artış (GaussDB Multi-Write tabanlı)
- Çin finans sektöründe Oracle Exadata veritabanı sunucularıyla birlikte benimsenmesi bekleniyor
- SMIC N+3 süreciyle üretileceği tahmin ediliyor
Kunpeng 960 (2028 yol haritası)
- Yüksek performans sürümü: 96 çekirdek/192 iş parçacığı, yapay zeka head node ve veritabanları için, çekirdek başına performansta %50’den fazla artış
- Yüksek yoğunluk sürümü: sanallaştırma ve bulut için 256’dan fazla çekirdek
- Çin hyperscaler CPU pazarında kayda değer pay elde etmesi bekleniyor

CPU’nun Geri Dönüşü: 2026’da Veri Merkezi CPU Pazarına Bakış

Veri merkezi CPU’sunun değişen rolü ve evrimi

PC çağından dot-com dönemine

Sanallaştırma·bulut bilişim·hiperscaler çağı

Yapay zeka GPU’su ve CPU entegrasyonu çağı

Pekiştirmeli öğrenme·ajanik çağ

Çok çekirdekli CPU ara bağlantılarının tarihi

İlk crossbar tasarımları ve sınırları

Intel ring bus mimarisi

Intel mesh mimarisi

EMIB ile dağıtık mesh

Xeon 6'nın heterojen dağıtık tasarımı

Clearwater Forest'ın sınırları

AMD Zen ara bağlantı mimarisi

EPYC Naples (2017)

EPYC Rome (2019) ve sonraki nesillerin evrimi

Intel Diamond Rapids mimarisi

SMT'nin kaldırılması sorunu

AMD Venice mimarisi

Venice performansı ve yeni komutlar

NVIDIA Grace ve Vera

Grace CPU

Vera CPU (2026)

AWS Graviton5

Microsoft Cobalt 200

Google Axion C4A, N4A

Ampere Computing ve SoftBank satın alımı

ARM Phoenix

Huawei Kunpeng

Kunpeng 920 ve 920B

Kunpeng 950 (2026)

Kunpeng 960 (2028 yol haritası)

İlgili okumalar

Henüz yorum yok.