- Pekiştirmeli öğrenme ve ajanik yapay zeka çıkarımına yönelik patlayıcı talep, veri merkezlerinde CPU’nun rolünü yeniden öne çıkarırken GPU merkezli yatırım akışında değişim yaratıyor
- Intel, 2025 sonlarında beklenmedik bir sunucu CPU talep artışı yaşadı; 2026’da dökümhane tesis yatırımlarını genişletirken PC için ayrılan wafer’ları sunucuya kaydırıyor
- AMD Venice, TSMC N2 süreci tabanlı 256 çekirdekli Zen6c CCD ve mesh ağı sunarak performans ve güç verimliliğinde Intel karşısındaki farkı daha da açacak gibi görünüyor
- NVIDIA, AWS, Microsoft, Google, ARM ve diğerleriyle hiperscaler’ların kendi ARM CPU cephesi ciddi biçimde genişlerken x86’nın tekel yapısı hızla çözülüyor
- Huawei Kunpeng 950’nin de dahil olmasıyla 2026, tüm üreticilerin yeni nesil CPU’ları aynı anda piyasaya sürdüğü eşi benzeri görülmemiş bir rekabet yılı olacak
Veri merkezi CPU’sunun değişen rolü ve evrimi
-
PC çağından dot-com dönemine
- 1990’larda PC işlemcilerindeki performans artışı, ana bilgisayar ve iş istasyonlarının yerini alacak talebi doğurdu; Intel Pentium Pro (1995) ve Xeon markası (1998) ile sunucu pazarına girdi
- 2000’lerde internet çağında Web 2.0, e-ticaret ve akıllı telefonların yaygınlaşmasıyla veri merkezi CPU’su milyarlarca dolarlık bir pazar haline geldi
- GHz yarışının sona ermesinin ardından çok çekirdekli CPU ve bellek denetleyicisi entegrasyonu (AMD), PCIe doğrudan bağlantısı gibi tasarım yenilikleri geldi
- SMT (Simultaneous Multi-Threading), hem Intel hem de AMD tarafından benimsenerek paralel işleme performansını artırdı
-
Sanallaştırma·bulut bilişim·hiperscaler çağı
- 2000’lerin sonlarında AWS gibi genel bulutların ortaya çıkmasıyla CapEx modelinden OpEx modeline geçildi; süreç sunucusuz bilişime (AWS Lambda vb.) kadar ilerledi
- CPU donanım sanallaştırması, bulutun temel dayanağı haline geldi; hipervizörler (VMware ESXi vb.) tek bir CPU üzerinde çok sayıda bağımsız VM çalıştırabildi
- 2018’deki Spectre ve Meltdown açıkları, SMT’nin devre dışı bırakılması gerekliliğini gündeme taşıdı ve %30’a varan performans kaybına yol açtı
- Dallanma tahmini işlevini kullanan saldırılarla bulut güvenliği tehdidi somut hale geldi
-
Yapay zeka GPU’su ve CPU entegrasyonu çağı
- ChatGPT’nin piyasaya çıkışından (Kasım 2022) önceki 5 yılda Intel, 100 milyondan fazla Xeon Scalable CPU sevk etti
- Yapay zeka modeli eğitimi ve çıkarımı, GPU’nun büyük ölçekli vektör birimleri ve Tensor Core üzerinde 100 ila 1000 kat daha verimli yürütülüyor
- CPU, GPU’ya kıyasla matris işlem performansında son derece zayıf kaldığı için destek rolüne geriledi ve güç önceliği GPU’ya verildi
- CPU kullanımı iki kola ayrıldı:
- Baş düğüm: GPU’ya veri sağlar ve onu yönetir; yüksek çekirdek performansı, büyük önbellek ve yüksek bant genişlikli bellek gerekir (NVIDIA Grace, Venice+MI455X, Graviton5+Trainium3 vb.)
- Bulut yerel soket konsolidasyonu: Güç verimliliğini en üst düzeye çıkarmak için eski sunucular, en yeni CPU’larla 10:1’den yüksek oranlarda değiştiriliyor; COVID döneminde satın alınan milyonlarca Intel Cascade Lake sunucusu emekliye ayrılıyor
-
Pekiştirmeli öğrenme·ajanik çağ
- Microsoft’un OpenAI için kurduğu "Fairwater" veri merkezinde 48 MW’lık CPU ve depolama binası, 295 MW’lık GPU kümesini destekliyor; petabayt ölçeğinde veri işlemek için on binlerce CPU kullanılıyor
- Pekiştirmeli öğrenme (RL) ortamlarında modelin ürettiği eylemleri çalıştırmak ve ödülü hesaplamak için kod derleme, doğrulama, yorumlama ve araç kullanımı gibi işlemlerde büyük miktarda CPU gerekiyor
- GPU performansındaki artış hızı CPU’yu açık ara geride bırakıyor; gelecekte Rubin neslinde CPU/GPU güç oranı 1:6’nın da üzerine çıkabilir
- RAG modelleri ve ajanik modeller, API çağrıları, internet aramaları ve veritabanı sorgularını büyük ölçekte yürüttükçe genel amaçlı CPU talebi keskin biçimde artıyor
- AWS ve Azure, kendi Graviton ve Cobalt CPU’larıyla birlikte x86 sunucularını da büyük ölçekte kuruyor
- Frontier AI laboratuvarları, RL eğitimi için CPU kıtlığıyla karşı karşıya ve bulut sağlayıcılarla genel amaçlı x86 sunucularını güvence altına almak için doğrudan rekabet ediyor
- Intel, beklenmedik stok tükenmesi nedeniyle Xeon fiyat artışını değerlendiriyor ve ek üretim ekipmanı temin ediyor
- AMD, tedarik kapasitesini genişletirken 2026’da sunucu CPU TAM’inin “güçlü çift haneli” büyüme göstereceğini öngörüyor
Çok çekirdekli CPU ara bağlantılarının tarihi
-
İlk crossbar tasarımları ve sınırları
- İlk çift çekirdekli işlemcilerde (Intel Pentium D, AMD Athlon 64 X2, 2005) FSB (Front Side Bus) veya kalıp üstü NoC tabanlı bağlantı kullanıldı
- Crossbar yaklaşımında çekirdek sayısı arttıkça bağlantı sayısı hızla arttı (2 çekirdek=1, 4 çekirdek=6, 6 çekirdek=15, 8 çekirdek=28); bu nedenle 4 çekirdek pratik sınır haline geldi
- AMD Istanbul (2009) 6 yönlü crossbar, Magny-Cours (2010) çift kalıplı 12 çekirdek, Interlagos ise 16 çekirdeğe kadar ölçeklendi
-
Intel ring bus mimarisi
- Intel, Nehalem-EX (2010) ile ring bus yapısını tanıttı; 8 çekirdeği tek kalıpta birleştirirken IMC ve QPI bağlantılarını da dahil etti
- Çift ters yönde dönen ring, gecikme ve tıkanıklığı azalttı; ancak çekirdekten çekirdeğe erişim gecikmesi eşit değildi (NUMA)
- Ivy Bridge-EX: 3 sütun 5 satırlı yerleşimde 3 "sanal ring" ile 15 çekirdeğe ulaştı
- Haswell/Broadwell: çift bağımsız ring bus ile 18~24 çekirdek, ancak ringler arası buffered switch geçişinde 100 ns üzerinde gecikme oluştu
- "Cluster on Die" yapılandırmasıyla 2 NUMA düğümüne ayrılabiliyordu
-
Intel mesh mimarisi
- 2016'da Xeon Phi "Knights Landing" ile mesh ara bağlantısı tanıtıldı, 2017'de Skylake-X Xeon Scalable (28 çekirdek) ailesine genişletildi
- 2D ızgara düzeninde çekirdekler, L3 önbellek dilimleri, PCIe IO, IMC ve hızlandırıcılar her mesh durağına yerleştirildi
- Sub-NUMA Clustering (SNC) modu ile mesh dört bölüme ayrılarak ortalama gecikme azaltıldı
- Skylake-X: 6x6 mesh, 2.4 GHz mesh saat hızıyla Broadwell çift ring'e benzer ortalama gecikme sağladı
- Ice Lake: 10nm geçişiyle 8x7 mesh üzerinde 40 çekirdeğe kadar ölçeklendi (reticle sınırı)
-
EMIB ile dağıtık mesh
- Sapphire Rapids: Intel 7 düğümünde tek monolitik kalıpla 34 çekirdekte kaldı; AMX engine eklenmesi çekirdek alanını büyüttü
- EMIB advanced packaging ile 4 kalıp bağlanarak 8x12 mesh düzeninde 60 çekirdeğe ulaşıldı (yaklaşık 1600 mm² silikon)
- Çekirdekten çekirdeğe ortalama gecikme 47 ns'den (Skylake) 59 ns'ye kötüleşti
- Her çekirdeğin özel L2 cache'i 2 MB'a çıkarıldı (toplam L2 > L3: 120 MB vs 112.5 MB)
- E5 stepping'e kadar ilerleyip yıllarca gecikti; başlangıçta 2021 için planlanmışken 2023 başında çıktı
- Emerald Rapids (2023 sonu): kalıp sayısını 2'ye düşürdü, çekirdek sayısını 66'ya çıkardı (en fazla 64 aktif) ve L3 önbelleği neredeyse 3 kat artırarak 320 MB yaptı
-
Xeon 6'nın heterojen dağıtık tasarımı
- 2024 Xeon 6 platformunda I/O ile hesaplama heterojen biçimde ayrıldı: I/O kalıbı Intel 7, hesaplama kalıbı ise Intel 3
- P-core Granite Rapids ile E-core Sierra Forest yapılandırmaları karıştırılabiliyor
- Granite Rapids-AP Xeon 6900P: 3 hesaplama kalıbıyla 10x19 mesh, 132 çekirdek (en fazla 128 aktif)
- Sierra Forest: 4 E-core'u bir kümede toplayarak 8x6 mesh üzerinde 144 çekirdek sundu; ancak hyperscaler'lar zaten AMD ve kendi ARM CPU'larını benimsediği için benimsenmesi sınırlı kaldı
- Çift kalıplı 288 çekirdekli Sierra Forest-AP (Xeon 6900E) yalnızca sınırlı üretimde kaldı
-
Clearwater Forest'ın sınırları
- Xeon 6+ Clearwater Forest-AP: Intel'in Foveros Direct hibrit bonding teknolojisiyle 18A çekirdek kalıpları Intel 3 taban kalıbı üzerine yığılarak 288 çekirdeğe ulaşıyor
- 12 adet 24 çekirdekli hesaplama kalıbından oluşan karmaşık bir tasarıma sahip
- Foveros Direct entegrasyon sorunları nedeniyle 2025'in ikinci yarısından 2026'nın ilk yarısına ertelendi
- 4 çekirdekli küme başına taban kalıbı L3 ve mesh erişim bant genişliği yalnızca 35 GB/s
- Aradaki 2 yıla rağmen Sierra Forest'a kıyasla aynı çekirdek sayısında yalnızca %17 performans artışı sağlıyor
- Intel, 2025'in 4. çeyrek finansal sonuçlarında Clearwater Forest'tan neredeyse hiç söz etmedi; yüksek hacimli üretimden çok Foveros Direct verim öğrenme aracı olarak kullanılma ihtimali bulunuyor
AMD Zen ara bağlantı mimarisi
-
EPYC Naples (2017)
- AMD'nin veri merkezine dönüş ürünü olarak, 4 adet "Zeppelin" kalıbını MCM yapısında birleştirip 32 çekirdeğe ulaştı
- Her kalıpta 2 CCX bulunuyordu (4 çekirdek + 8 MB L3, crossbar bağlantılı); kalıplar arasında Infinity Fabric on Package (IFOP) bağlantıları vardı
- Birleşik L3 önbelleğin olmaması ve çok sayıdaki NUMA alanı (Intra-CCX, Inter-CCX, Die-to-die, Inter-Socket) nedeniyle gecikme farkı büyüktü
- Intel bunu "4 masaüstü kalıbının yapıştırılması" diye küçümsedi, ancak bu küçük bir ekibin kaynak açısından verimli tasarımıydı
-
EPYC Rome (2019) ve sonraki nesillerin evrimi
- Rome: merkezî I/O kalıbının etrafına 8 adet 8 çekirdekli CCD yerleştirildi; CCD'ler TSMC N7, I/O kalıbı GlobalFoundries 12nm idi
- Tüm CCX'ler arası iletişim I/O kalıbından geçen GMI bağlantıları üzerinden ilerlediği için işlevsel olarak 16 adet 4 çekirdekli NUMA düğümü oluşuyordu
- Milan (2021): CCX boyutunu 8 çekirdeğe çıkardı ve ring bus benimsedi; Rome'un I/O kalıbını yeniden kullandı
- Genoa (2022): 12 CCD, Turin (2024): en fazla 16 CCD ile 128 çekirdek (EPYC 9755); DDR5 ve PCIe5'e yükseltildi
- Chiplet tasarımının temel avantajı: tek bir CCD tape-out ile tüm çekirdek sayısı ürün yelpazesi oluşturulabiliyor; küçük kalıplar verim ve pazara çıkış hızında avantaj sağlıyor
- Kompakt Zen 4c/Zen 5c çekirdek varyantlarıyla Bergamo (Zen 4c) ve Turin-Dense (192 çekirdek) de aynı platformda sunuluyor
Intel Diamond Rapids mimarisi
- 4 adet CBB (Core Building Block) kalıbının 2 adet IMH (I/O and Memory Hub) kalıbını çevrelediği yapı, görünüş olarak AMD tasarımına benziyor
- Her CBB içindeki 32 çift çekirdek modülü (DCM), Intel 18A-P ile üretilip Intel 3-PT taban kalıbına hibrit bonding ile bağlanıyor
- 2 çekirdek ortak bir L2 önbelleği paylaşıyor; bu tasarım 2008'deki Dunnington neslini hatırlatıyor
- Toplam 256 çekirdek bulunuyor, ancak ana akım SKU'larda en fazla 192 çekirdeğin etkin olması bekleniyor
- IMH kalıbı: 16 kanallı DDR5, PCIe6 (CXL3 desteği), Intel veri yolu hızlandırıcıları (QAT, DLB, IAA, DSA)
- EMIB yerine kalıplar arası bağlantı için paket alt katmanı üzerindeki uzun mesafeli izler kullanılıyor; böylece her CBB her iki IMH'ye de doğrudan erişebiliyor
- Ancak CBB'ler arası cross-CBB gecikmesinin ciddi biçimde kötüleşmesi bekleniyor
-
SMT'nin kaldırılması sorunu
- Spectre/Meltdown sonrasında Intel, P-core'larda SMT'yi kaldırdı; bu değişiklik 2024'te istemci tarafındaki Lion Cove ile başladı
- Veri merkezinde en yüksek toplam throughput önemli olduğundan, bu durum Diamond Rapids için ciddi bir zayıflık oluşturuyor
- Mevcut Granite Rapids'in 128 çekirdek/256 iş parçacığına kıyasla, 192 çekirdek/192 iş parçacıklı Diamond Rapids'in yalnızca yaklaşık %40 performans artışı sunması bekleniyor
- Ana akım 8 kanallı Diamond Rapids-SP platformu tamamen iptal edildi; bu da en az 2028'e kadar bu pazarda yeni nesil eksikliği anlamına geliyor
- Sonuç olarak yapay zeka araçları kullanımı ve context storage için gereken genel amaçlı işlem CPU pazarı kaçırılıyor
AMD Venice mimarisi
- AMD ilk kez gelişmiş paketleme teknolojisini benimsiyor; CCD ile I/O kalıbını yüksek hızlı kısa mesafe bağlantılarla bağlıyor
- CCD bağlantıları için ek shoreline nedeniyle merkezi I/O hub’ı 2 kalıba ayrılıyor; çipin iki tarafı arasında ek NUMA alanları oluşuyor
- 16 bellek kanalı (Genoa’daki 12 kanaldan artış), MRDIMM-12800 çoklanmış bellek ile 1,64 TB/s bant genişliği (Turin’e kıyasla 2,67 kat)
- CCD içinde mesh ağ kullanılıyor: 32 Zen6c çekirdeği 4x8 ızgara düzenine yerleştiriliyor, TSMC N2 süreci
- 8 CCD ile toplam 256 çekirdek, Turin-Dense’in 192 çekirdeğine göre 1/3 artış
- Zen6c’de çekirdek başına 4 MB L3 önbelleğin tamamı ayrılıyor (önceki Zen5c’de yarısıydı), CCD başına 128 MB önbellek alanı
- Yapay zeka head node’ları için düşük çekirdekli, yüksek saat hızlı "-F" SKU: masaüstü/mobil için 12 çekirdekli Zen6 CCD kullanıyor, en fazla 96 çekirdek
- I/O kalıbının yanındaki DDR5 arayüzü yakınında yer alan 8 küçük IPD (Integrated Passive Device) ile güç beslemesi kararlı hale getiriliyor
-
Venice performansı ve yeni komutlar
- 256 çekirdekli en üst model, 192 çekirdekli Turin’e kıyasla SPECrate®2017_int_base ölçümünde watt başına 1,7 kattan fazla performans sunuyor
- Zen 6 mikro mimarisinde yüksek IPC (Instructions per Clock) artışı
- Yeni yapay zeka veri tipi komutları: AVX512_FP16, AVX_VVNI_INT8, AVX512_BMM (bit matris çarpımı)
- BMM: FPU register’larında 16x16 ikili matris saklanıyor, OR ve XOR işlemleriyle BMM birikimi gerçekleştiriliyor
- Verilog simülasyonu gibi işlerde verimli olsa da LLM’ler için hassasiyet yetersiz olduğundan benimsenmesinin sınırlı kalması bekleniyor
- AMD’nin 96 çekirdekli Turin’i Intel’in 128 çekirdekli Granite Rapids’iyle denk durumdayken, Venice ile Diamond Rapids arasındaki performans farkının daha da açılması bekleniyor
- Intel 8 kanallı işlemciyi iptal ederken AMD yeni 8 kanallı Venice SP8 platformunu sunuyor; EPYC 8004 Siena’nın devamı olarak en fazla 128 çekirdekli Zen 6c sağlayacak
- Intel’in geleneksel olarak güçlü olduğu kurumsal pazarda AMD’nin payını artırması bekleniyor
NVIDIA Grace ve Vera
-
Grace CPU
- GPU head node’ları ve genişletilmiş GPU belleği için tasarlandı; NVLink-C2C (çift yönlü 900 GB/s) sayesinde GPU, CPU belleğine tam bant genişliğinde erişebiliyor
- Mobil sınıf LPDDR5X bellek kullanıyor; 512 bit bellek veri yolu ile 500 GB/s bant genişliği, CPU başına en fazla 480 GB
- 72 adet ARM Neoverse V2 çekirdeği (76’dan 72’si aktif), 6x7 mesh, 117 MB L3 önbellek
- Veri akışına odaklı 3,2 TB/s çift yönlü bölünmüş bant genişliğine sahip mesh ağ
- Mikro mimari darboğaz: Branch Target Buffer 24 bölgeyi aştığında performans sert düşüyor, 32 bölgeyi aştığında 64 MB tamponun tamamı flush ediliyor
- Optimize edilmemiş HPC kodlarında %50 performans düşüşü, GB200/GB300’ün yapay zeka iş yüklerini de etkiliyor
-
Vera CPU (2026)
- Rubin platformu için C2C bant genişliği 1,8 TB/s ile 2 katına çıkıyor
- 8 adet 128 bit SOCAMM modülü ile 1,5 TB bellek, 1,2 TB/s bant genişliği
- 7x13 mesh üzerinde 91 çekirdek (88’i aktif), 162 MB L3 önbellek
- CoWoS-R paketleme: 1 adet 3 nm reticle boyutunda compute die + 4 adet LPDDR5 bellek kalıbı + 1 adet PCIe6/CXL3 IO kalıbı (toplam 6 kalıp)
- Neoverse çekirdeklerinin performans darboğazlarından çıkarak şirketin kendi tasarımı Olympus çekirdeğine geri dönüyor
- 88 çekirdek/176 thread (SMT destekli), ARMv9.2, 6x 128b FPU portu (Neoverse V2’deki 4’ten artış)
- ARM SVE2 FP8 işlemleri destekleniyor, çekirdek başına 2 MB L2 önbellek (Grace’e göre 2 kat)
- Genel olarak 2 kat performans artışı
AWS Graviton5
- AWS, kendi CPU’sunu bulutta başarıyla devreye alan ilk hyperscaler; Annapurna Labs satın alımı ve ARM Neoverse CSS kullanımıyla bunu gerçekleştirdi
- Graviton2: COVID patlaması döneminde büyük indirimlerle ARM geçişini teşvik etti, 64 Neoverse N1 çekirdeği
- Graviton3: Neoverse V1 ile çekirdek başına kayan nokta performansı 2 katına çıktı, EMIB chiplet tasarımı kullandı, DDR5 ve PCIe5’i AMD ile Intel’den 1 yıl önce devreye aldı
- Graviton4: 96 Neoverse V2 çekirdeği, 12 bellek kanalı, 96 hat PCIe5, çift soket desteği
- Graviton5 (Aralık 2025 önizleme): 192 Neoverse V3 çekirdeği, TSMC 3 nm, 172 milyar transistör
- 192 MB L3 önbellek (Graviton4’teki 36 MB’a göre büyük artış), 12 kanallı DDR5-8800
- PCIe6’ya yükseltiliyor ancak hat sayısı 96’dan 64’e düşüyor (kullanılmayan hatların maliyetini optimize etmek için)
- 8x12 mesh, 2 çekirdek aynı mesh stop’u paylaşıyor, birden fazla compute die’a bölünme ve yeni paketleme stratejisi benimseniyor
- AWS içeride binlerce Graviton CPU’yu CI/CD ve EDA için kullanarak bir sonraki nesil Graviton, Trainium ve Nitro tasarımlarında yararlanıyor (kendi ürününü kendi kullanma yaklaşımı)
- Trainium3 hızlandırıcısı, Graviton CPU’yu head node olarak kullanıyor (1 CPU : 4 XPU)
Microsoft Cobalt 200
- Cobalt 100’ün (2023, 128 Neoverse N2 çekirdeği) devamı olarak 2025 sonlarında çıkacak
- 132 Neoverse V3 çekirdeği, çekirdek başına 3 MB L2 önbellek, 2 adet TSMC 3 nm compute die
- Kalıp başına 8x8 mesh, 72 çekirdek basılmış/66 çekirdek aktif, 192 MB L3 önbellek, 6 kanallı DDR5, 64 hat PCIe6
- Cobalt 100’e kıyasla %50 performans artışı
- Yalnızca Azure genel amaçlı CPU bilgi işlem hizmetlerine yönelik; yapay zeka head node’larında kullanılmıyor (Microsoft Maia 200, Intel Granite Rapids kullanıyor)
Google Axion C4A, N4A
- 2024’te duyuruldu, 2025’te GA oldu; Google, GCP özel silikon CPU pazarına giriş yaptı
- Axion C4A: En fazla 72 Neoverse V2 çekirdeği, 8 kanallı DDR5, PCIe5, monolitik 5 nm kalıp (81 çekirdek basılmış, 9x9 mesh)
- 2025 sonlarında önizlenen 96 çekirdekli bare-metal instance için yeni 3 nm kalıp tasarımı olduğu tahmin ediliyor
- Axion N4A: Maliyet etkin scale-out için, 64 Neoverse N3 çekirdeği, TSMC 3 nm tam özel tasarım
- Google, dahili altyapısını (Gmail, YouTube, Google Play vb.) ARM’a geçiriyor; ileride TPU kümesi head node’larında da Axion kullanmayı planlıyor
Ampere Computing ve SoftBank satın alımı
- Ticari ARM silikonunun öncülerinden biri olarak Oracle ile ortaklık kurdu; Altra (80 çekirdek) ve Altra Max (128 çekirdek) ile x86 tekelini zorladı
- Neoverse N1 çekirdekleri, şirketin kendi mesh ara bağlantısı (4 çekirdekli küme), 8 kanallı DDR4, 128 PCIe4 hattı, TSMC 7 nm tek kalıp
- AmpereOne: 5 nm süreç, 192 çekirdek, ayrık I/O chiplet tasarımı (DDR5 ve PCIe), interposer gerektirmeyen MCM tasarımı
- Özel ARM çekirdekleri (çekirdek yoğunluğu optimize edilmiş) + 2 MB L2 önbellek (noisy neighbor sorununu hafifletmek için)
- Chiplet yeniden kullanımıyla 12 kanallı AmpereOne-M, 3 nm 256 çekirdekli AmpereOne-MX gibi varyantlar planlandı
- 2025’te SoftBank tarafından 6,5 milyar dolara satın alındı; amaç, Stargate girişimi için CPU tasarım kadrosunu güvence altına almaktı
- Ampere’nin başarısızlık nedenleri:
- Altra nesli, ARM yerel yazılım ekosistemi henüz olgunlaşmadan fazla erken çıktı
- AmpereOne, çok sayıda gecikme nedeniyle ancak 2024’ün ikinci yarısında kullanıma sunulabildi; bu sırada hyperscaler ARM CPU’ları ciddi ölçeğe ulaşmış ve AMD çekirdek başına 3-4 kat daha yüksek performansla 192 çekirdek sunar hale gelmişti
- Oracle’ın Ampere CPU satın alımı: FY2023’te 48 milyon dolar → FY2024’te 3 milyon dolar → FY2025’te 3,7 milyon dolara keskin düşüş gösterdi
ARM Phoenix
- ARM, 2026’da tam veri merkezi CPU tasarım ve satış işine girerek mevcut Neoverse CSS lisanslı müşterileriyle doğrudan rekabet edecek
- Şu ana kadar veri merkezi CPU ve DPU’larında 1 milyardan fazla Neoverse çekirdeği devreye alındı; 12 şirkete 21 CSS lisansı verildi
- Veri merkezi telif geliri yıllık bazda 2 kattan fazla büyüdü; önümüzdeki birkaç yıl içinde CSS’in telif gelirinin %50’sinden fazlasını oluşturması bekleniyor
- Phoenix: 128 Neoverse V3 çekirdeği, ARM CMN mesh, TSMC 3nm yarım reticle 2 kalıp
- 12 kanallı DDR5 (8400MT/s), 96 hat PCIe Gen 6, 250~350W TDP yapılandırılabilir
- İlk müşteri Meta; OpenAI (Stargate/SoftBank girişimi) ve Cloudflare da potansiyel müşteri adayları
- PCIe6 tabanlı Accelerator Enablement Kit ile XPU ve coherent paylaşımlı bellek bağlantısı mümkün
Huawei Kunpeng
-
Kunpeng 920 ve 920B
- İlk nesiller (Hi1610~Kunpeng 916): ARM Cortex A57→A72, TSMC 16nm
- Kunpeng 920 (2019): 64 çekirdekli özel TaiShan V110, 2 adet TSMC 7nm compute kalıbı, CoWoS-S paketleme (CPU’da CoWoS-S kullanan ilk uygulama)
- 8 kanallı DDR4, 40 PCIe4 hattı, entegre çift 100GbE
- ABD yaptırımları nedeniyle TSMC tedariki kesildi, yeni nesil Kunpeng 930 piyasaya çıkmadı
- Kunpeng 920B (2024): TaiShan V120 çekirdeğinde SMT desteği, kalıp başına 10 adet 4 çekirdekli küme (toplam 80 çekirdek/160 iş parçacığı)
- 8 kanallı DDR5, ayrık yerleştirilmiş I/O kalıbı, SMIC N+2 süreciyle yeniden tasarlandı (5 yıllık boşluğun ardından)
-
Kunpeng 950 (2026)
- 192 çekirdekli yeni LinxiCore (SMT destekli); 96 çekirdekli küçük sürüm de üretilecek
- TaiShan 950 SuperPoD rack yapılandırması: 16 adet çift soketli sunucu, en fazla 48TB DDR5 (12 kanal olduğu tahmin ediliyor)
- Kunpeng 920B’ye kıyasla OLTP veritabanı performansında 2,9 kat artış (GaussDB Multi-Write tabanlı)
- Çin finans sektöründe Oracle Exadata veritabanı sunucularıyla birlikte benimsenmesi bekleniyor
- SMIC N+3 süreciyle üretileceği tahmin ediliyor
-
Kunpeng 960 (2028 yol haritası)
- Yüksek performans sürümü: 96 çekirdek/192 iş parçacığı, yapay zeka head node ve veritabanları için, çekirdek başına performansta %50’den fazla artış
- Yüksek yoğunluk sürümü: sanallaştırma ve bulut için 256’dan fazla çekirdek
- Çin hyperscaler CPU pazarında kayda değer pay elde etmesi bekleniyor
Henüz yorum yok.