5 puan yazan GN⁺ 2026-02-10 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Pekiştirmeli öğrenme ve ajanik yapay zeka çıkarımına yönelik patlayıcı talep, veri merkezlerinde CPU’nun rolünü yeniden öne çıkarırken GPU merkezli yatırım akışında değişim yaratıyor
  • Intel, 2025 sonlarında beklenmedik bir sunucu CPU talep artışı yaşadı; 2026’da dökümhane tesis yatırımlarını genişletirken PC için ayrılan wafer’ları sunucuya kaydırıyor
  • AMD Venice, TSMC N2 süreci tabanlı 256 çekirdekli Zen6c CCD ve mesh ağı sunarak performans ve güç verimliliğinde Intel karşısındaki farkı daha da açacak gibi görünüyor
  • NVIDIA, AWS, Microsoft, Google, ARM ve diğerleriyle hiperscaler’ların kendi ARM CPU cephesi ciddi biçimde genişlerken x86’nın tekel yapısı hızla çözülüyor
  • Huawei Kunpeng 950’nin de dahil olmasıyla 2026, tüm üreticilerin yeni nesil CPU’ları aynı anda piyasaya sürdüğü eşi benzeri görülmemiş bir rekabet yılı olacak

Veri merkezi CPU’sunun değişen rolü ve evrimi

  • PC çağından dot-com dönemine

    • 1990’larda PC işlemcilerindeki performans artışı, ana bilgisayar ve iş istasyonlarının yerini alacak talebi doğurdu; Intel Pentium Pro (1995) ve Xeon markası (1998) ile sunucu pazarına girdi
    • 2000’lerde internet çağında Web 2.0, e-ticaret ve akıllı telefonların yaygınlaşmasıyla veri merkezi CPU’su milyarlarca dolarlık bir pazar haline geldi
    • GHz yarışının sona ermesinin ardından çok çekirdekli CPU ve bellek denetleyicisi entegrasyonu (AMD), PCIe doğrudan bağlantısı gibi tasarım yenilikleri geldi
    • SMT (Simultaneous Multi-Threading), hem Intel hem de AMD tarafından benimsenerek paralel işleme performansını artırdı
  • Sanallaştırma·bulut bilişim·hiperscaler çağı

    • 2000’lerin sonlarında AWS gibi genel bulutların ortaya çıkmasıyla CapEx modelinden OpEx modeline geçildi; süreç sunucusuz bilişime (AWS Lambda vb.) kadar ilerledi
    • CPU donanım sanallaştırması, bulutun temel dayanağı haline geldi; hipervizörler (VMware ESXi vb.) tek bir CPU üzerinde çok sayıda bağımsız VM çalıştırabildi
    • 2018’deki Spectre ve Meltdown açıkları, SMT’nin devre dışı bırakılması gerekliliğini gündeme taşıdı ve %30’a varan performans kaybına yol açtı
      • Dallanma tahmini işlevini kullanan saldırılarla bulut güvenliği tehdidi somut hale geldi
  • Yapay zeka GPU’su ve CPU entegrasyonu çağı

    • ChatGPT’nin piyasaya çıkışından (Kasım 2022) önceki 5 yılda Intel, 100 milyondan fazla Xeon Scalable CPU sevk etti
    • Yapay zeka modeli eğitimi ve çıkarımı, GPU’nun büyük ölçekli vektör birimleri ve Tensor Core üzerinde 100 ila 1000 kat daha verimli yürütülüyor
    • CPU, GPU’ya kıyasla matris işlem performansında son derece zayıf kaldığı için destek rolüne geriledi ve güç önceliği GPU’ya verildi
    • CPU kullanımı iki kola ayrıldı:
      • Baş düğüm: GPU’ya veri sağlar ve onu yönetir; yüksek çekirdek performansı, büyük önbellek ve yüksek bant genişlikli bellek gerekir (NVIDIA Grace, Venice+MI455X, Graviton5+Trainium3 vb.)
      • Bulut yerel soket konsolidasyonu: Güç verimliliğini en üst düzeye çıkarmak için eski sunucular, en yeni CPU’larla 10:1’den yüksek oranlarda değiştiriliyor; COVID döneminde satın alınan milyonlarca Intel Cascade Lake sunucusu emekliye ayrılıyor
  • Pekiştirmeli öğrenme·ajanik çağ

    • Microsoft’un OpenAI için kurduğu "Fairwater" veri merkezinde 48 MW’lık CPU ve depolama binası, 295 MW’lık GPU kümesini destekliyor; petabayt ölçeğinde veri işlemek için on binlerce CPU kullanılıyor
    • Pekiştirmeli öğrenme (RL) ortamlarında modelin ürettiği eylemleri çalıştırmak ve ödülü hesaplamak için kod derleme, doğrulama, yorumlama ve araç kullanımı gibi işlemlerde büyük miktarda CPU gerekiyor
      • GPU performansındaki artış hızı CPU’yu açık ara geride bırakıyor; gelecekte Rubin neslinde CPU/GPU güç oranı 1:6’nın da üzerine çıkabilir
    • RAG modelleri ve ajanik modeller, API çağrıları, internet aramaları ve veritabanı sorgularını büyük ölçekte yürüttükçe genel amaçlı CPU talebi keskin biçimde artıyor
    • AWS ve Azure, kendi Graviton ve Cobalt CPU’larıyla birlikte x86 sunucularını da büyük ölçekte kuruyor
    • Frontier AI laboratuvarları, RL eğitimi için CPU kıtlığıyla karşı karşıya ve bulut sağlayıcılarla genel amaçlı x86 sunucularını güvence altına almak için doğrudan rekabet ediyor
    • Intel, beklenmedik stok tükenmesi nedeniyle Xeon fiyat artışını değerlendiriyor ve ek üretim ekipmanı temin ediyor
    • AMD, tedarik kapasitesini genişletirken 2026’da sunucu CPU TAM’inin “güçlü çift haneli” büyüme göstereceğini öngörüyor

Çok çekirdekli CPU ara bağlantılarının tarihi

  • İlk crossbar tasarımları ve sınırları

    • İlk çift çekirdekli işlemcilerde (Intel Pentium D, AMD Athlon 64 X2, 2005) FSB (Front Side Bus) veya kalıp üstü NoC tabanlı bağlantı kullanıldı
    • Crossbar yaklaşımında çekirdek sayısı arttıkça bağlantı sayısı hızla arttı (2 çekirdek=1, 4 çekirdek=6, 6 çekirdek=15, 8 çekirdek=28); bu nedenle 4 çekirdek pratik sınır haline geldi
    • AMD Istanbul (2009) 6 yönlü crossbar, Magny-Cours (2010) çift kalıplı 12 çekirdek, Interlagos ise 16 çekirdeğe kadar ölçeklendi
  • Intel ring bus mimarisi

    • Intel, Nehalem-EX (2010) ile ring bus yapısını tanıttı; 8 çekirdeği tek kalıpta birleştirirken IMC ve QPI bağlantılarını da dahil etti
    • Çift ters yönde dönen ring, gecikme ve tıkanıklığı azalttı; ancak çekirdekten çekirdeğe erişim gecikmesi eşit değildi (NUMA)
    • Ivy Bridge-EX: 3 sütun 5 satırlı yerleşimde 3 "sanal ring" ile 15 çekirdeğe ulaştı
    • Haswell/Broadwell: çift bağımsız ring bus ile 18~24 çekirdek, ancak ringler arası buffered switch geçişinde 100 ns üzerinde gecikme oluştu
      • "Cluster on Die" yapılandırmasıyla 2 NUMA düğümüne ayrılabiliyordu
  • Intel mesh mimarisi

    • 2016'da Xeon Phi "Knights Landing" ile mesh ara bağlantısı tanıtıldı, 2017'de Skylake-X Xeon Scalable (28 çekirdek) ailesine genişletildi
    • 2D ızgara düzeninde çekirdekler, L3 önbellek dilimleri, PCIe IO, IMC ve hızlandırıcılar her mesh durağına yerleştirildi
    • Sub-NUMA Clustering (SNC) modu ile mesh dört bölüme ayrılarak ortalama gecikme azaltıldı
    • Skylake-X: 6x6 mesh, 2.4 GHz mesh saat hızıyla Broadwell çift ring'e benzer ortalama gecikme sağladı
    • Ice Lake: 10nm geçişiyle 8x7 mesh üzerinde 40 çekirdeğe kadar ölçeklendi (reticle sınırı)
  • EMIB ile dağıtık mesh

    • Sapphire Rapids: Intel 7 düğümünde tek monolitik kalıpla 34 çekirdekte kaldı; AMX engine eklenmesi çekirdek alanını büyüttü
      • EMIB advanced packaging ile 4 kalıp bağlanarak 8x12 mesh düzeninde 60 çekirdeğe ulaşıldı (yaklaşık 1600 mm² silikon)
      • Çekirdekten çekirdeğe ortalama gecikme 47 ns'den (Skylake) 59 ns'ye kötüleşti
      • Her çekirdeğin özel L2 cache'i 2 MB'a çıkarıldı (toplam L2 > L3: 120 MB vs 112.5 MB)
      • E5 stepping'e kadar ilerleyip yıllarca gecikti; başlangıçta 2021 için planlanmışken 2023 başında çıktı
    • Emerald Rapids (2023 sonu): kalıp sayısını 2'ye düşürdü, çekirdek sayısını 66'ya çıkardı (en fazla 64 aktif) ve L3 önbelleği neredeyse 3 kat artırarak 320 MB yaptı
  • Xeon 6'nın heterojen dağıtık tasarımı

    • 2024 Xeon 6 platformunda I/O ile hesaplama heterojen biçimde ayrıldı: I/O kalıbı Intel 7, hesaplama kalıbı ise Intel 3
    • P-core Granite Rapids ile E-core Sierra Forest yapılandırmaları karıştırılabiliyor
    • Granite Rapids-AP Xeon 6900P: 3 hesaplama kalıbıyla 10x19 mesh, 132 çekirdek (en fazla 128 aktif)
    • Sierra Forest: 4 E-core'u bir kümede toplayarak 8x6 mesh üzerinde 144 çekirdek sundu; ancak hyperscaler'lar zaten AMD ve kendi ARM CPU'larını benimsediği için benimsenmesi sınırlı kaldı
      • Çift kalıplı 288 çekirdekli Sierra Forest-AP (Xeon 6900E) yalnızca sınırlı üretimde kaldı
  • Clearwater Forest'ın sınırları

    • Xeon 6+ Clearwater Forest-AP: Intel'in Foveros Direct hibrit bonding teknolojisiyle 18A çekirdek kalıpları Intel 3 taban kalıbı üzerine yığılarak 288 çekirdeğe ulaşıyor
    • 12 adet 24 çekirdekli hesaplama kalıbından oluşan karmaşık bir tasarıma sahip
    • Foveros Direct entegrasyon sorunları nedeniyle 2025'in ikinci yarısından 2026'nın ilk yarısına ertelendi
    • 4 çekirdekli küme başına taban kalıbı L3 ve mesh erişim bant genişliği yalnızca 35 GB/s
    • Aradaki 2 yıla rağmen Sierra Forest'a kıyasla aynı çekirdek sayısında yalnızca %17 performans artışı sağlıyor
    • Intel, 2025'in 4. çeyrek finansal sonuçlarında Clearwater Forest'tan neredeyse hiç söz etmedi; yüksek hacimli üretimden çok Foveros Direct verim öğrenme aracı olarak kullanılma ihtimali bulunuyor

AMD Zen ara bağlantı mimarisi

  • EPYC Naples (2017)

    • AMD'nin veri merkezine dönüş ürünü olarak, 4 adet "Zeppelin" kalıbını MCM yapısında birleştirip 32 çekirdeğe ulaştı
    • Her kalıpta 2 CCX bulunuyordu (4 çekirdek + 8 MB L3, crossbar bağlantılı); kalıplar arasında Infinity Fabric on Package (IFOP) bağlantıları vardı
    • Birleşik L3 önbelleğin olmaması ve çok sayıdaki NUMA alanı (Intra-CCX, Inter-CCX, Die-to-die, Inter-Socket) nedeniyle gecikme farkı büyüktü
    • Intel bunu "4 masaüstü kalıbının yapıştırılması" diye küçümsedi, ancak bu küçük bir ekibin kaynak açısından verimli tasarımıydı
  • EPYC Rome (2019) ve sonraki nesillerin evrimi

    • Rome: merkezî I/O kalıbının etrafına 8 adet 8 çekirdekli CCD yerleştirildi; CCD'ler TSMC N7, I/O kalıbı GlobalFoundries 12nm idi
      • Tüm CCX'ler arası iletişim I/O kalıbından geçen GMI bağlantıları üzerinden ilerlediği için işlevsel olarak 16 adet 4 çekirdekli NUMA düğümü oluşuyordu
    • Milan (2021): CCX boyutunu 8 çekirdeğe çıkardı ve ring bus benimsedi; Rome'un I/O kalıbını yeniden kullandı
    • Genoa (2022): 12 CCD, Turin (2024): en fazla 16 CCD ile 128 çekirdek (EPYC 9755); DDR5 ve PCIe5'e yükseltildi
    • Chiplet tasarımının temel avantajı: tek bir CCD tape-out ile tüm çekirdek sayısı ürün yelpazesi oluşturulabiliyor; küçük kalıplar verim ve pazara çıkış hızında avantaj sağlıyor
    • Kompakt Zen 4c/Zen 5c çekirdek varyantlarıyla Bergamo (Zen 4c) ve Turin-Dense (192 çekirdek) de aynı platformda sunuluyor

Intel Diamond Rapids mimarisi

  • 4 adet CBB (Core Building Block) kalıbının 2 adet IMH (I/O and Memory Hub) kalıbını çevrelediği yapı, görünüş olarak AMD tasarımına benziyor
  • Her CBB içindeki 32 çift çekirdek modülü (DCM), Intel 18A-P ile üretilip Intel 3-PT taban kalıbına hibrit bonding ile bağlanıyor
    • 2 çekirdek ortak bir L2 önbelleği paylaşıyor; bu tasarım 2008'deki Dunnington neslini hatırlatıyor
  • Toplam 256 çekirdek bulunuyor, ancak ana akım SKU'larda en fazla 192 çekirdeğin etkin olması bekleniyor
  • IMH kalıbı: 16 kanallı DDR5, PCIe6 (CXL3 desteği), Intel veri yolu hızlandırıcıları (QAT, DLB, IAA, DSA)
  • EMIB yerine kalıplar arası bağlantı için paket alt katmanı üzerindeki uzun mesafeli izler kullanılıyor; böylece her CBB her iki IMH'ye de doğrudan erişebiliyor
    • Ancak CBB'ler arası cross-CBB gecikmesinin ciddi biçimde kötüleşmesi bekleniyor
  • SMT'nin kaldırılması sorunu

    • Spectre/Meltdown sonrasında Intel, P-core'larda SMT'yi kaldırdı; bu değişiklik 2024'te istemci tarafındaki Lion Cove ile başladı
    • Veri merkezinde en yüksek toplam throughput önemli olduğundan, bu durum Diamond Rapids için ciddi bir zayıflık oluşturuyor
    • Mevcut Granite Rapids'in 128 çekirdek/256 iş parçacığına kıyasla, 192 çekirdek/192 iş parçacıklı Diamond Rapids'in yalnızca yaklaşık %40 performans artışı sunması bekleniyor
    • Ana akım 8 kanallı Diamond Rapids-SP platformu tamamen iptal edildi; bu da en az 2028'e kadar bu pazarda yeni nesil eksikliği anlamına geliyor
      • Sonuç olarak yapay zeka araçları kullanımı ve context storage için gereken genel amaçlı işlem CPU pazarı kaçırılıyor

AMD Venice mimarisi

  • AMD ilk kez gelişmiş paketleme teknolojisini benimsiyor; CCD ile I/O kalıbını yüksek hızlı kısa mesafe bağlantılarla bağlıyor
  • CCD bağlantıları için ek shoreline nedeniyle merkezi I/O hub’ı 2 kalıba ayrılıyor; çipin iki tarafı arasında ek NUMA alanları oluşuyor
  • 16 bellek kanalı (Genoa’daki 12 kanaldan artış), MRDIMM-12800 çoklanmış bellek ile 1,64 TB/s bant genişliği (Turin’e kıyasla 2,67 kat)
  • CCD içinde mesh ağ kullanılıyor: 32 Zen6c çekirdeği 4x8 ızgara düzenine yerleştiriliyor, TSMC N2 süreci
  • 8 CCD ile toplam 256 çekirdek, Turin-Dense’in 192 çekirdeğine göre 1/3 artış
  • Zen6c’de çekirdek başına 4 MB L3 önbelleğin tamamı ayrılıyor (önceki Zen5c’de yarısıydı), CCD başına 128 MB önbellek alanı
  • Yapay zeka head node’ları için düşük çekirdekli, yüksek saat hızlı "-F" SKU: masaüstü/mobil için 12 çekirdekli Zen6 CCD kullanıyor, en fazla 96 çekirdek
  • I/O kalıbının yanındaki DDR5 arayüzü yakınında yer alan 8 küçük IPD (Integrated Passive Device) ile güç beslemesi kararlı hale getiriliyor
  • Venice performansı ve yeni komutlar

    • 256 çekirdekli en üst model, 192 çekirdekli Turin’e kıyasla SPECrate®2017_int_base ölçümünde watt başına 1,7 kattan fazla performans sunuyor
    • Zen 6 mikro mimarisinde yüksek IPC (Instructions per Clock) artışı
    • Yeni yapay zeka veri tipi komutları: AVX512_FP16, AVX_VVNI_INT8, AVX512_BMM (bit matris çarpımı)
      • BMM: FPU register’larında 16x16 ikili matris saklanıyor, OR ve XOR işlemleriyle BMM birikimi gerçekleştiriliyor
      • Verilog simülasyonu gibi işlerde verimli olsa da LLM’ler için hassasiyet yetersiz olduğundan benimsenmesinin sınırlı kalması bekleniyor
    • AMD’nin 96 çekirdekli Turin’i Intel’in 128 çekirdekli Granite Rapids’iyle denk durumdayken, Venice ile Diamond Rapids arasındaki performans farkının daha da açılması bekleniyor
    • Intel 8 kanallı işlemciyi iptal ederken AMD yeni 8 kanallı Venice SP8 platformunu sunuyor; EPYC 8004 Siena’nın devamı olarak en fazla 128 çekirdekli Zen 6c sağlayacak
      • Intel’in geleneksel olarak güçlü olduğu kurumsal pazarda AMD’nin payını artırması bekleniyor

NVIDIA Grace ve Vera

  • Grace CPU

    • GPU head node’ları ve genişletilmiş GPU belleği için tasarlandı; NVLink-C2C (çift yönlü 900 GB/s) sayesinde GPU, CPU belleğine tam bant genişliğinde erişebiliyor
    • Mobil sınıf LPDDR5X bellek kullanıyor; 512 bit bellek veri yolu ile 500 GB/s bant genişliği, CPU başına en fazla 480 GB
    • 72 adet ARM Neoverse V2 çekirdeği (76’dan 72’si aktif), 6x7 mesh, 117 MB L3 önbellek
    • Veri akışına odaklı 3,2 TB/s çift yönlü bölünmüş bant genişliğine sahip mesh ağ
    • Mikro mimari darboğaz: Branch Target Buffer 24 bölgeyi aştığında performans sert düşüyor, 32 bölgeyi aştığında 64 MB tamponun tamamı flush ediliyor
      • Optimize edilmemiş HPC kodlarında %50 performans düşüşü, GB200/GB300’ün yapay zeka iş yüklerini de etkiliyor
  • Vera CPU (2026)

    • Rubin platformu için C2C bant genişliği 1,8 TB/s ile 2 katına çıkıyor
    • 8 adet 128 bit SOCAMM modülü ile 1,5 TB bellek, 1,2 TB/s bant genişliği
    • 7x13 mesh üzerinde 91 çekirdek (88’i aktif), 162 MB L3 önbellek
    • CoWoS-R paketleme: 1 adet 3 nm reticle boyutunda compute die + 4 adet LPDDR5 bellek kalıbı + 1 adet PCIe6/CXL3 IO kalıbı (toplam 6 kalıp)
    • Neoverse çekirdeklerinin performans darboğazlarından çıkarak şirketin kendi tasarımı Olympus çekirdeğine geri dönüyor
      • 88 çekirdek/176 thread (SMT destekli), ARMv9.2, 6x 128b FPU portu (Neoverse V2’deki 4’ten artış)
      • ARM SVE2 FP8 işlemleri destekleniyor, çekirdek başına 2 MB L2 önbellek (Grace’e göre 2 kat)
      • Genel olarak 2 kat performans artışı

AWS Graviton5

  • AWS, kendi CPU’sunu bulutta başarıyla devreye alan ilk hyperscaler; Annapurna Labs satın alımı ve ARM Neoverse CSS kullanımıyla bunu gerçekleştirdi
  • Graviton2: COVID patlaması döneminde büyük indirimlerle ARM geçişini teşvik etti, 64 Neoverse N1 çekirdeği
  • Graviton3: Neoverse V1 ile çekirdek başına kayan nokta performansı 2 katına çıktı, EMIB chiplet tasarımı kullandı, DDR5 ve PCIe5’i AMD ile Intel’den 1 yıl önce devreye aldı
  • Graviton4: 96 Neoverse V2 çekirdeği, 12 bellek kanalı, 96 hat PCIe5, çift soket desteği
  • Graviton5 (Aralık 2025 önizleme): 192 Neoverse V3 çekirdeği, TSMC 3 nm, 172 milyar transistör
    • 192 MB L3 önbellek (Graviton4’teki 36 MB’a göre büyük artış), 12 kanallı DDR5-8800
    • PCIe6’ya yükseltiliyor ancak hat sayısı 96’dan 64’e düşüyor (kullanılmayan hatların maliyetini optimize etmek için)
    • 8x12 mesh, 2 çekirdek aynı mesh stop’u paylaşıyor, birden fazla compute die’a bölünme ve yeni paketleme stratejisi benimseniyor
  • AWS içeride binlerce Graviton CPU’yu CI/CD ve EDA için kullanarak bir sonraki nesil Graviton, Trainium ve Nitro tasarımlarında yararlanıyor (kendi ürününü kendi kullanma yaklaşımı)
  • Trainium3 hızlandırıcısı, Graviton CPU’yu head node olarak kullanıyor (1 CPU : 4 XPU)

Microsoft Cobalt 200

  • Cobalt 100’ün (2023, 128 Neoverse N2 çekirdeği) devamı olarak 2025 sonlarında çıkacak
  • 132 Neoverse V3 çekirdeği, çekirdek başına 3 MB L2 önbellek, 2 adet TSMC 3 nm compute die
  • Kalıp başına 8x8 mesh, 72 çekirdek basılmış/66 çekirdek aktif, 192 MB L3 önbellek, 6 kanallı DDR5, 64 hat PCIe6
  • Cobalt 100’e kıyasla %50 performans artışı
  • Yalnızca Azure genel amaçlı CPU bilgi işlem hizmetlerine yönelik; yapay zeka head node’larında kullanılmıyor (Microsoft Maia 200, Intel Granite Rapids kullanıyor)

Google Axion C4A, N4A

  • 2024’te duyuruldu, 2025’te GA oldu; Google, GCP özel silikon CPU pazarına giriş yaptı
  • Axion C4A: En fazla 72 Neoverse V2 çekirdeği, 8 kanallı DDR5, PCIe5, monolitik 5 nm kalıp (81 çekirdek basılmış, 9x9 mesh)
    • 2025 sonlarında önizlenen 96 çekirdekli bare-metal instance için yeni 3 nm kalıp tasarımı olduğu tahmin ediliyor
  • Axion N4A: Maliyet etkin scale-out için, 64 Neoverse N3 çekirdeği, TSMC 3 nm tam özel tasarım
  • Google, dahili altyapısını (Gmail, YouTube, Google Play vb.) ARM’a geçiriyor; ileride TPU kümesi head node’larında da Axion kullanmayı planlıyor

Ampere Computing ve SoftBank satın alımı

  • Ticari ARM silikonunun öncülerinden biri olarak Oracle ile ortaklık kurdu; Altra (80 çekirdek) ve Altra Max (128 çekirdek) ile x86 tekelini zorladı
    • Neoverse N1 çekirdekleri, şirketin kendi mesh ara bağlantısı (4 çekirdekli küme), 8 kanallı DDR4, 128 PCIe4 hattı, TSMC 7 nm tek kalıp
  • AmpereOne: 5 nm süreç, 192 çekirdek, ayrık I/O chiplet tasarımı (DDR5 ve PCIe), interposer gerektirmeyen MCM tasarımı
    • Özel ARM çekirdekleri (çekirdek yoğunluğu optimize edilmiş) + 2 MB L2 önbellek (noisy neighbor sorununu hafifletmek için)
    • Chiplet yeniden kullanımıyla 12 kanallı AmpereOne-M, 3 nm 256 çekirdekli AmpereOne-MX gibi varyantlar planlandı
  • 2025’te SoftBank tarafından 6,5 milyar dolara satın alındı; amaç, Stargate girişimi için CPU tasarım kadrosunu güvence altına almaktı
  • Ampere’nin başarısızlık nedenleri:
    • Altra nesli, ARM yerel yazılım ekosistemi henüz olgunlaşmadan fazla erken çıktı
    • AmpereOne, çok sayıda gecikme nedeniyle ancak 2024’ün ikinci yarısında kullanıma sunulabildi; bu sırada hyperscaler ARM CPU’ları ciddi ölçeğe ulaşmış ve AMD çekirdek başına 3-4 kat daha yüksek performansla 192 çekirdek sunar hale gelmişti
    • Oracle’ın Ampere CPU satın alımı: FY2023’te 48 milyon dolar → FY2024’te 3 milyon dolar → FY2025’te 3,7 milyon dolara keskin düşüş gösterdi

ARM Phoenix

  • ARM, 2026’da tam veri merkezi CPU tasarım ve satış işine girerek mevcut Neoverse CSS lisanslı müşterileriyle doğrudan rekabet edecek
  • Şu ana kadar veri merkezi CPU ve DPU’larında 1 milyardan fazla Neoverse çekirdeği devreye alındı; 12 şirkete 21 CSS lisansı verildi
  • Veri merkezi telif geliri yıllık bazda 2 kattan fazla büyüdü; önümüzdeki birkaç yıl içinde CSS’in telif gelirinin %50’sinden fazlasını oluşturması bekleniyor
  • Phoenix: 128 Neoverse V3 çekirdeği, ARM CMN mesh, TSMC 3nm yarım reticle 2 kalıp
    • 12 kanallı DDR5 (8400MT/s), 96 hat PCIe Gen 6, 250~350W TDP yapılandırılabilir
    • İlk müşteri Meta; OpenAI (Stargate/SoftBank girişimi) ve Cloudflare da potansiyel müşteri adayları
    • PCIe6 tabanlı Accelerator Enablement Kit ile XPU ve coherent paylaşımlı bellek bağlantısı mümkün

Huawei Kunpeng

  • Kunpeng 920 ve 920B

    • İlk nesiller (Hi1610~Kunpeng 916): ARM Cortex A57→A72, TSMC 16nm
    • Kunpeng 920 (2019): 64 çekirdekli özel TaiShan V110, 2 adet TSMC 7nm compute kalıbı, CoWoS-S paketleme (CPU’da CoWoS-S kullanan ilk uygulama)
      • 8 kanallı DDR4, 40 PCIe4 hattı, entegre çift 100GbE
      • ABD yaptırımları nedeniyle TSMC tedariki kesildi, yeni nesil Kunpeng 930 piyasaya çıkmadı
    • Kunpeng 920B (2024): TaiShan V120 çekirdeğinde SMT desteği, kalıp başına 10 adet 4 çekirdekli küme (toplam 80 çekirdek/160 iş parçacığı)
      • 8 kanallı DDR5, ayrık yerleştirilmiş I/O kalıbı, SMIC N+2 süreciyle yeniden tasarlandı (5 yıllık boşluğun ardından)
  • Kunpeng 950 (2026)

    • 192 çekirdekli yeni LinxiCore (SMT destekli); 96 çekirdekli küçük sürüm de üretilecek
    • TaiShan 950 SuperPoD rack yapılandırması: 16 adet çift soketli sunucu, en fazla 48TB DDR5 (12 kanal olduğu tahmin ediliyor)
    • Kunpeng 920B’ye kıyasla OLTP veritabanı performansında 2,9 kat artış (GaussDB Multi-Write tabanlı)
    • Çin finans sektöründe Oracle Exadata veritabanı sunucularıyla birlikte benimsenmesi bekleniyor
    • SMIC N+3 süreciyle üretileceği tahmin ediliyor
  • Kunpeng 960 (2028 yol haritası)

    • Yüksek performans sürümü: 96 çekirdek/192 iş parçacığı, yapay zeka head node ve veritabanları için, çekirdek başına performansta %50’den fazla artış
    • Yüksek yoğunluk sürümü: sanallaştırma ve bulut için 256’dan fazla çekirdek
    • Çin hyperscaler CPU pazarında kayda değer pay elde etmesi bekleniyor

Henüz yorum yok.

Henüz yorum yok.