AMD'nin CDNA 3 hesaplama mimarisi
- AMD, GPU hesaplama pazarındaki payını artırmak için uzun bir geçmişe sahip.
- Nvidia'nın Tesla mimarisinden bu yana AMD, aradaki farkı kapatmaya çalışıyor.
- Terascale 3, VLIW5'ten VLIW4'e geçerek hesaplama iş yüklerinde yürütme birimi kullanımını iyileştirdi.
- GCN, Terascale'in yerini aldı ve hem GPGPU hem de grafik uygulamalarında tutarlı performansı vurguladı.
- AMD, GPU mimarisi geliştirmesini hesaplama ve grafik için özelleştirilmiş ayrı CDNA ve RDNA hatlarına böldü.
- CDNA 2, AMD'ye kayda değer bir başarı getirdi. MI250X ve MI210 GPU'ları birçok süper bilgisayar sözleşmesi kazandı.
- CDNA 3, AMD'nin sunabileceği her şeyi öne çıkararak farkı daraltıyor. MI300X, karmaşık chiplet yapılandırmasıyla gelişmiş paketleme teknolojisini sergiliyor.
- Bellek tarafında, RDNA serisinin Infinity Cache'i CDNA dünyasına getirildi ve bant genişliği sorunlarını hafifletti.
- CDNA 3'ün hesaplama mimarisi, aktarımı ve kullanım oranını artırmak için nesiller arası önemli iyileştirmeler aldı.
GPU yerleşimi
- AMD'nin, Ryzen ve Epyc CPU'larda çekirdek sayısını düşük maliyetle ölçeklendirmek için chiplet kullanma geleneği var.
- MI300X benzer bir strateji kullanıyor ve hesaplamayı XCD adı verilen Accelerator Complex Die'lara ayırıyor.
- Her XCD, bir çekirdek kümesi ve paylaşılan önbellek içeriyor; MI300X toplam 8 XCD ile 304 Compute Unit sunuyor.
- Nvidia'nın H100'ünde 132 Streaming Multiprocessor (SM) bulunuyor ve bunlar programcılara tek bir büyük birleşik GPU olarak sunuluyor.
- Intel'in Ponte Vecchio'su (PVC), Compute Tile ve Base Tile kullanarak benzer bir işlev sunuyor, ancak EMIB köprüsünün bant genişliği sınırlamaları nedeniyle birleşik GPU olarak bazı zorluklar taşıyor.
Bant genişliği sorununun çözülmesi
- Hesaplama onlarca yıldır belleğin önünde gidiyor ve GPU'lar buna giderek daha karmaşık önbellekleme stratejileriyle karşılık veriyor.
- CDNA 2, 8 MB L2 önbellek kullandı ve HBM2e'ye dayandı, ancak AMD buna RDNA(2)'de kullanılan "Infinity Cache"i ekledi.
- Infinity Cache, bellek tarafı bir önbellek ve tüm bellek trafiği Infinity Cache üzerinden geçiyor.
- CDNA 3'ün Infinity Cache'i bant genişliği optimizasyonu için tasarlandı ve toplam 17,2 TB/s bant genişliği sunan 128 dilimden oluşuyor.
Cross-Die bant genişliğindeki olası zorluklar
- MI300X'in Infinity Fabric'i 4 IO die içeriyor ve bunların her biri iki HBM yığını ile ilişkili önbellek bölümlerine bağlı.
- Die'lar arası bağlantının bant genişliği, tek bir mantıksal GPU olarak çalışırken teorik Infinity Cache bant genişliğine ulaşmayı sınırlayabilir.
Cross-XCD tutarlılığı
- Infinity Cache'in tutarlılık konusunda endişelenmesine gerek yok, ancak L2 önbellek için durum böyle değil.
- AMD, MI300X'i tek ve büyük bir GPU olarak sunmak için Infinity Fabric'in Coherent Master (CM) ve Coherent Slave (CS) birimlerini kullanıyor.
L2 önbellek
- Her MI300X XCD, geleneksel GPU önbelleği olarak önemli rol oynayan 4 MB L2 önbellek içeriyor.
L1 önbellek
- CDNA 3, L1 önbelleğin aktarımını iki katına çıkarıyor ve kapasitesini 16 KB'den 32 KB'ye yükseltiyor.
Zamanlama ve yürütme birimleri
- AMD, karmaşık chiplet düzeni ve değiştirilmiş önbellek hiyerarşisi sayesinde MI300X'i tek bir GPU olarak sunuyor.
- CDNA 3, FP32 birimlerinin kullanımında zorlanan CDNA 2'nin çekirdek Compute Unit mimarisinde yinelemeli iyileştirmeler yapıyor.
Matris işlemleri
- Makine öğreniminin büyümesiyle birlikte matris çarpımı giderek daha önemli hale geliyor.
- MI300X, CU başına matris aktarımını iki katına çıkararak önceki CDNA nesline kıyasla performansı artırıyor.
Komut önbelleği
- CDNA 3, komut önbelleği kapasitesini 64 KB'ye çıkarıyor ve ilişkiselliği 4-way'den 8-way'e iki katına yükseltiyor.
Son sözler
- CDNA 3'teki en büyük nesil değişimi bellek hiyerarşisinde yer alıyor ve Infinity Cache'in eklenmesi başlıca iyileştirme olarak öne çıkıyor.
- AMD, MI300'ü tek ve büyük birleşik bir hızlandırıcıya dönüştürmek için die'lar arası bant genişliğini önemli ölçüde artırıyor.
GN⁺ görüşü
- CDNA 3 mimarisi, GPU hesaplama alanında AMD'nin rekabet gücünü artıran önemli bir gelişmeyi temsil ediyor.
- Infinity Cache'in eklenmesi, bellek bant genişliği sorununu çözmeye yönelik yenilikçi bir yaklaşım ve bu özellikle büyük veri kümelerini işleyen yüksek performanslı hesaplama uygulamaları için önemli.
- AMD'nin MI300X'i tek bir GPU olarak sunma stratejisi, programlama karmaşıklığını azaltıp geliştiricilerin kaynakları daha verimli kullanmasını sağlayarak AMD'nin GPU ürün ailesini daha geniş bir pazar için daha cazip hale getirebilir.
1 yorum
Hacker News görüşleri