1 puan yazan GN⁺ 2023-12-19 | 1 yorum | WhatsApp'ta paylaş

AMD'nin CDNA 3 hesaplama mimarisi

  • AMD, GPU hesaplama pazarındaki payını artırmak için uzun bir geçmişe sahip.
  • Nvidia'nın Tesla mimarisinden bu yana AMD, aradaki farkı kapatmaya çalışıyor.
  • Terascale 3, VLIW5'ten VLIW4'e geçerek hesaplama iş yüklerinde yürütme birimi kullanımını iyileştirdi.
  • GCN, Terascale'in yerini aldı ve hem GPGPU hem de grafik uygulamalarında tutarlı performansı vurguladı.
  • AMD, GPU mimarisi geliştirmesini hesaplama ve grafik için özelleştirilmiş ayrı CDNA ve RDNA hatlarına böldü.
  • CDNA 2, AMD'ye kayda değer bir başarı getirdi. MI250X ve MI210 GPU'ları birçok süper bilgisayar sözleşmesi kazandı.
  • CDNA 3, AMD'nin sunabileceği her şeyi öne çıkararak farkı daraltıyor. MI300X, karmaşık chiplet yapılandırmasıyla gelişmiş paketleme teknolojisini sergiliyor.
  • Bellek tarafında, RDNA serisinin Infinity Cache'i CDNA dünyasına getirildi ve bant genişliği sorunlarını hafifletti.
  • CDNA 3'ün hesaplama mimarisi, aktarımı ve kullanım oranını artırmak için nesiller arası önemli iyileştirmeler aldı.

GPU yerleşimi

  • AMD'nin, Ryzen ve Epyc CPU'larda çekirdek sayısını düşük maliyetle ölçeklendirmek için chiplet kullanma geleneği var.
  • MI300X benzer bir strateji kullanıyor ve hesaplamayı XCD adı verilen Accelerator Complex Die'lara ayırıyor.
  • Her XCD, bir çekirdek kümesi ve paylaşılan önbellek içeriyor; MI300X toplam 8 XCD ile 304 Compute Unit sunuyor.
  • Nvidia'nın H100'ünde 132 Streaming Multiprocessor (SM) bulunuyor ve bunlar programcılara tek bir büyük birleşik GPU olarak sunuluyor.
  • Intel'in Ponte Vecchio'su (PVC), Compute Tile ve Base Tile kullanarak benzer bir işlev sunuyor, ancak EMIB köprüsünün bant genişliği sınırlamaları nedeniyle birleşik GPU olarak bazı zorluklar taşıyor.

Bant genişliği sorununun çözülmesi

  • Hesaplama onlarca yıldır belleğin önünde gidiyor ve GPU'lar buna giderek daha karmaşık önbellekleme stratejileriyle karşılık veriyor.
  • CDNA 2, 8 MB L2 önbellek kullandı ve HBM2e'ye dayandı, ancak AMD buna RDNA(2)'de kullanılan "Infinity Cache"i ekledi.
  • Infinity Cache, bellek tarafı bir önbellek ve tüm bellek trafiği Infinity Cache üzerinden geçiyor.
  • CDNA 3'ün Infinity Cache'i bant genişliği optimizasyonu için tasarlandı ve toplam 17,2 TB/s bant genişliği sunan 128 dilimden oluşuyor.

Cross-Die bant genişliğindeki olası zorluklar

  • MI300X'in Infinity Fabric'i 4 IO die içeriyor ve bunların her biri iki HBM yığını ile ilişkili önbellek bölümlerine bağlı.
  • Die'lar arası bağlantının bant genişliği, tek bir mantıksal GPU olarak çalışırken teorik Infinity Cache bant genişliğine ulaşmayı sınırlayabilir.

Cross-XCD tutarlılığı

  • Infinity Cache'in tutarlılık konusunda endişelenmesine gerek yok, ancak L2 önbellek için durum böyle değil.
  • AMD, MI300X'i tek ve büyük bir GPU olarak sunmak için Infinity Fabric'in Coherent Master (CM) ve Coherent Slave (CS) birimlerini kullanıyor.

L2 önbellek

  • Her MI300X XCD, geleneksel GPU önbelleği olarak önemli rol oynayan 4 MB L2 önbellek içeriyor.

L1 önbellek

  • CDNA 3, L1 önbelleğin aktarımını iki katına çıkarıyor ve kapasitesini 16 KB'den 32 KB'ye yükseltiyor.

Zamanlama ve yürütme birimleri

  • AMD, karmaşık chiplet düzeni ve değiştirilmiş önbellek hiyerarşisi sayesinde MI300X'i tek bir GPU olarak sunuyor.
  • CDNA 3, FP32 birimlerinin kullanımında zorlanan CDNA 2'nin çekirdek Compute Unit mimarisinde yinelemeli iyileştirmeler yapıyor.

Matris işlemleri

  • Makine öğreniminin büyümesiyle birlikte matris çarpımı giderek daha önemli hale geliyor.
  • MI300X, CU başına matris aktarımını iki katına çıkararak önceki CDNA nesline kıyasla performansı artırıyor.

Komut önbelleği

  • CDNA 3, komut önbelleği kapasitesini 64 KB'ye çıkarıyor ve ilişkiselliği 4-way'den 8-way'e iki katına yükseltiyor.

Son sözler

  • CDNA 3'teki en büyük nesil değişimi bellek hiyerarşisinde yer alıyor ve Infinity Cache'in eklenmesi başlıca iyileştirme olarak öne çıkıyor.
  • AMD, MI300'ü tek ve büyük birleşik bir hızlandırıcıya dönüştürmek için die'lar arası bant genişliğini önemli ölçüde artırıyor.

GN⁺ görüşü

  • CDNA 3 mimarisi, GPU hesaplama alanında AMD'nin rekabet gücünü artıran önemli bir gelişmeyi temsil ediyor.
  • Infinity Cache'in eklenmesi, bellek bant genişliği sorununu çözmeye yönelik yenilikçi bir yaklaşım ve bu özellikle büyük veri kümelerini işleyen yüksek performanslı hesaplama uygulamaları için önemli.
  • AMD'nin MI300X'i tek bir GPU olarak sunma stratejisi, programlama karmaşıklığını azaltıp geliştiricilerin kaynakları daha verimli kullanmasını sağlayarak AMD'nin GPU ürün ailesini daha geniş bir pazar için daha cazip hale getirebilir.

1 yorum

 
GN⁺ 2023-12-19
Hacker News görüşleri
  • AMD'nin, hesaplama ve grafik için ayrı ayrı uzmanlaşmış CDNA ve RDNA GPU mimarileri geliştirerek ayrıştığını öğrendim.

    • AMD'nin tüketiciye yönelik ekran kartlarının hesaplama işlerine uygun olmamasının nedeninin mimari farklar olduğunu anladım. Bu, otoyola giriş rampası olmaması gibi bir sorun gibi görünüyor.
  • Birçok bilim insanı, ML/AI alanındaki temel kütüphanelerin geliştirilmesi için NVidia'dan ücretsiz ya da indirimli GPU aldığı için, AMD'nin yakın gelecekte NVidia ile rekabet etmesinin zor olacağını düşünüyorum.

    • NVidia'nın akademiye nüfuz etme biçiminin etik dışı olduğu yönünde bir görüş dile getiriliyor.
  • VLIW(Very long instruction word) hakkında ilk kez bilgi edindim.

    • VLIW, komut düzeyi paralelliğinden yararlanmak için tasarlanmış bir komut seti mimarisini ifade eder. Geleneksel CPU'lar komutları yalnızca sıralı olarak yürütmeye izin verirken, VLIW işlemciler paralel yürütmeyi açıkça belirtebilir. Amaç, başka tasarımların karmaşıklığı olmadan daha yüksek performans sağlamaktır.
  • AMD'nin, chiplet ve bus fabric konusundaki bilgisini kullanarak yapay zeka alanında geri döneceğini öngörmüş olmama dair fikrimi ifade ediyorum.

    • Bu makaleyi ya da genel olarak böyle şeyleri okumakta çok iyi olmadığımı kabul ediyorum; sadece kendi görüşümü belirtmek istedim.
  • "compute" kelimesinin ne zaman isim olarak kullanılmaya başlandığını merak ediyorum.

    • "compute" kelimesinin isim olarak kullanılmasının kulağa rahatsız edici geldiğini ifade ediyor.
  • On yıllardır hesaplama, belleği geride bırakıyor. CPU'lar gibi GPU'lar da buna giderek daha sofistike önbellekleme stratejileriyle karşılık veriyor.

    • Ancak CPU'lardan farklı olarak GPU'lar doğrudan karşı koymaya çalışmıyor; yüksek gecikmeyi kabul edip çok daha geniş ölçekte paralelleşerek 'latency hiding' etkisi sağlıyor. Bu, GPU kodu optimizasyonuna dair bir sunumda örnek olarak verilebilir.