Mac Studio'da 1,5 TB VRAM Kurmak - Thunderbolt 5 Tabanlı RDMA

(jeffgeerling.com)

6 puan yazan GN⁺ 2025-12-19 | 2 yorum | WhatsApp'ta paylaş

macOS 26.2'ye yeni eklenen Thunderbolt 5 tabanlı RDMA (Remote Direct Memory Access) özelliğini kullanarak birden fazla Mac Studio'yu tek bir dev bellek havuzu gibi çalıştırma deneyi
Exo 1.0 açık kaynak kümeleme aracıyla 1,5 TB birleşik bellek yapılandırılarak büyük yapay zeka modellerinin çalışma hızı artırıldı
M3 Ultra Mac Studio, tek düğümde bile yüksek hesaplama performansı ve verimlilik gösterirken, RDMA uygulandığında bellek erişim gecikmesi 300μs'den 50μs'nin altına düştü
Thunderbolt 5'in kablo karmaşıklığı, anahtar eksikliği ve macOS yönetim kısıtları gibi küme işletimine dair sınırlamalar da mevcut
RDMA ile Exo'nun birleşimi, Mac tabanlı yapay zeka·HPC ortamlarının ölçeklenme potansiyelini gösteriyor; ancak kararlılık ve ölçeklenebilirlikte hâlâ iyileştirme gerekiyor

Thunderbolt 5 üzerinden RDMA deneyine genel bakış

Apple'ın sağladığı Mac Studio kümesi kullanılarak macOS 26.2'nin Thunderbolt üzerinden RDMA özelliği test edildi
- RDMA, birden fazla Mac'in tek bir büyük RAM gibi çalışmasını sağlayarak büyük ölçekli yapay zeka modeli işleme hızını artırıyor
Testte Exo 1.0 açık kaynak yapay zeka kümeleme aracı kullanıldı
Toplam 1,5 TB birleşik belleğe sahip 4 Mac Studio'nun fiyatı yaklaşık 40 bin dolar seviyesinde

Apple'ın HPC geçmişi ve M3 Ultra'nın konumu

Apple'ın HPC ile ilgili girişimleri geçmişte Xserve ve Xgrid döneminden sonra neredeyse hiç olmadı
M3 Ultra Mac Studio, yerel yapay zeka modellerini çalıştırmaya uygun performans sunuyor ve RDMA desteğiyle kümeleme sırasında gecikme 300μs'den 50μs'nin altına iniyor
250 W'ın altında güç tüketimiyle sessiz çalışıyor; küçük ölçekli bilimsel hesaplama ve yaratıcı işler için de uygun

Donanım yapılandırması ve ağ iletişimi

Alttaki 2 sistem 512 GB RAM / 32 çekirdek CPU, üstteki 2 sistem ise 256 GB RAM yapılandırmasına sahip
Thunderbolt 5 üzerinden 50~60 Gbps efektif bant genişliği sunuyor; ancak Thunderbolt anahtarı bulunmadığı için her Mac'in doğrudan birbirine bağlanması gerekiyor
Nvidia DGX Spark'ın kullandığı QSFP portlarına kıyasla ağ kararlılığı daha düşük
Thunderbolt kablolarını sabitlemek için ThunderLok-A bulunuyor; ancak Mac Studio kasasında değişiklik gerektirdiğinden kullanılmadı

M3 Ultra Mac Studio performans kıyaslamaları

Geekbench'te Dell Pro Max (GB10) ve AMD AI Max+ 395'e karşı hem tek çekirdekte hem çok çekirdekte daha iyi sonuç verdi
FP64 HPL benchmark'ında 1 Tflop eşiğini aştı; bu da Nvidia GB10'un yaklaşık 2 katı performans anlamına geliyor
Büyük yapay zeka modeli çıkarımında da güçlü sonuçlar verdi ve aynı güç tüketimi karşılığında verimliliği yüksek kaldı
Tek bir M3 Ultra, Dell Pro Max 2 düğümlü kümeden hem performans hem verimlilikte önde çıktı

Küme yönetimi ve macOS kısıtları

macOS'ta SSH ile sistem yükseltmesi yapılamıyor; GUI üzerinden işlem gerekiyor
Uzak yönetim için Screen Sharing kullanıldı
Linux'a kıyasla küme yönetimi otomasyonu zor ve MDM araçlarının eksikliği rahatsız edici

HPL ve Llama.cpp testleri

HPL tek düğümde 1,3 Tflops, 4 düğümlü yapılandırmada ise 3,7 Tflops ile yaklaşık 3 kat artış sağladı
Thunderbolt tabanlı TCP bağlantısında sistem çökmesi yaşandı; RDMA kullanılmadığında kararlılık zayıftı
Llama.cpp testinde Thunderbolt 5, 2,5 Gbps Ethernet'ten daha düşük gecikme gösterdi

RDMA etkinleştirme ve Exo 1.0 testi

RDMA etkinleştirme süreci: kurtarma moduna girme → rdma_ctl enable komutunu çalıştırma → yeniden başlatma
Exo 1.0, RDMA'yı destekleyen tek araç olup 600 GB üzeri modelleri (Kimi K2 Thinking vb.) birden fazla Mac'e dağıtarak çalıştırabiliyor
Llama.cpp, model katmanlarını RPC yöntemiyle dağıtıyor ancak bu verimsiz
Exo, düğüm sayısı arttıkça performansını artırdı ve Qwen3 235B modelinde saniyede 32 token işleme başarısı gösterdi
DeepSeek V3.1 ve Kimi K2 Thinking (1 trilyon parametre) modelleri de başarıyla çalıştırıldı

Kararlılık sorunları ve açık kaynak meseleleri

Testler pre-release yazılım temelinde yapıldığı için kararsızlıklar mevcut
RDMA çalıştığında performans güçlü; ancak başarısız olduğunda tüm kümenin yeniden başlatılması gerekiyor
Exo geliştirme ekibi bir süre ara verdikten sonra geri döndü ve proje Apache 2.0 lisansı ile yayımlandı
Apple ile iş birliği nedeniyle kapalı geliştirme sürecine dair endişeler de dile getirildi

Gelecek görevler ve yanıtsız sorular

M5 Ultra'nın çıkıp çıkmayacağı ve makine öğrenmesi performansında artış ihtimali
Mac Pro'da PCIe genişletilebilirliğinin geri gelmesi ile kümelemenin iyileştirilmesi gerekliliği
SMB Direct desteği gelirse yüksek hızlı dosya paylaşımı ihtimali
Llama.cpp gibi diğer yazılımlarda RDMA desteğinin genişlemesi beklentisi

Sonuç

RDMA ile Exo'nun birleşimi, Mac Studio'nun yapay zeka·HPC kullanım potansiyelini önemli ölçüde genişletiyor
Ancak Thunderbolt 5'in yapısal sınırlamaları ve macOS yönetim kısıtları hâlâ darboğaz oluşturuyor
QSFP portlarının benimsenmesi gibi ağ ölçeklenebilirliğini artıracak iyileştirmelere ihtiyaç var
Yapay zeka rüzgârı dinse bile Mac Studio, sessiz ve güçlü bir iş istasyonu olarak değerini koruyor

2 yorum

kaydash 2025-12-21

Bana impala'yı hatırlattı.

GN⁺ 2025-12-19

Hacker News yorumları

M5 Max/Ultra’dan beklentilerini sıralamış
Thunderbolt yerine DGX seviyesinde QSFP bağlantıları (200Gb/s ve üstü) desteklemesini isterdim. RDMA yapısı havalı olsa da, bu hızlar olmadan ekonomikliği düşüyor
Neural accelerator ile prompt prefill süresini kısaltmak istiyorum. RTX 6000 seviyesinde olmasa da 3090/4090 civarı yeterli olur
Mac Studio’nun en üst konfigürasyonunda 1TB birleşik bellek bekliyorum. Birden fazla cihaz yerine belleği artırmanın daha verimli olduğunu düşünüyorum
Bant genişliği de +1TB/s seviyesine çıksın isterdim. Son 3 nesildir 800GB/s’te kaldı
Hız aşırtma özelliği de olsa iyi olurdu. Mac Studio bir dizüstü değil, bu yüzden 600W üstü tüketse de sorun olmaz diye düşünüyorum. Şu anda yaklaşık 250W ile sınırlı
Ayrıca bu RDMA kurulumu en fazla 4 Mac bağlayabiliyor. Çünkü tüm Mac’lerin birbirine doğrudan bağlı olması gerekiyor. Bu yüzden Apple’ın QSFP gibi yüksek hızlı bağlantılara yatırım yapması gerektiğini düşünüyorum
- 1TB bellek mi? Biz sıradan kullanıcıların alabileceği biraz da RAM bırakmak gerekmez mi? “Yapay zeka, insanlığı mutlu et!” gibi bir his veriyor
- M4 zaten kanal başına gereken hıza ulaştı, M5 ise bunun da üstünde. Bir Ultra sürümü gelirse 1TB/s bant genişliği kesinlikle mümkün olur. Max ise Ultra’nın yarısı olduğu için o seviyeye çıkamaz gibi görünüyor
- Mac Studio’nun termal tasarımı, 650W sınıfı ısıyı sürekli kaldırabilecek durumda değil. Bu düzey ancak Mac Pro tasarımında mümkün olurdu
- M3 Ultra Mac Studio’nun ön taraftaki USB-C portları da Thunderbolt 5, yani toplam 6 port var. Resmî teknik özellikler sayfasına bakınca neden 4 cihaz sınırı gerektiğini merak ediyorum
- Apple Neural Engine zaten INT8 ve FP16 hesaplamayı destekliyor. Ama yapay zeka framework’leri bunu henüz düzgün kullanamıyor
  Ayrıca tüm Mac’lerin tam bağlı (mesh) olması gerekip gerekmediğinden de emin değilim. Thunderbolt’un bir ağ arayüzü gibi RDMA üzerinde çalıştığını sanıyorum
Apple neden RDMA gibi sunucu kümelerine yönelik bir özelliği sunarken, uzaktan yönetim ya da rackmount gibi temel kalite iyileştirmelerini görmezden geliyor, merak ediyorum
Kendi içinde M serisi sunucu ürünleri kullanıyor olabilir ve bu tür özellikler de onun yan ürünü olabilir diye düşünüyorum
- Belki de Apple gerçekten sunucu sınıfı bir ürün hazırlıyordur ve üçüncü taraf yazılımların önceden uyum sağlaması için RDMA’yı erken yayımlamıştır
- Mac Studio, LLM çıkarımı için kendine özgü bir konumda. RDMA’nın genel sunucu kullanımı için değil, 4 Studio’yu birleştirip LLM inference cluster olarak kullanmak için tasarlandığını düşünüyorum
- Eskiden Apple’ın Private Compute özelliği için rack’lere dizilmiş M2 Mac Pro’lar kullandığına dair bir şey duymuştum
- Apple’ın kendi veri merkezlerini işletip işletmediğini merak ediyorum. Çoğunu GCP’ye outsource ettiğini sanıyordum
- Bunu uzun süredir merak ediyorum. Geliştirme için tooling neden bu kadar zayıf ve Apple içeride nasıl bir ortam kullanıyor? Mac Mini’leri Thunderbolt kablosuyla birbirine bağlamak biraz hantal geliyor
Jeff’in çalışması gerçekten çok etkileyici. Thunderbolt tabanlı RDMA haberi de ilgi çekiciydi
Her şeyden önemlisi, Jeff’in pozitif enerjisi ve istikrarlı katkıları için teşekkür ederim
Linux RDMA’yı destekliyor ama Thunderbolt üzerinde henüz mümkün değil. Bunu hayata geçirmek için epey çalışma gerekecek gibi görünüyor
Ucuz Strix Halo kutularıyla (128GB DDR5-8000, 2 adet USB4) 2-3 sistemi birleştirip büyük modeller çalıştırabilmek güzel olurdu
Şu anda Thunderbolt’ta switch yok, bu yüzden küme boyutu sınırlı
Bunun yerine RoCE (RDMA over Converged Ethernet) kullanılıp kullanılamayacağını merak ediyorum. RDMA’nın TCP’den 7-10 kat daha hızlı olduğunu duymuştum
10G~80G Thunderbolt Ethernet adaptörleri de var ama gecikme (latency) sorun olabilir
PCIe yuvası olsaydı tek yapılacak şey bir Infiniband kartı takmak olurdu, ama sonuçta belirleyici olan sürücü desteği
- Thunderbolt’u PCIe’ye çevirip normal NIC kullanmak da mümkün. Atto Thunderlink de aslında bir Broadcom NIC etrafına yapılmış bir kutu
  Apple’ın MLX5 sürücüsünü iPadOS’e kadar dahil etmiş olması şaşırtıcı. İlgili blog bakılabilir
- macOS’te Mellanox ConnectX kartları için sürücü var ama ibv_devices içinde gerçekten görünüp görünmediğini bilmiyorum
Girdi (prefill) hızı ile çıktı (decode) hızını ayrı ayrı ölçen verileri merak ediyorum
Exo’nun yazısında Mac donanımında bu iki hızın oldukça farklı olduğundan bahsediliyordu
- Buna dair bazı veriler bu GitHub issue’sunda var.
  Exo ekibine bir benchmark özelliği eklemelerini önermeyi düşünüyorum
Thunderbolt 5’in beklediğim kadar ezici olmaması ilginçti
2.5Gbps Ethernet’e kıyasla TB5 yaklaşık %10 daha hızlıydı. M3 Studio 10Gbps Ethernet destekliyor ama test edilmedi
TB5’te tüm CPU’ların birbirine doğrudan bağlı olması gerekiyor, bu yüzden 4 cihaz sınırı var. Buna karşılık Ethernet switch ile daha fazla düğüm bağlanabilir
- Bu videoda 10Gbps Ethernet ile test yapılıyor
- Geçmişteki llama RPC deneyimime göre 10G Ethernet hız artışı çok sınırlı. Daha önemli olan gecikme, ama onun da bir sınırı var
- llama hâlâ yeterince optimize değil, bu yüzden ölçeklenebilirliği zayıftı. RDMA’nın ek yükü, Ethernet’ten daha düşük
Kümedeki her düğümde 512GB RAM var. DeepSeek V3.1 modeli ise 700GB RAM gerektiriyor
Tek düğümden iki düğüme çıkınca çıkarım hızının yalnızca %32 artmış olması garip. 4 düğümde bile artış %50’nin altında
Bir yerde darboğaz var gibi görünüyor
- Ağ bant genişliği 80Gbps olduğu için darboğaz o. Infiniband bunun 10 katı hızlı
- Modelin ağırlıkları (weights) salt okunur olduğu için SSD üzerinde memory-map edilebilir. Asıl sınırlayıcı olan activation belleği. MoE yapısı burada yardımcı olabilir
- TB5 RDMA, sistem belleğine doğrudan erişimden çok daha yavaş
Tüm düğümlerin birbirine bağlı olduğu yapı bana SGI’ın NUMALink’ini hatırlattı.
SGI süper bilgisayarlarında her düğüm diğer tüm düğümlere iki bağlantıyla bağlıydı. Kablo çoktu ama framing ya da congestion control düşünmek gerekmiyordu
- SGI donanımı ccNUMA (cache-coherent NUMA) uyguluyordu. IRIX işletim sistemi, görevleri ve belleği fiziksel olarak yakın yerlere taşıyarak gecikmeyi azaltıyordu
  Günümüzde yüksek frekanslı işlem sistemlerinin CPU çekirdeği ve DIMM konumlarını dikkate alarak süreç yerleştirmesi de aynı mantığa dayanıyor
- NVL72 rack de GPU’lar arasında onlarca bağlantıyla benzer bir yapı kuruyor
Yazıda gördüğüm bazı ilginç detayları beğendim
Exo’nun gizemli şekilde ortadan kaybolması, Jeff’in Mac için SMB Direct istemesi, M3 Ultra’nın çıkarım hızı ve 2100 dolarlık Framework AI masaüstü gibi
Sayesinde yeni bir tavşan deliği (rabbit hole) bulmuş gibi hissediyorum

Mac Studio'da 1,5 TB VRAM Kurmak - Thunderbolt 5 Tabanlı RDMA

Thunderbolt 5 üzerinden RDMA deneyine genel bakış

Apple'ın HPC geçmişi ve M3 Ultra'nın konumu

Donanım yapılandırması ve ağ iletişimi

M3 Ultra Mac Studio performans kıyaslamaları

Küme yönetimi ve macOS kısıtları

HPL ve Llama.cpp testleri

RDMA etkinleştirme ve Exo 1.0 testi

Kararlılık sorunları ve açık kaynak meseleleri

Gelecek görevler ve yanıtsız sorular

Sonuç

İlgili okumalar

2 yorum

Hacker News yorumları