- macOS 26.2'ye yeni eklenen Thunderbolt 5 tabanlı RDMA (Remote Direct Memory Access) özelliğini kullanarak birden fazla Mac Studio'yu tek bir dev bellek havuzu gibi çalıştırma deneyi
- Exo 1.0 açık kaynak kümeleme aracıyla 1,5 TB birleşik bellek yapılandırılarak büyük yapay zeka modellerinin çalışma hızı artırıldı
- M3 Ultra Mac Studio, tek düğümde bile yüksek hesaplama performansı ve verimlilik gösterirken, RDMA uygulandığında bellek erişim gecikmesi 300μs'den 50μs'nin altına düştü
- Thunderbolt 5'in kablo karmaşıklığı, anahtar eksikliği ve macOS yönetim kısıtları gibi küme işletimine dair sınırlamalar da mevcut
- RDMA ile Exo'nun birleşimi, Mac tabanlı yapay zeka·HPC ortamlarının ölçeklenme potansiyelini gösteriyor; ancak kararlılık ve ölçeklenebilirlikte hâlâ iyileştirme gerekiyor
Thunderbolt 5 üzerinden RDMA deneyine genel bakış
- Apple'ın sağladığı Mac Studio kümesi kullanılarak macOS 26.2'nin Thunderbolt üzerinden RDMA özelliği test edildi
- RDMA, birden fazla Mac'in tek bir büyük RAM gibi çalışmasını sağlayarak büyük ölçekli yapay zeka modeli işleme hızını artırıyor
- Testte Exo 1.0 açık kaynak yapay zeka kümeleme aracı kullanıldı
- Toplam 1,5 TB birleşik belleğe sahip 4 Mac Studio'nun fiyatı yaklaşık 40 bin dolar seviyesinde
Apple'ın HPC geçmişi ve M3 Ultra'nın konumu
- Apple'ın HPC ile ilgili girişimleri geçmişte Xserve ve Xgrid döneminden sonra neredeyse hiç olmadı
- M3 Ultra Mac Studio, yerel yapay zeka modellerini çalıştırmaya uygun performans sunuyor ve RDMA desteğiyle kümeleme sırasında gecikme 300μs'den 50μs'nin altına iniyor
- 250 W'ın altında güç tüketimiyle sessiz çalışıyor; küçük ölçekli bilimsel hesaplama ve yaratıcı işler için de uygun
Donanım yapılandırması ve ağ iletişimi
- Alttaki 2 sistem 512 GB RAM / 32 çekirdek CPU, üstteki 2 sistem ise 256 GB RAM yapılandırmasına sahip
- Thunderbolt 5 üzerinden 50~60 Gbps efektif bant genişliği sunuyor; ancak Thunderbolt anahtarı bulunmadığı için her Mac'in doğrudan birbirine bağlanması gerekiyor
- Nvidia DGX Spark'ın kullandığı QSFP portlarına kıyasla ağ kararlılığı daha düşük
- Thunderbolt kablolarını sabitlemek için ThunderLok-A bulunuyor; ancak Mac Studio kasasında değişiklik gerektirdiğinden kullanılmadı
M3 Ultra Mac Studio performans kıyaslamaları
- Geekbench'te Dell Pro Max (GB10) ve AMD AI Max+ 395'e karşı hem tek çekirdekte hem çok çekirdekte daha iyi sonuç verdi
- FP64 HPL benchmark'ında 1 Tflop eşiğini aştı; bu da Nvidia GB10'un yaklaşık 2 katı performans anlamına geliyor
- Büyük yapay zeka modeli çıkarımında da güçlü sonuçlar verdi ve aynı güç tüketimi karşılığında verimliliği yüksek kaldı
- Tek bir M3 Ultra, Dell Pro Max 2 düğümlü kümeden hem performans hem verimlilikte önde çıktı
Küme yönetimi ve macOS kısıtları
- macOS'ta SSH ile sistem yükseltmesi yapılamıyor; GUI üzerinden işlem gerekiyor
- Uzak yönetim için Screen Sharing kullanıldı
- Linux'a kıyasla küme yönetimi otomasyonu zor ve MDM araçlarının eksikliği rahatsız edici
HPL ve Llama.cpp testleri
- HPL tek düğümde 1,3 Tflops, 4 düğümlü yapılandırmada ise 3,7 Tflops ile yaklaşık 3 kat artış sağladı
- Thunderbolt tabanlı TCP bağlantısında sistem çökmesi yaşandı; RDMA kullanılmadığında kararlılık zayıftı
- Llama.cpp testinde Thunderbolt 5, 2,5 Gbps Ethernet'ten daha düşük gecikme gösterdi
RDMA etkinleştirme ve Exo 1.0 testi
- RDMA etkinleştirme süreci: kurtarma moduna girme →
rdma_ctl enable komutunu çalıştırma → yeniden başlatma
- Exo 1.0, RDMA'yı destekleyen tek araç olup 600 GB üzeri modelleri (Kimi K2 Thinking vb.) birden fazla Mac'e dağıtarak çalıştırabiliyor
- Llama.cpp, model katmanlarını RPC yöntemiyle dağıtıyor ancak bu verimsiz
- Exo, düğüm sayısı arttıkça performansını artırdı ve Qwen3 235B modelinde saniyede 32 token işleme başarısı gösterdi
- DeepSeek V3.1 ve Kimi K2 Thinking (1 trilyon parametre) modelleri de başarıyla çalıştırıldı
Kararlılık sorunları ve açık kaynak meseleleri
- Testler pre-release yazılım temelinde yapıldığı için kararsızlıklar mevcut
- RDMA çalıştığında performans güçlü; ancak başarısız olduğunda tüm kümenin yeniden başlatılması gerekiyor
- Exo geliştirme ekibi bir süre ara verdikten sonra geri döndü ve proje Apache 2.0 lisansı ile yayımlandı
- Apple ile iş birliği nedeniyle kapalı geliştirme sürecine dair endişeler de dile getirildi
Gelecek görevler ve yanıtsız sorular
- M5 Ultra'nın çıkıp çıkmayacağı ve makine öğrenmesi performansında artış ihtimali
- Mac Pro'da PCIe genişletilebilirliğinin geri gelmesi ile kümelemenin iyileştirilmesi gerekliliği
- SMB Direct desteği gelirse yüksek hızlı dosya paylaşımı ihtimali
- Llama.cpp gibi diğer yazılımlarda RDMA desteğinin genişlemesi beklentisi
Sonuç
- RDMA ile Exo'nun birleşimi, Mac Studio'nun yapay zeka·HPC kullanım potansiyelini önemli ölçüde genişletiyor
- Ancak Thunderbolt 5'in yapısal sınırlamaları ve macOS yönetim kısıtları hâlâ darboğaz oluşturuyor
- QSFP portlarının benimsenmesi gibi ağ ölçeklenebilirliğini artıracak iyileştirmelere ihtiyaç var
- Yapay zeka rüzgârı dinse bile Mac Studio, sessiz ve güçlü bir iş istasyonu olarak değerini koruyor
2 yorum
Bana impala'yı hatırlattı.
Hacker News yorumları
M5 Max/Ultra’dan beklentilerini sıralamış
Thunderbolt yerine DGX seviyesinde QSFP bağlantıları (200Gb/s ve üstü) desteklemesini isterdim. RDMA yapısı havalı olsa da, bu hızlar olmadan ekonomikliği düşüyor
Neural accelerator ile prompt prefill süresini kısaltmak istiyorum. RTX 6000 seviyesinde olmasa da 3090/4090 civarı yeterli olur
Mac Studio’nun en üst konfigürasyonunda 1TB birleşik bellek bekliyorum. Birden fazla cihaz yerine belleği artırmanın daha verimli olduğunu düşünüyorum
Bant genişliği de +1TB/s seviyesine çıksın isterdim. Son 3 nesildir 800GB/s’te kaldı
Hız aşırtma özelliği de olsa iyi olurdu. Mac Studio bir dizüstü değil, bu yüzden 600W üstü tüketse de sorun olmaz diye düşünüyorum. Şu anda yaklaşık 250W ile sınırlı
Ayrıca bu RDMA kurulumu en fazla 4 Mac bağlayabiliyor. Çünkü tüm Mac’lerin birbirine doğrudan bağlı olması gerekiyor. Bu yüzden Apple’ın QSFP gibi yüksek hızlı bağlantılara yatırım yapması gerektiğini düşünüyorum
Ayrıca tüm Mac’lerin tam bağlı (mesh) olması gerekip gerekmediğinden de emin değilim. Thunderbolt’un bir ağ arayüzü gibi RDMA üzerinde çalıştığını sanıyorum
Apple neden RDMA gibi sunucu kümelerine yönelik bir özelliği sunarken, uzaktan yönetim ya da rackmount gibi temel kalite iyileştirmelerini görmezden geliyor, merak ediyorum
Kendi içinde M serisi sunucu ürünleri kullanıyor olabilir ve bu tür özellikler de onun yan ürünü olabilir diye düşünüyorum
Jeff’in çalışması gerçekten çok etkileyici. Thunderbolt tabanlı RDMA haberi de ilgi çekiciydi
Her şeyden önemlisi, Jeff’in pozitif enerjisi ve istikrarlı katkıları için teşekkür ederim
Linux RDMA’yı destekliyor ama Thunderbolt üzerinde henüz mümkün değil. Bunu hayata geçirmek için epey çalışma gerekecek gibi görünüyor
Ucuz Strix Halo kutularıyla (128GB DDR5-8000, 2 adet USB4) 2-3 sistemi birleştirip büyük modeller çalıştırabilmek güzel olurdu
Şu anda Thunderbolt’ta switch yok, bu yüzden küme boyutu sınırlı
Bunun yerine RoCE (RDMA over Converged Ethernet) kullanılıp kullanılamayacağını merak ediyorum. RDMA’nın TCP’den 7-10 kat daha hızlı olduğunu duymuştum
10G~80G Thunderbolt Ethernet adaptörleri de var ama gecikme (latency) sorun olabilir
PCIe yuvası olsaydı tek yapılacak şey bir Infiniband kartı takmak olurdu, ama sonuçta belirleyici olan sürücü desteği
Apple’ın MLX5 sürücüsünü iPadOS’e kadar dahil etmiş olması şaşırtıcı. İlgili blog bakılabilir
ibv_devicesiçinde gerçekten görünüp görünmediğini bilmiyorumGirdi (prefill) hızı ile çıktı (decode) hızını ayrı ayrı ölçen verileri merak ediyorum
Exo’nun yazısında Mac donanımında bu iki hızın oldukça farklı olduğundan bahsediliyordu
Exo ekibine bir benchmark özelliği eklemelerini önermeyi düşünüyorum
Thunderbolt 5’in beklediğim kadar ezici olmaması ilginçti
2.5Gbps Ethernet’e kıyasla TB5 yaklaşık %10 daha hızlıydı. M3 Studio 10Gbps Ethernet destekliyor ama test edilmedi
TB5’te tüm CPU’ların birbirine doğrudan bağlı olması gerekiyor, bu yüzden 4 cihaz sınırı var. Buna karşılık Ethernet switch ile daha fazla düğüm bağlanabilir
Kümedeki her düğümde 512GB RAM var. DeepSeek V3.1 modeli ise 700GB RAM gerektiriyor
Tek düğümden iki düğüme çıkınca çıkarım hızının yalnızca %32 artmış olması garip. 4 düğümde bile artış %50’nin altında
Bir yerde darboğaz var gibi görünüyor
Tüm düğümlerin birbirine bağlı olduğu yapı bana SGI’ın NUMALink’ini hatırlattı.
SGI süper bilgisayarlarında her düğüm diğer tüm düğümlere iki bağlantıyla bağlıydı. Kablo çoktu ama framing ya da congestion control düşünmek gerekmiyordu
Günümüzde yüksek frekanslı işlem sistemlerinin CPU çekirdeği ve DIMM konumlarını dikkate alarak süreç yerleştirmesi de aynı mantığa dayanıyor
Yazıda gördüğüm bazı ilginç detayları beğendim
Exo’nun gizemli şekilde ortadan kaybolması, Jeff’in Mac için SMB Direct istemesi, M3 Ultra’nın çıkarım hızı ve 2100 dolarlık Framework AI masaüstü gibi
Sayesinde yeni bir tavşan deliği (rabbit hole) bulmuş gibi hissediyorum