6 puan yazan GN⁺ 2025-12-19 | 2 yorum | WhatsApp'ta paylaş
  • macOS 26.2'ye yeni eklenen Thunderbolt 5 tabanlı RDMA (Remote Direct Memory Access) özelliğini kullanarak birden fazla Mac Studio'yu tek bir dev bellek havuzu gibi çalıştırma deneyi
  • Exo 1.0 açık kaynak kümeleme aracıyla 1,5 TB birleşik bellek yapılandırılarak büyük yapay zeka modellerinin çalışma hızı artırıldı
  • M3 Ultra Mac Studio, tek düğümde bile yüksek hesaplama performansı ve verimlilik gösterirken, RDMA uygulandığında bellek erişim gecikmesi 300μs'den 50μs'nin altına düştü
  • Thunderbolt 5'in kablo karmaşıklığı, anahtar eksikliği ve macOS yönetim kısıtları gibi küme işletimine dair sınırlamalar da mevcut
  • RDMA ile Exo'nun birleşimi, Mac tabanlı yapay zeka·HPC ortamlarının ölçeklenme potansiyelini gösteriyor; ancak kararlılık ve ölçeklenebilirlikte hâlâ iyileştirme gerekiyor

Thunderbolt 5 üzerinden RDMA deneyine genel bakış

  • Apple'ın sağladığı Mac Studio kümesi kullanılarak macOS 26.2'nin Thunderbolt üzerinden RDMA özelliği test edildi
    • RDMA, birden fazla Mac'in tek bir büyük RAM gibi çalışmasını sağlayarak büyük ölçekli yapay zeka modeli işleme hızını artırıyor
  • Testte Exo 1.0 açık kaynak yapay zeka kümeleme aracı kullanıldı
  • Toplam 1,5 TB birleşik belleğe sahip 4 Mac Studio'nun fiyatı yaklaşık 40 bin dolar seviyesinde

Apple'ın HPC geçmişi ve M3 Ultra'nın konumu

  • Apple'ın HPC ile ilgili girişimleri geçmişte Xserve ve Xgrid döneminden sonra neredeyse hiç olmadı
  • M3 Ultra Mac Studio, yerel yapay zeka modellerini çalıştırmaya uygun performans sunuyor ve RDMA desteğiyle kümeleme sırasında gecikme 300μs'den 50μs'nin altına iniyor
  • 250 W'ın altında güç tüketimiyle sessiz çalışıyor; küçük ölçekli bilimsel hesaplama ve yaratıcı işler için de uygun

Donanım yapılandırması ve ağ iletişimi

  • Alttaki 2 sistem 512 GB RAM / 32 çekirdek CPU, üstteki 2 sistem ise 256 GB RAM yapılandırmasına sahip
  • Thunderbolt 5 üzerinden 50~60 Gbps efektif bant genişliği sunuyor; ancak Thunderbolt anahtarı bulunmadığı için her Mac'in doğrudan birbirine bağlanması gerekiyor
  • Nvidia DGX Spark'ın kullandığı QSFP portlarına kıyasla ağ kararlılığı daha düşük
  • Thunderbolt kablolarını sabitlemek için ThunderLok-A bulunuyor; ancak Mac Studio kasasında değişiklik gerektirdiğinden kullanılmadı

M3 Ultra Mac Studio performans kıyaslamaları

  • Geekbench'te Dell Pro Max (GB10) ve AMD AI Max+ 395'e karşı hem tek çekirdekte hem çok çekirdekte daha iyi sonuç verdi
  • FP64 HPL benchmark'ında 1 Tflop eşiğini aştı; bu da Nvidia GB10'un yaklaşık 2 katı performans anlamına geliyor
  • Büyük yapay zeka modeli çıkarımında da güçlü sonuçlar verdi ve aynı güç tüketimi karşılığında verimliliği yüksek kaldı
  • Tek bir M3 Ultra, Dell Pro Max 2 düğümlü kümeden hem performans hem verimlilikte önde çıktı

Küme yönetimi ve macOS kısıtları

  • macOS'ta SSH ile sistem yükseltmesi yapılamıyor; GUI üzerinden işlem gerekiyor
  • Uzak yönetim için Screen Sharing kullanıldı
  • Linux'a kıyasla küme yönetimi otomasyonu zor ve MDM araçlarının eksikliği rahatsız edici

HPL ve Llama.cpp testleri

  • HPL tek düğümde 1,3 Tflops, 4 düğümlü yapılandırmada ise 3,7 Tflops ile yaklaşık 3 kat artış sağladı
  • Thunderbolt tabanlı TCP bağlantısında sistem çökmesi yaşandı; RDMA kullanılmadığında kararlılık zayıftı
  • Llama.cpp testinde Thunderbolt 5, 2,5 Gbps Ethernet'ten daha düşük gecikme gösterdi

RDMA etkinleştirme ve Exo 1.0 testi

  • RDMA etkinleştirme süreci: kurtarma moduna girme → rdma_ctl enable komutunu çalıştırma → yeniden başlatma
  • Exo 1.0, RDMA'yı destekleyen tek araç olup 600 GB üzeri modelleri (Kimi K2 Thinking vb.) birden fazla Mac'e dağıtarak çalıştırabiliyor
  • Llama.cpp, model katmanlarını RPC yöntemiyle dağıtıyor ancak bu verimsiz
  • Exo, düğüm sayısı arttıkça performansını artırdı ve Qwen3 235B modelinde saniyede 32 token işleme başarısı gösterdi
  • DeepSeek V3.1 ve Kimi K2 Thinking (1 trilyon parametre) modelleri de başarıyla çalıştırıldı

Kararlılık sorunları ve açık kaynak meseleleri

  • Testler pre-release yazılım temelinde yapıldığı için kararsızlıklar mevcut
  • RDMA çalıştığında performans güçlü; ancak başarısız olduğunda tüm kümenin yeniden başlatılması gerekiyor
  • Exo geliştirme ekibi bir süre ara verdikten sonra geri döndü ve proje Apache 2.0 lisansı ile yayımlandı
  • Apple ile iş birliği nedeniyle kapalı geliştirme sürecine dair endişeler de dile getirildi

Gelecek görevler ve yanıtsız sorular

  • M5 Ultra'nın çıkıp çıkmayacağı ve makine öğrenmesi performansında artış ihtimali
  • Mac Pro'da PCIe genişletilebilirliğinin geri gelmesi ile kümelemenin iyileştirilmesi gerekliliği
  • SMB Direct desteği gelirse yüksek hızlı dosya paylaşımı ihtimali
  • Llama.cpp gibi diğer yazılımlarda RDMA desteğinin genişlemesi beklentisi

Sonuç

  • RDMA ile Exo'nun birleşimi, Mac Studio'nun yapay zeka·HPC kullanım potansiyelini önemli ölçüde genişletiyor
  • Ancak Thunderbolt 5'in yapısal sınırlamaları ve macOS yönetim kısıtları hâlâ darboğaz oluşturuyor
  • QSFP portlarının benimsenmesi gibi ağ ölçeklenebilirliğini artıracak iyileştirmelere ihtiyaç var
  • Yapay zeka rüzgârı dinse bile Mac Studio, sessiz ve güçlü bir iş istasyonu olarak değerini koruyor

2 yorum

 
kaydash 2025-12-21

Bana impala'yı hatırlattı.

 
GN⁺ 2025-12-19
Hacker News yorumları
  • M5 Max/Ultra’dan beklentilerini sıralamış
    Thunderbolt yerine DGX seviyesinde QSFP bağlantıları (200Gb/s ve üstü) desteklemesini isterdim. RDMA yapısı havalı olsa da, bu hızlar olmadan ekonomikliği düşüyor
    Neural accelerator ile prompt prefill süresini kısaltmak istiyorum. RTX 6000 seviyesinde olmasa da 3090/4090 civarı yeterli olur
    Mac Studio’nun en üst konfigürasyonunda 1TB birleşik bellek bekliyorum. Birden fazla cihaz yerine belleği artırmanın daha verimli olduğunu düşünüyorum
    Bant genişliği de +1TB/s seviyesine çıksın isterdim. Son 3 nesildir 800GB/s’te kaldı
    Hız aşırtma özelliği de olsa iyi olurdu. Mac Studio bir dizüstü değil, bu yüzden 600W üstü tüketse de sorun olmaz diye düşünüyorum. Şu anda yaklaşık 250W ile sınırlı
    Ayrıca bu RDMA kurulumu en fazla 4 Mac bağlayabiliyor. Çünkü tüm Mac’lerin birbirine doğrudan bağlı olması gerekiyor. Bu yüzden Apple’ın QSFP gibi yüksek hızlı bağlantılara yatırım yapması gerektiğini düşünüyorum

    • 1TB bellek mi? Biz sıradan kullanıcıların alabileceği biraz da RAM bırakmak gerekmez mi? “Yapay zeka, insanlığı mutlu et!” gibi bir his veriyor
    • M4 zaten kanal başına gereken hıza ulaştı, M5 ise bunun da üstünde. Bir Ultra sürümü gelirse 1TB/s bant genişliği kesinlikle mümkün olur. Max ise Ultra’nın yarısı olduğu için o seviyeye çıkamaz gibi görünüyor
    • Mac Studio’nun termal tasarımı, 650W sınıfı ısıyı sürekli kaldırabilecek durumda değil. Bu düzey ancak Mac Pro tasarımında mümkün olurdu
    • M3 Ultra Mac Studio’nun ön taraftaki USB-C portları da Thunderbolt 5, yani toplam 6 port var. Resmî teknik özellikler sayfasına bakınca neden 4 cihaz sınırı gerektiğini merak ediyorum
    • Apple Neural Engine zaten INT8 ve FP16 hesaplamayı destekliyor. Ama yapay zeka framework’leri bunu henüz düzgün kullanamıyor
      Ayrıca tüm Mac’lerin tam bağlı (mesh) olması gerekip gerekmediğinden de emin değilim. Thunderbolt’un bir ağ arayüzü gibi RDMA üzerinde çalıştığını sanıyorum
  • Apple neden RDMA gibi sunucu kümelerine yönelik bir özelliği sunarken, uzaktan yönetim ya da rackmount gibi temel kalite iyileştirmelerini görmezden geliyor, merak ediyorum
    Kendi içinde M serisi sunucu ürünleri kullanıyor olabilir ve bu tür özellikler de onun yan ürünü olabilir diye düşünüyorum

    • Belki de Apple gerçekten sunucu sınıfı bir ürün hazırlıyordur ve üçüncü taraf yazılımların önceden uyum sağlaması için RDMA’yı erken yayımlamıştır
    • Mac Studio, LLM çıkarımı için kendine özgü bir konumda. RDMA’nın genel sunucu kullanımı için değil, 4 Studio’yu birleştirip LLM inference cluster olarak kullanmak için tasarlandığını düşünüyorum
    • Eskiden Apple’ın Private Compute özelliği için rack’lere dizilmiş M2 Mac Pro’lar kullandığına dair bir şey duymuştum
    • Apple’ın kendi veri merkezlerini işletip işletmediğini merak ediyorum. Çoğunu GCP’ye outsource ettiğini sanıyordum
    • Bunu uzun süredir merak ediyorum. Geliştirme için tooling neden bu kadar zayıf ve Apple içeride nasıl bir ortam kullanıyor? Mac Mini’leri Thunderbolt kablosuyla birbirine bağlamak biraz hantal geliyor
  • Jeff’in çalışması gerçekten çok etkileyici. Thunderbolt tabanlı RDMA haberi de ilgi çekiciydi
    Her şeyden önemlisi, Jeff’in pozitif enerjisi ve istikrarlı katkıları için teşekkür ederim

  • Linux RDMA’yı destekliyor ama Thunderbolt üzerinde henüz mümkün değil. Bunu hayata geçirmek için epey çalışma gerekecek gibi görünüyor
    Ucuz Strix Halo kutularıyla (128GB DDR5-8000, 2 adet USB4) 2-3 sistemi birleştirip büyük modeller çalıştırabilmek güzel olurdu

  • Şu anda Thunderbolt’ta switch yok, bu yüzden küme boyutu sınırlı
    Bunun yerine RoCE (RDMA over Converged Ethernet) kullanılıp kullanılamayacağını merak ediyorum. RDMA’nın TCP’den 7-10 kat daha hızlı olduğunu duymuştum
    10G~80G Thunderbolt Ethernet adaptörleri de var ama gecikme (latency) sorun olabilir
    PCIe yuvası olsaydı tek yapılacak şey bir Infiniband kartı takmak olurdu, ama sonuçta belirleyici olan sürücü desteği

    • Thunderbolt’u PCIe’ye çevirip normal NIC kullanmak da mümkün. Atto Thunderlink de aslında bir Broadcom NIC etrafına yapılmış bir kutu
      Apple’ın MLX5 sürücüsünü iPadOS’e kadar dahil etmiş olması şaşırtıcı. İlgili blog bakılabilir
    • macOS’te Mellanox ConnectX kartları için sürücü var ama ibv_devices içinde gerçekten görünüp görünmediğini bilmiyorum
  • Girdi (prefill) hızı ile çıktı (decode) hızını ayrı ayrı ölçen verileri merak ediyorum
    Exo’nun yazısında Mac donanımında bu iki hızın oldukça farklı olduğundan bahsediliyordu

    • Buna dair bazı veriler bu GitHub issue’sunda var.
      Exo ekibine bir benchmark özelliği eklemelerini önermeyi düşünüyorum
  • Thunderbolt 5’in beklediğim kadar ezici olmaması ilginçti
    2.5Gbps Ethernet’e kıyasla TB5 yaklaşık %10 daha hızlıydı. M3 Studio 10Gbps Ethernet destekliyor ama test edilmedi
    TB5’te tüm CPU’ların birbirine doğrudan bağlı olması gerekiyor, bu yüzden 4 cihaz sınırı var. Buna karşılık Ethernet switch ile daha fazla düğüm bağlanabilir

    • Bu videoda 10Gbps Ethernet ile test yapılıyor
    • Geçmişteki llama RPC deneyimime göre 10G Ethernet hız artışı çok sınırlı. Daha önemli olan gecikme, ama onun da bir sınırı var
    • llama hâlâ yeterince optimize değil, bu yüzden ölçeklenebilirliği zayıftı. RDMA’nın ek yükü, Ethernet’ten daha düşük
  • Kümedeki her düğümde 512GB RAM var. DeepSeek V3.1 modeli ise 700GB RAM gerektiriyor
    Tek düğümden iki düğüme çıkınca çıkarım hızının yalnızca %32 artmış olması garip. 4 düğümde bile artış %50’nin altında
    Bir yerde darboğaz var gibi görünüyor

    • Ağ bant genişliği 80Gbps olduğu için darboğaz o. Infiniband bunun 10 katı hızlı
    • Modelin ağırlıkları (weights) salt okunur olduğu için SSD üzerinde memory-map edilebilir. Asıl sınırlayıcı olan activation belleği. MoE yapısı burada yardımcı olabilir
    • TB5 RDMA, sistem belleğine doğrudan erişimden çok daha yavaş
  • Tüm düğümlerin birbirine bağlı olduğu yapı bana SGI’ın NUMALink’ini hatırlattı.
    SGI süper bilgisayarlarında her düğüm diğer tüm düğümlere iki bağlantıyla bağlıydı. Kablo çoktu ama framing ya da congestion control düşünmek gerekmiyordu

    • SGI donanımı ccNUMA (cache-coherent NUMA) uyguluyordu. IRIX işletim sistemi, görevleri ve belleği fiziksel olarak yakın yerlere taşıyarak gecikmeyi azaltıyordu
      Günümüzde yüksek frekanslı işlem sistemlerinin CPU çekirdeği ve DIMM konumlarını dikkate alarak süreç yerleştirmesi de aynı mantığa dayanıyor
    • NVL72 rack de GPU’lar arasında onlarca bağlantıyla benzer bir yapı kuruyor
  • Yazıda gördüğüm bazı ilginç detayları beğendim
    Exo’nun gizemli şekilde ortadan kaybolması, Jeff’in Mac için SMB Direct istemesi, M3 Ultra’nın çıkarım hızı ve 2100 dolarlık Framework AI masaüstü gibi
    Sayesinde yeni bir tavşan deliği (rabbit hole) bulmuş gibi hissediyorum