macOS 26.2’den itibaren Thunderbolt üzerinden RDMA ile hızlı AI kümesi kurmak mümkün oluyor

(developer.apple.com)

11 puan yazan GN⁺ 2025-12-13 | 4 yorum | WhatsApp'ta paylaş

macOS Tahoe 26.2 ile Thunderbolt 5 tabanlı RDMA özelliği eklendi; bu sayede MLX kullanan dağıtık yapay zeka çıkarımı gibi düşük gecikmeli iletişim mümkün hale geliyor
Bu, “Mac’leri yüksek hızlı dağıtık hesaplama düğümleri olarak ele almayı mümkün kılıyor”; böylece macOS, basit bir masaüstü işletim sistemi olmanın ötesine geçerek yerel AI ve HPC deney platformu olarak genişleyebiliyor

RDMA nedir

RDMA(Remote Direct Memory Access), bir bilgisayarın başka bir bilgisayarın belleğine CPU müdahalesi olmadan doğrudan erişmesini sağlayan bir iletişim yöntemidir
Ağ yığını, çekirdek kopyalama ve context switch adımlarını atlayarak gecikmeyi (latency) son derece düşürür ve throughput’u büyük ölçüde artırır
Başlıca InfiniBand ve RoCE gibi veri merkezi ağlarında kullanılagelmiştir
Yüksek performanslı hesaplama (HPC), dağıtık depolama ve büyük ölçekli AI eğitimi/çıkarımında standart bir teknoloji haline gelmiştir
Temel nokta, **“ağ iletişimi yapılmasına rağmen sanki aynı belleği kullanıyormuş gibi hızlı çalışması”**dır

Thunderbolt üzerinden RDMA ne anlama geliyor

macOS 26.2, Thunderbolt 5 ile bağlanan Mac’ler arasında RDMA iletişimini destekliyor
Daha önce RDMA sunucu sınıfı ağ ekipmanlarıyla sınırlıyken, artık tek bir kabloyla bağlanan yerel Mac kümelerinde de mümkün hale geliyor
Thunderbolt’un yüksek bant genişliği ve çok düşük gecikmesi, RDMA modeliyle doğrudan kullanılabiliyor
Yani “masa üzerindeki birden fazla Mac’i veri merkezi gibi birleştiren bir kanal” açılmış oluyor

Neden AI iş yükleriyle iyi uyum sağlıyor

Dağıtık yapay zeka çıkarımı veya eğitiminde düğümler arası tensör alışverişi kolayca darboğaz haline gelir
RDMA bu süreçte CPU tüketmeden GPU ↔ GPU’ya yakın bir iletişim deseni sunar
Sürüm notlarında geçen MLX tabanlı dağıtık yapay zeka çıkarımı, bu tür düşük gecikmeli ve yüksek bant genişlikli iletişim varsayımıyla tasarlanmış bir yapıdır
Modeli birden fazla Mac’e bölerek yüklemek ve tek bir makine gibi çalışan bir çıkarım kümesi kurmak için olanaklar genişliyor
Küçük ekipler veya araştırma ortamlarında “sunucu olmadan Mac’lerle AI kümesi kurmak” artık gerçekçi bir seçenek haline geliyor

Pratikte mümkün hale gelen kullanım senaryoları

Birden fazla Mac Studio / Mac Pro’yu Thunderbolt ile bağlayarak yerel AI çıkarım çiftliği kurmak
Büyük modelleri tek bir GPU’ya yüklemenin zor olduğu durumlarda model bölmeli çıkarım denemeleri yapmak
Yerel dağıtık simülasyonlar, yüksek hızlı veri boru hatları ve deneysel dağıtık sistem araştırmaları
Veri merkezine geçmeden önce prototip/PoC ortamı kurma maliyetini büyük ölçüde düşürmek

4 yorum

bus710 2025-12-14

Thunderbolt ağ iletişimi gerçekten çok pratik
Daisy chain desteklediği için hub da gerekmiyor

shakespeares 2025-12-13

Artık Mac cihazlarını birbirine bağlayıp bir çıkarım çiftliği kurarak evden hizmet verenlerin sayısı da epey artar gibi görünüyor.

xguru 2025-12-13

Apple'ın resmi sürüm notlarında yalnızca "RDMA over Thunderbolt"un mümkün hale geldiğine dair tek bir satır yer aldığı için, GN+ olarak buna ek bir açıklama yazdım.

GN⁺ 2025-12-13

Hacker News görüşleri

MLX ekibinin Twitter hesabını takip ediyorum. Sık sık iki veya daha fazla Mac'i bağlayarak 512GB'tan fazla RAM gerektiren modelleri çalıştırdıkları örnekler paylaşıyorlar
Örneğin Kimi K2 Thinking (1T parametre) ve DeepSeek R1 (671B) var. İkincisi için ayrıca bir kurulum rehberi Gist'i da verilmiş
- Bu paylaşımlar pipeline paralelleştirme kullanan örnekler. N adet makine olduğunda, her makineye L/N katman dağıtılıyor. Hız artışı sağlamıyor ama tek bir makineye sığmayan büyük modelleri çalıştırmayı mümkün kılıyor
  Yaklaşan Tahoe 26.2 sürümünde tensor paralelleştirme mümkün olacak. Her katman birden fazla makineye shard edilerek N makinede neredeyse N kat hız elde edilebilecek. Ancak iletişim gecikmesi (latency) temel sorun
- Geçen hafta RDMA tabanlı tensor paralellik testi yapılmış. Test bağlantısı. Hızlı senkronizasyon için bir geçici çözümden de bahsediliyor
- Uzman olmayanlar için bu yaklaşımın çok cazip olmamasını umuyorum. Paralel iş yüklerinde veya context işlemede performans iyi ölçeklenmiyor
  Bunun yerine, yerelde LLM denemek isteyen bireyler için iyi; ama bol bütçeli şirketlerin GPU yerine bundan topluca satın alması için bir neden yok gibi görünüyor
- En şaşırtıcı şey güç tüketimi. İki cihaz birlikte yaklaşık 50W deniyor; yanlış görmüş olabileceğimi düşündüm
$50,000 bütçeyle inference donanımını karşılaştırmıştım
- Apple M3 Ultra kümesi ($50k): Kapasiteyi (3TB) maksimize ediyor. 3T+ parametreli modelleri (Kimi K2 gibi) çalıştırabilen tek seçenek, ama hızı düşük (~15 t/s)
- NVIDIA RTX 6000 iş istasyonu ($50k): Throughput'u (>80 t/s) maksimize ediyor. Hem eğitim hem inference için çok iyi, ancak VRAM 384GB ile sınırlı olduğu için yalnızca 400B altı modeller mümkün
- Aynı kapasiteyi (3TB) ve 100 t/s üzeri throughput'u birlikte elde etmek için yaklaşık $270,000'lık bir NVIDIA GH200 kümesi gerekiyor. Apple kümesi, bu kapasitenin %87'sini maliyetin %18'iyle sağlıyor
- Daha ucuza da yapılabilir. Ben $2,000'lık bir çift soketli Xeon iş istasyonu (768GB RAM) ile DeepSeek-R1'i saniyede 1-2 token hızında çalıştırıyorum
- $50k'lık NVIDIA kümesi hesabını merak ediyorum. RTX 6000 yaklaşık $8k ise, 5 tane ile 40k'ya yarım TB civarı elde edilebilir. Yine de inference için Mac hâlâ verimli görünüyor ve M5 Ultra muhtemelen daha iyi fiyat/performans sunacaktır
- Aynı bütçeyle 25 adet Framework masaüstü kartı da alınabilir (her biri 128GB VRAM, Strix Halo'lu). Toplam 3TB VRAM eder, ama kümelemek oldukça zorlu olabilir
- Henüz hayata geçmemiş olan paralel hızlandırma özelliği de hesaba katıldığında, şirket içi inference ortamları için oldukça iyi bir anlaşma gibi görünüyor
- Apple LPDDR5X kullanarak enerji verimliliğini ve maliyeti düşürüyor, NVIDIA ise GDDR/HBM ile performansa öncelik veriyor
Bugünkü RAM piyasası karmaşası içinde, Apple'ın istikrarlı tedarik zinciri sayesinde Apple sistemlerinin orta ölçekli inference kümeleri kurmak için uygun maliyetli bir seçenek haline gelmesi gerçekten ironik olurdu
- Ticari kullanıcıların tüm iyi Mac'leri satın alması pek hoş olmazdı
- Bazı kullanım alanlarında bu zaten oluyor
Birden fazla Mac Studio'yu kümelemekten söz ediliyor ama fiziksel ve yönetsel kısıtlar endişe verici
1. Güç düğmesinin konumu garip; rackmount kullanımında rahatsız edici
2. Thunderbolt çevre birimleri için harika, ama sürekli bağlı bir interconnect olarak port dayanıklılığı konusunda soru işaretleri var
3. Kablo kalitesi önemli. TB4/TB5'te pahalı olmayan kablolarla sık sık sorun yaşanıyordu
4. macOS uzaktan yönetimi Linux'tan daha verimsiz. Örneğin macOS 26.1 → 26.2 yükseltmesini GUI olmadan yapmak zor. sudo softwareupdate -i -a yalnızca minör güncellemeleri yapabiliyor
- #2 ile ilgili olarak, OWC dock'larda kablo sabitleme için vida deliği bulunuyor. OWC Thunderbolt Dock ve ClingOn adaptörü ile port üzerindeki stres azaltılabilir
- Güç düğmesi sorunu RackMac Studio enclosure ile çözülebilir. Düğmeyi mekanik olarak uzatıyor
- Thunderbolt'u sunucu interconnect'i olarak kullanmak estetik açıdan pek hoş değil, ama rack'e sabitlenmiş durumdayken aslında fiziksel stres daha az oluyor
- MDM çözümü kullanılırsa yalnızca yazılım güncellemeleri değil, LOM (uzaktan güç yönetimi) de mümkün oluyor. Açık kaynaklı MDM'ler de var
- Rackmount Mac Pro sürümü hâlâ satılıyor, ancak M3 Ultra ile güncellenmediği için yakında üretimden kalkabilir
Keşke Apple kendi M serisi tabanlı bulutunu kurup Metal'i yapay zeka için güçlendirse ve gizlilik odaklı self-hosting modelleri sunsa. Hassas veriye sahip sektörlerde büyük başarı yakalayabilir
- Benzer bir kavram olan Private Cloud Compute zaten var, ama Apple modellerini kullanan iUser'lara özel
- Veri merkezlerinde GPU başına büyük bellekten ziyade yüksek hızlı interconnect ile sharding daha verimli. Hesaplama performansı açısından NVIDIA veya AMD GPU'lar hâlâ önde
Bunun yapay zeka dışındaki genel dağıtık iş yükleri için de kullanılıp kullanılamayacağını merak ediyorum
- HPL ve mpirun ile test edilmiş, ama şu anda RDMA desteklenmiyor ve yalnızca Ring yöntemi mümkün. Biraz ham ama çalışıyor
  Not: MLX dağıtık kullanım rehberi
İlgili haber: Engadget - macOS Tahoe 26.2'de Mac kümesiyle yapay zeka süper bilgisayarı kurabilirsiniz
George Hotz, tinygrad kullanarak USB4 üzerinden Mac'te NVIDIA GPU çalıştırdı
tinygrad tweet'i
- Ayrıca Linux çalışan bir 2023 Mac Pro üzerinde NVIDIA örneği de var
RDMA'nın ne olduğunu tam bilmiyorum ama bu, birden fazla Mac'i bağlayıp inference'ı paralel çalıştırabilmek anlamına mı geliyor? Eğer öyleyse gerçekten harika bir özellik
- Birden fazla Mac üzerinde inference zaten 1 yıldır mümkündü, ama artık çok daha hızlı çalışıyor