- macOS Tahoe 26.2 ile Thunderbolt 5 tabanlı RDMA özelliği eklendi; bu sayede MLX kullanan dağıtık yapay zeka çıkarımı gibi düşük gecikmeli iletişim mümkün hale geliyor
- Bu, “Mac’leri yüksek hızlı dağıtık hesaplama düğümleri olarak ele almayı mümkün kılıyor”; böylece macOS, basit bir masaüstü işletim sistemi olmanın ötesine geçerek yerel AI ve HPC deney platformu olarak genişleyebiliyor
RDMA nedir
- RDMA(Remote Direct Memory Access), bir bilgisayarın başka bir bilgisayarın belleğine CPU müdahalesi olmadan doğrudan erişmesini sağlayan bir iletişim yöntemidir
- Ağ yığını, çekirdek kopyalama ve context switch adımlarını atlayarak gecikmeyi (latency) son derece düşürür ve throughput’u büyük ölçüde artırır
- Başlıca InfiniBand ve RoCE gibi veri merkezi ağlarında kullanılagelmiştir
- Yüksek performanslı hesaplama (HPC), dağıtık depolama ve büyük ölçekli AI eğitimi/çıkarımında standart bir teknoloji haline gelmiştir
- Temel nokta, **“ağ iletişimi yapılmasına rağmen sanki aynı belleği kullanıyormuş gibi hızlı çalışması”**dır
Thunderbolt üzerinden RDMA ne anlama geliyor
- macOS 26.2, Thunderbolt 5 ile bağlanan Mac’ler arasında RDMA iletişimini destekliyor
- Daha önce RDMA sunucu sınıfı ağ ekipmanlarıyla sınırlıyken, artık tek bir kabloyla bağlanan yerel Mac kümelerinde de mümkün hale geliyor
- Thunderbolt’un yüksek bant genişliği ve çok düşük gecikmesi, RDMA modeliyle doğrudan kullanılabiliyor
- Yani “masa üzerindeki birden fazla Mac’i veri merkezi gibi birleştiren bir kanal” açılmış oluyor
Neden AI iş yükleriyle iyi uyum sağlıyor
- Dağıtık yapay zeka çıkarımı veya eğitiminde düğümler arası tensör alışverişi kolayca darboğaz haline gelir
- RDMA bu süreçte CPU tüketmeden GPU ↔ GPU’ya yakın bir iletişim deseni sunar
- Sürüm notlarında geçen MLX tabanlı dağıtık yapay zeka çıkarımı, bu tür düşük gecikmeli ve yüksek bant genişlikli iletişim varsayımıyla tasarlanmış bir yapıdır
- Modeli birden fazla Mac’e bölerek yüklemek ve tek bir makine gibi çalışan bir çıkarım kümesi kurmak için olanaklar genişliyor
- Küçük ekipler veya araştırma ortamlarında “sunucu olmadan Mac’lerle AI kümesi kurmak” artık gerçekçi bir seçenek haline geliyor
Pratikte mümkün hale gelen kullanım senaryoları
- Birden fazla Mac Studio / Mac Pro’yu Thunderbolt ile bağlayarak yerel AI çıkarım çiftliği kurmak
- Büyük modelleri tek bir GPU’ya yüklemenin zor olduğu durumlarda model bölmeli çıkarım denemeleri yapmak
- Yerel dağıtık simülasyonlar, yüksek hızlı veri boru hatları ve deneysel dağıtık sistem araştırmaları
- Veri merkezine geçmeden önce prototip/PoC ortamı kurma maliyetini büyük ölçüde düşürmek
4 yorum
Thunderbolt ağ iletişimi gerçekten çok pratik
Daisy chain desteklediği için hub da gerekmiyor
Artık Mac cihazlarını birbirine bağlayıp bir çıkarım çiftliği kurarak evden hizmet verenlerin sayısı da epey artar gibi görünüyor.
Apple'ın resmi sürüm notlarında yalnızca "RDMA over Thunderbolt"un mümkün hale geldiğine dair tek bir satır yer aldığı için, GN+ olarak buna ek bir açıklama yazdım.
Hacker News görüşleri
MLX ekibinin Twitter hesabını takip ediyorum. Sık sık iki veya daha fazla Mac'i bağlayarak 512GB'tan fazla RAM gerektiren modelleri çalıştırdıkları örnekler paylaşıyorlar
Örneğin Kimi K2 Thinking (1T parametre) ve DeepSeek R1 (671B) var. İkincisi için ayrıca bir kurulum rehberi Gist'i da verilmiş
Yaklaşan Tahoe 26.2 sürümünde tensor paralelleştirme mümkün olacak. Her katman birden fazla makineye shard edilerek N makinede neredeyse N kat hız elde edilebilecek. Ancak iletişim gecikmesi (latency) temel sorun
Bunun yerine, yerelde LLM denemek isteyen bireyler için iyi; ama bol bütçeli şirketlerin GPU yerine bundan topluca satın alması için bir neden yok gibi görünüyor
$50,000 bütçeyle inference donanımını karşılaştırmıştım
Bugünkü RAM piyasası karmaşası içinde, Apple'ın istikrarlı tedarik zinciri sayesinde Apple sistemlerinin orta ölçekli inference kümeleri kurmak için uygun maliyetli bir seçenek haline gelmesi gerçekten ironik olurdu
Birden fazla Mac Studio'yu kümelemekten söz ediliyor ama fiziksel ve yönetsel kısıtlar endişe verici
sudo softwareupdate -i -ayalnızca minör güncellemeleri yapabiliyorKeşke Apple kendi M serisi tabanlı bulutunu kurup Metal'i yapay zeka için güçlendirse ve gizlilik odaklı self-hosting modelleri sunsa. Hassas veriye sahip sektörlerde büyük başarı yakalayabilir
Bunun yapay zeka dışındaki genel dağıtık iş yükleri için de kullanılıp kullanılamayacağını merak ediyorum
Not: MLX dağıtık kullanım rehberi
İlgili haber: Engadget - macOS Tahoe 26.2'de Mac kümesiyle yapay zeka süper bilgisayarı kurabilirsiniz
George Hotz, tinygrad kullanarak USB4 üzerinden Mac'te NVIDIA GPU çalıştırdı
tinygrad tweet'i
RDMA'nın ne olduğunu tam bilmiyorum ama bu, birden fazla Mac'i bağlayıp inference'ı paralel çalıştırabilmek anlamına mı geliyor? Eğer öyleyse gerçekten harika bir özellik