Alibaba Cloud, GPU havuzlama sistemi "Aegaeon" ile Nvidia GPU kullanımını %82 azalttı

(tomshardware.com)

5 puan yazan GN⁺ 2025-10-21 | 5 yorum | WhatsApp'ta paylaş

Alibaba Cloud tarafından geliştirilen Aegaeon havuzlama sistemi, GPU verimliliğini 9 kata kadar artırarak, aynı LLM hizmeti için gerekli Nvidia GPU sayısını %82 azalttı
Bu sistem, GPU'ları modele göre sabitlemek yerine token bazında sanallaştırarak paylaşılan havuzda dinamik olarak zamanlama yapar ve birden çok modelin aynı GPU'yu aynı anda kullanmasını destekler
Çeşitli 72B parametre ölçekli LLM'leri içeren canlı hizmet testinde GPU sayısı 1.192'den → 213'e düştü
H20 GPU kısıtlı tedarik ortamında bile kararlı bir performans korundu ve ServerlessLLM·MuxServe'e kıyasla 1.5~9 kat iyi iş oranı (goodput) kaydı alındı
Çalışma, Seul SOSP 2025 konferansında sunulan bir makale ile paylaşıldı ve ileride GPU kaynağı sıkıntısı yaşayan küresel bulut şirketleri için yüksek ilgi göreceği öngörülüyor

Aegaeon Havuzlama Sistemi ve Arka Planı

Alibaba Cloud, Aegaeon havuzlama sistemiyle, kendi Model Studio pazarında aylar süren beta testinde Nvidia GPU kullanımını %82 azalttığını duyurdu
Bu bulgu, Seul'de düzenlenen 2025 ACM SOSP (Symposium on Operating Systems) toplantısında hakem değerlendirmesinden geçmiş bir makale ile tanıtıldı
Teknoloji, Çin'de Nvidia H20 ve benzeri modern GPU tedarikinin sınırlı olduğu ortamda bulut hizmet sağlayıcılarının mevcut kaynakları en iyi şekilde kullanabilmesini hedefliyor

Aegaeon: Çıkarım Odaklı GPU Verimliliğini Maksimize Eden Zamanlayıcı

Aegaeon, model eğitim verimliliğini artıran bir sistem değil, çıkarım (inference) aşamasında GPU kaynağını en üst düzeye çıkarmaya yönelik bir zamanlayıcıdır
- Geleneksel yaklaşımda bir model için tek bir GPU sabitlenirken, Aegaeon bu yapıyı token seviyesinde böler ve birden çok modelin aynı anda kullanılmasını sağlayacak şekilde tasarlanmıştır
- GPU'nin ‘goodput’ (etkili iş oranı) değerini en fazla 9 kata kadar artırırken, düzensiz LLM istek örüntülerinde bile istikrarlı bir işleme hızı yakalıyor

Test Sonuçları ve Tasarruf Etkisi

Pekin Üniversitesi ve Alibaba altyapı ekibi araştırmacıları (CTO Jingrun Zhou dahil), aylar süren beta test ile performansı doğruladı
- Test süresince aynı seviyede LLM çıkarım iş yükü korunarak 1.192 GPU, 213 GPU'ya indirildi
- En fazla 72B parametre ölçekli modelleri kapsayan birden fazla LLM eşzamanlı hizmet ortamında da yüksek verimlilik gösterildi
Test, ABD ihracat kısıtlamalarından sonra Çin'de yasal olarak satın alınabilen H20 GPU'ları temel alarak gerçekleştirildi
- South China Morning Post bildirisine göre, H20 şu anda Çin'de başlıca alternatif hızlandırıcı olarak kullanılmaktadır

Teknik Bileşim: İki Temel Strateji

1. Çoklu model paketleme (Multi-model packing): Tek bir GPU'ya birden çok modeli aynı anda yerleştirerek, istekler arasındaki boşta kalan kaynakları en aza indirir
2. Token düzeyinde otomatik ölçekleme (Token-level autoscaling): Tam isteğe göre değil, üretilen çıktı token sayısına göre anlık olarak hesaplama miktarı ayarlanır
- Bu sayede gereksiz GPU rezervasyonu kaldırılır ve işleme oranına göre maliyet verimliliği en üst düzeye çıkarılır
Ölçüm sonuçları, ServerlessLLM·MuxServe'e karşı 1.5~9 kat performans artışı elde edildiğini gösteriyor

Ağ ve Yığın Entegrasyonu

Makalede, kullanılan ağ yapısına (eRDMA tabanlı) dair ayrıntılar belirtilmemiş olsa da,
- Alibaba'nın kendi eRDMA (Elastic RDMA) ağına ve sıkışık (yüksek yoğunluklu) GPU yığınına sahip olduğu biliniyor
- Bu nedenle bu sonuç, yüksek derecede optimize edilmiş dahili altyapı entegrasyonuna dayanma ihtimali yüksek

Çıkarımlar

GPU tedarikinin sınırlı olduğu Çin pazarında, mevcut çip kaynaklarından en yüksek verimi çıkaran stratejik bir kırılma noktası olarak görüldü
Bu yaklaşımın, ileride AWS, Google Cloud, Microsoft Azure gibi hiper ölçekleyiciler için de çıkarım verimliliği iyileştirme amacıyla bir referans model olma olasılığı yüksek
GPU donanımının fiziksel sınırlarının ötesinde, yazılımsal zamanlama ve sanallaştırma teknolojileri yapay zeka altyapı rekabetinin yeni bir ekseni olarak öne çıkıyor

5 yorum

jjpark78 2025-10-21

NVIDIA hisselerinin düşmeye başladığını neredeyse duyuyoruz.

jeongsoop 2025-10-21

Genelde bu durumda, %80 tasarruf sağlandığında GPU'ları yalnızca 1/5 oranında almak değil, 5 kat daha fazla veriyi işleme yönünde ilerleniyor.

shakespeares 2025-10-21

Gerçekten öyle mi? Bir sakıncası yok mu?

xguru 2025-10-21

Makale Aegaeon: Effective GPU Pooling and Scheduling for Multi-LLM Inference

GN⁺ 2025-10-21

Hacker News Yorumu

Alibaba Cloud, popüler olmayan model servisleri için kullanılan Nvidia GPU kullanımını %82'ye kadar azalttığını açıkladı; araştırmaya göre Alibaba Cloud Marketplace'te toplam isteklerin yalnızca %1,35'ine karşılık %17,7 GPU ayrılmıştı ve önce 1192 GPU gerekirken şimdi aynı istekleri 213 GPU ile işleyebiliyorlar.
- Bu tam olarak nasıl işliyor anlayamadım: modelin kullanılmadığı sürede GPU üzerinde durur halde bekletilip bekletilmediğini merak ediyorum. Böyle işlerin normalde dinamik olarak tahsis edilmesini beklerdim. Tabii model+GPU birkaç dakikadan uzun süre boşta kalırsa kaynakların serbest bırakılabileceğini de düşünüyorum. Ben zaten AI tarafında çalışmıyorum, bu yüzden SLURM ile her seferinde düğüm alıp kullanmaya alışığım.
- Makaledeki Şekil 1(a)'ya göre %17,7, toplam 30.000 GPU'ya oran; yani 5310 GPU, %1,35 isteği karşılıyordu. Bu düşüş yalnızca 47 modelin bulunduğu küçük, kapalı beta ortamında ölçülmüş bir değerdir. 733 adet 'cold' model üzerinden model sayısına göre kaba hesapla 3321 GPU gerekebilir ve bu önceki duruma göre %37,5 tasarruf, 30.000'lik tüm cluster için %6,6 tasarruf anlamına gelir.
- Eskiden yazılım ve bilgisayar mühendisleri sorunla doğrudan mücadele ederek yaratıcı algoritma ve çözümler tasarlardı; ABD'nin yarıiletken endüstrisi düzenlemeleri nedeniyle Çinli mühendisler de geçmişteki Silikon Vadisi gibi kendi başlarına inovasyon yapıp sorun çözmeye yöneliyor.
Ana şey şu: Alibaba Qwen ve DeepSeek gibi az sayıda modelde çıkarım talebi yüksekken, diğer çoğu model düzensiz kullanılıyor; bu yüzden toplam GPU kaynaklarının %17,7'si yalnızca toplam isteklerin %1,35'ini karşılamak için kullanılıyor, yani verimsiz.
- Bu diğer modellerin muhtemelen çok daha küçük boyutlu olduğu anlaşılıyor.
Daha iyi bir link olarak Tom's Hardware makalesi var; makale burada bulunabilir.
- Yukarıdaki URL'yi (başlangıçta SCMP haberi idi) bu bağlantıya çevirdim ve makale linkini de içeriğin üstüne eklemeyi planlıyorum.
ABD'nin Çin'in teknoloji gelişimini yavaşlatma çabası, Çin'in aynı yolu takip etmesini engellemekte başarılı olsa da, ironik bir şekilde Çin'i farklı bir şekilde inovatif olmaya itiyor olabilir; Çin şirketleri bu inovasyonu açık kaynak yaparsa sonuçta genel olarak daha yüksek verim ve gelişim sağlanabilir, uzun vadede ABD'nin 'medeniyetçi kapı bekçiliği'ne bile minnet duyar olabiliriz.
- Tarihsel olarak bir teknolojiyi engelleseniz de Çin, onu birkaç yıl içinde yakalıyor ya da daha iyi bir versiyonunu üretiyor. Batı bakışında kibirli bir yan var ve gerçek şu ki, Western firmaların birçok ürün geliştirmesinde Çinli bilim insanı ve imalat katkısı oldukça büyük; olmasalardı hiçbir şey olmazdı. AI araştırmacıları listelerine baktığınızda da Çin kökenlilerin oldukça fazla olduğunu görürsünüz.
- ABD'deki anti-göçmen eğilimi, ABD'nin inovasyonundaki en büyük engel olacak. Gerçekten de inovasyon yaratan yetenekler gidiyor; ABD, dünya çapında yetenek çekme avantajını kaybederse nüfus ölçeği açısından geride kalabilir. Dünya yeni bir lider arıyor; Çin henüz o noktada olmasa da birkaç yıl içinde olabilir. Çin'in zayıf yanı, dışa yönelik hırs eksikliği ve odaklanmasını yalnızca bölgesel alanlara (Tayvan, Güney Çin Denizi) verme eğilimi.
- Artık ABD'nin Çin'in gelişimini engellemesi mümkün değil; Çin içinde çip ithalatını yasaklayınca ABD hamlesi anlamsız hale geldi. (2025'te Nvidia AI çiplerinin Çin'e ithalatının yasaklanmasıyla ilgili): CNBC haberi
- Bütün bu durum bana II. Dünya Savaşı sonrası Japonya'nın az kaynakla yüksek yakıt verimli motorlar veya hafif otomobiller üretmeyi başardığı dönemi hatırlatıyor. Bu kısıtlamalar ABD ve bazı Avrupa ülkelerinde yoktuğu için fark büyüktü ve sonuçta Amerikan araçları rekabette geride kaldı.
- 'Bumerang etkisi'nden bahsediliyor ama zaten geç kalındığını düşünüyorum. 2024'te Batı laboratuvarları hâkimdi; 2025'e geldiğimizde Çin'de deepseek, qwen, kimi, glm, ernie gibi farklı state-of-the-art modeller birbiri ardına geliyor; artık daha fazla Çin laboratuvarı en yeni modelleri, Batı laboratuvarlarından daha fazla basıyor.
Çin kökenli şirketlerin engineering/research bloglarına dair merakım var; eskiden daha çok batı şirket bloglarına bakardım ama şimdi FAANG dışındaki vaka çalışmalarını da benchmark olarak almak istiyorum.
- Çin şirketlerinin resmi bloglarında da bu tip optimizasyon örnekleri bazen çıkıyor ama bunlar çoğunlukla pazarlama yazılarıyla karışık. Ayrıca yerel forumlarda da benzer içerikler çok olabilir, ancak İngilizce konuşanların bunlara erişmesi zor. Örnek: 10.000 düğümlü Kubernetes cluster optimizasyonu örneği
Çok küçük model setiyle deney yapılıyor gibi duruyor; gerçekten büyük modellere ölçeklenebilir mi?
- Hepsi LLM olduğu için çok küçümsenemeyecek bir ölçek; şu anda birkaç bölgede dağıtılmış 213 H20 GPU kümesinde TP=1 için 1.8–7B modelden 28, TP=4 için 32–72B modelden 19'u servis ediliyor.
Bu sanal GPU sistemi ayrı bir planlayıcı (scheduler) gibi duruyor, veri taşınmasından doğan gecikmenin ne kadar olduğunu merak ediyorum.
Bu yöntem başka iş yüklerine uygulanabilir mi diye merak ediyorum.
Sonuçta gereksiz davranışların (verimsiz kaynak kullanımının) durdurulmasından ibaret gibi duruyor.
Kaynaklı kurumlar için, önceden eğitilen bir modeli yeni donanıma taşıyarak 'NVDA vergisi'ni (Nvidia tekellerinden doğan maliyet) düşürmek mümkün olabilir ama araştırma ve model eğitimi işinin olgun bir NVDA ekosistemi dışında ilerlemesi zor.