- Alibaba Cloud tarafından geliştirilen Aegaeon havuzlama sistemi, GPU verimliliğini 9 kata kadar artırarak, aynı LLM hizmeti için gerekli Nvidia GPU sayısını %82 azalttı
- Bu sistem, GPU'ları modele göre sabitlemek yerine token bazında sanallaştırarak paylaşılan havuzda dinamik olarak zamanlama yapar ve birden çok modelin aynı GPU'yu aynı anda kullanmasını destekler
- Çeşitli 72B parametre ölçekli LLM'leri içeren canlı hizmet testinde GPU sayısı 1.192'den → 213'e düştü
- H20 GPU kısıtlı tedarik ortamında bile kararlı bir performans korundu ve ServerlessLLM·MuxServe'e kıyasla 1.5~9 kat iyi iş oranı (goodput) kaydı alındı
- Çalışma, Seul SOSP 2025 konferansında sunulan bir makale ile paylaşıldı ve ileride GPU kaynağı sıkıntısı yaşayan küresel bulut şirketleri için yüksek ilgi göreceği öngörülüyor
Aegaeon Havuzlama Sistemi ve Arka Planı
- Alibaba Cloud, Aegaeon havuzlama sistemiyle, kendi Model Studio pazarında aylar süren beta testinde Nvidia GPU kullanımını %82 azalttığını duyurdu
- Bu bulgu, Seul'de düzenlenen 2025 ACM SOSP (Symposium on Operating Systems) toplantısında hakem değerlendirmesinden geçmiş bir makale ile tanıtıldı
- Teknoloji, Çin'de Nvidia H20 ve benzeri modern GPU tedarikinin sınırlı olduğu ortamda bulut hizmet sağlayıcılarının mevcut kaynakları en iyi şekilde kullanabilmesini hedefliyor
Aegaeon: Çıkarım Odaklı GPU Verimliliğini Maksimize Eden Zamanlayıcı
- Aegaeon, model eğitim verimliliğini artıran bir sistem değil, çıkarım (inference) aşamasında GPU kaynağını en üst düzeye çıkarmaya yönelik bir zamanlayıcıdır
- Geleneksel yaklaşımda bir model için tek bir GPU sabitlenirken, Aegaeon bu yapıyı token seviyesinde böler ve birden çok modelin aynı anda kullanılmasını sağlayacak şekilde tasarlanmıştır
- GPU'nin ‘goodput’ (etkili iş oranı) değerini en fazla 9 kata kadar artırırken, düzensiz LLM istek örüntülerinde bile istikrarlı bir işleme hızı yakalıyor
Test Sonuçları ve Tasarruf Etkisi
- Pekin Üniversitesi ve Alibaba altyapı ekibi araştırmacıları (CTO Jingrun Zhou dahil), aylar süren beta test ile performansı doğruladı
- Test süresince aynı seviyede LLM çıkarım iş yükü korunarak 1.192 GPU, 213 GPU'ya indirildi
- En fazla 72B parametre ölçekli modelleri kapsayan birden fazla LLM eşzamanlı hizmet ortamında da yüksek verimlilik gösterildi
- Test, ABD ihracat kısıtlamalarından sonra Çin'de yasal olarak satın alınabilen H20 GPU'ları temel alarak gerçekleştirildi
- South China Morning Post bildirisine göre, H20 şu anda Çin'de başlıca alternatif hızlandırıcı olarak kullanılmaktadır
Teknik Bileşim: İki Temel Strateji
- 1. Çoklu model paketleme (Multi-model packing): Tek bir GPU'ya birden çok modeli aynı anda yerleştirerek, istekler arasındaki boşta kalan kaynakları en aza indirir
- 2. Token düzeyinde otomatik ölçekleme (Token-level autoscaling): Tam isteğe göre değil, üretilen çıktı token sayısına göre anlık olarak hesaplama miktarı ayarlanır
- Bu sayede gereksiz GPU rezervasyonu kaldırılır ve işleme oranına göre maliyet verimliliği en üst düzeye çıkarılır
- Ölçüm sonuçları, ServerlessLLM·MuxServe'e karşı 1.5~9 kat performans artışı elde edildiğini gösteriyor
Ağ ve Yığın Entegrasyonu
- Makalede, kullanılan ağ yapısına (eRDMA tabanlı) dair ayrıntılar belirtilmemiş olsa da,
- Alibaba'nın kendi eRDMA (Elastic RDMA) ağına ve sıkışık (yüksek yoğunluklu) GPU yığınına sahip olduğu biliniyor
- Bu nedenle bu sonuç, yüksek derecede optimize edilmiş dahili altyapı entegrasyonuna dayanma ihtimali yüksek
Çıkarımlar
- GPU tedarikinin sınırlı olduğu Çin pazarında, mevcut çip kaynaklarından en yüksek verimi çıkaran stratejik bir kırılma noktası olarak görüldü
- Bu yaklaşımın, ileride AWS, Google Cloud, Microsoft Azure gibi hiper ölçekleyiciler için de çıkarım verimliliği iyileştirme amacıyla bir referans model olma olasılığı yüksek
- GPU donanımının fiziksel sınırlarının ötesinde, yazılımsal zamanlama ve sanallaştırma teknolojileri yapay zeka altyapı rekabetinin yeni bir ekseni olarak öne çıkıyor
5 yorum
NVIDIA hisselerinin düşmeye başladığını neredeyse duyuyoruz.
Genelde bu durumda, %80 tasarruf sağlandığında GPU'ları yalnızca 1/5 oranında almak değil, 5 kat daha fazla veriyi işleme yönünde ilerleniyor.
Gerçekten öyle mi? Bir sakıncası yok mu?
Makale Aegaeon: Effective GPU Pooling and Scheduling for Multi-LLM Inference
Hacker News Yorumu