Boştaki Inference GPU Pool’u Kullanarak GPU Job Zamanlama

(lgresearch.ai)

5 puan yazan ragingwind 2026-05-27 | Henüz yorum yok. | WhatsApp'ta paylaş

Boştaki Inference GPU Pool’u Kullanarak GPU job zamanlama: LG AI Research’ün altyapı verimliliği örneği

LG AI Research Platform&Infra Team’in paylaştığı bu yazı, büyük dil modeli (LLM) servislerinin işletimi sırasında ortaya çıkan atıl GPU kaynaklarının araştırma ve deney çalışmalarında nasıl yeniden kullanıldığını ele alıyor. Yapay zeka servisleri işleten şirketler genellikle GPU’ları trafik zirvesini baz alarak önceden ayırdığı için, trafiğin düştüğü saatlerde pahalı GPU’lar yalnızca belleği işgal ederek boşta kalabiliyor. Ekip, bu boş zamanlardaki GPU’ları eğitim ve değerlendirme işleri için otomatik atayan bir pipeline kurarak, ek donanım satın almadan hesaplama kaynağı elde etti.

Temel problem tanımı

LLM servislerinde auto scaling sınırı: Genel web servislerinden farklı olarak LLM’lerde bir isteğin tükettiği GPU miktarı, giriş-çıkış token uzunluğu ve model mimarisine göre ciddi biçimde değişiyor. Bu nedenle CPU kullanımı veya bellek doluluk oranı gibi geleneksel göstergelerle gerçek yükü ölçmek zor.
Atıl kaynağın boyutu: Bir replica’nın GPU 4 kart kullandığı ortamda, gece düşük yoğunluklu saatlerde (20:00~ertesi gün 08:00) günde ortalama 52 GPU yaklaşık 12 saat boyunca boşta kalıyordu.

Çözüm yaklaşımı

vLLM iç metriklerinden yararlanma: Genel sistem metrikleri yerine, LLM inference engine’i vLLM’in sunduğu gerçek zamanlı throughput ve queue bekleme durumu gibi metrikler auto scaling ölçütü olarak kullanıldı; böylece LLM’e uygun daha hassas kaynak ayarlaması sağlandı.
Best-effort çalışma modeli: Gece boşta kalan GPU’larda araştırma işleri çalıştırılırken, trafik yeniden artarsa bu işler istenen anda durdurulup GPU’lar tekrar servise dönecek şekilde tasarlandı; böylece servis kararlılığı zedelenmedi.
Argo Workflows tabanlı pipeline: İşler Docker image birimiyle tanımlandı; veri ön işleme, ön eğitim, supervised fine-tuning, reinforcement learning ve değerlendirme gibi aşamalar step’lere bölünerek sıralı ya da paralel çalıştırılabildi.

Tasarım ilkelerinin öne çıkan yanları

Genel kullanım uygunluğu: Eğitim ya da inference fark etmeksizin, herhangi bir framework Docker image içinde paketlenirse olduğu gibi çalıştırılabiliyor.
Ölçeklenebilirlik ve esneklik: Yeni iş türleri eklense bile pipeline kodunu değiştirmeden sisteme dahil edilebiliyor.
Yeniden üretilebilirlik: Tüm ayarlar kod yerine dış parametrelerle enjekte ediliyor, giriş ve çıkışlar cloud storage üzerinde yönetiliyor; bu sayede aynı koşullarda aynı sonucun alınması garanti ediliyor. Pipeline’ın durum tutmayan (Stateless) yapısı da operasyonel kararlılığa katkı sağlıyor.

Operasyon sonuçları

Kümülatif kullanım: 2025 Kasım ile 2026 Ocak arasındaki yaklaşık 3 ayda 85 iş çalıştırıldı ve toplam GPU kullanımı 95.000 GPU-saat seviyesine ulaştı.
Artış eğilimi: Ocak ayındaki GPU kullanımı, Kasım’a göre yaklaşık %70 arttı; 24 saat bazında hesaplandığında bu, yaklaşık 55 yeni GPU kazanılmış olmasıyla aynı etkiyi yarattı.
Maliyet tasarrufu: Aynı hesaplama miktarı public cloud’da 3 yıllık taahhüt bazında hesaplandığında, yalnızca Ocak ayında yaklaşık 75 milyon KRW, 3 aylık toplamda ise yaklaşık 185 milyon KRW düzeyinde tasarruf sağlandı.

Gelecek planları

Scaling metriklerini geliştirme: Servis bazlı kullanım kalıpları daha ayrıntılı incelenerek kaynak atama mantığının daha da rafine edilmesi planlanıyor.
Sürekli zamanlamayı genişletme: Kubernetes ve kendi modeli EXAONE kullanılarak yalnızca gece değil, kaynak boşaldığı anda işleri başlatan sürekli çalışır bir yapıya geçilmesi hedefleniyor.
UX iyileştirmesi: Araştırmacıların iş talebinden izlemeye kadar tüm süreci sezgisel biçimde yönetebileceği bir arayüz hazırlanması planlanıyor.

Bu örnek, sektör genelindeki GPU kıtlığı sorununa donanım yatırımıyla değil, operasyonel yapıyı iyileştirerek çözüm araması açısından dikkat çekiyor. Özellikle LLM servislerine özgü yük ölçüm zorluğunu vLLM iç metrikleriyle aşmaları ve araştırma işlerini Best-effort modeliyle çalıştırarak servis kararlılığı ile kaynak kullanım verimliliği gibi birbiriyle çelişen iki hedefi aynı anda tutturmaları öne çıkıyor. Ek yatırım yapmadan yaklaşık 180 milyon KRW seviyesinde maliyet tasarrufu elde edilmiş olması, GPU altyapısı işleten diğer organizasyonlar için de referans alınabilecek bir operasyon modeli sunuyor.

Boştaki Inference GPU Pool’u Kullanarak GPU Job Zamanlama

Boştaki Inference GPU Pool’u Kullanarak GPU job zamanlama: LG AI Research’ün altyapı verimliliği örneği

İlgili okumalar

Henüz yorum yok.