GPT-OSS-120B'yi NVIDIA GPU'larda Saniyede 500+ Token Hızında Çalıştırma

(baseten.co)

7 puan yazan GN⁺ 2025-08-12 | Henüz yorum yok. | WhatsApp'ta paylaş

OpenAI'nin açık kaynak LLM'i olan GPT-OSS-120B, NVIDIA GPU ortamında saniyede 500'den fazla token işleme performansı için optimize edildi.
TensorRT-LLM, vLLM, SGLang gibi çeşitli inference frameworkler paralel olarak test edilerek hem Hopper hem de Blackwell mimarileri desteklendi.
Uyumluluk hataları giderildi, Harmony gibi yeni yanıt formatları entegre edildi, KV cache-aware routing ve Eagle tabanlı speculative decoding gibi optimizasyonlar uygulandı.
Tensor paralelleştirme ile uzman paralelleştirme karşılaştırıldı; düşük gecikme için tensor paralelleştirme tercih edildi ve Blackwell'de TensorRT-LLM MoE backend kullanıldı.
Gelecekte performansı artırmak için küçük draft modeller kullanan speculative decoding de dahil olmak üzere ek optimizasyonlar planlanıyor.

Genel Bakış

OpenAI'nin yeni açık kaynak büyük dil modeli GPT-OSS-120B yayınlandığında, Baseten en yüksek performansı hedefleyerek optimizasyon çalışmalarına başladı.
- Baseten, OpenAI'nin resmi launch partneridir.
OpenRouter'da paylaşılan gerçek kullanıcı verileriyle, NVIDIA GPU tabanlı ortamda rakiplerin önüne geçen bir performansın kanıtlandığı gösterildi.
Baseten'in esnek inference stack'i ve model mühendisleri uzmanlığıyla saatlik aralıklarla optimizasyon yamaları hızla uygulandı.
Yazının ilk yayınlanmasından yalnızca birkaç saat sonra bile saniyede 100 ek token artış sağlandı ve %100 uptime korunabildi.

TensorRT-LLM, vLLM, SGLang gibi farklı inference framework'lerinde kapsamlı test ve benchmark çalışmaları gerçekleştirildi.
Hopper ve Blackwell GPU mimarileri ile uyumluluk eşzamanlı olarak sağlandı.
Baseten'in Flexible Inference Stack'i ile NVIDIA Dynamo dahil olmak üzere kritik bileşenler entegre edildi.
KV cache-aware routing ve Speculative decoding (Eagle tabanlı) gibi doğrulanmış performans optimizasyon teknikleri sürekli olarak uygulandı.

Aşağıda SOTA performansla tam bağlam penceresi (context window) desteğini aynı anda hedeflemek için atılan ana adımlar yer alıyor.

Ne olursa olsun, hızlıca bir başlangıç çıkarımı (baseline inference) çalıştırmak ilk adım oldu.
Aynı anda birden fazla mühendis, GPU üzerinde vLLM, SGLang ve TensorRT-LLM testlerini paralel yürüttü.
En iyi performansı gösteren TensorRT-LLM’in hızlı çalıştırılması sağlandı.
Hopper (en fazla H100 GPU'nun bulunduğu mimari) ve Blackwell (B200 GPU ile daha yüksek hız sunan mimari) tarafında TensorRT-LLM desteği sağlandı.
Baseten Inference Runtime'un esnekliği sayesinde yeni mimari modellere uyum ve stack içindeki araçların hızlı değişimi kolaylaştı.

Yeni model mimarileri devreye girdiğinde, framework entegrasyonunda sıkça hata çıkıyor.
GPT-OSS'ta Harmony gibi yeni yanıt formatları eklendiği için mevcut framework'lerle entegrasyonda uyumluluk hataları görüldü.
Hız ve doğruluk hedefleri birlikte tutulması için yinelenen düzeltme ve test döngüleri uygulandı; etkili düzenlemeler açık kaynağa katkı olarak eklendi.
Küresel açık kaynak topluluğunun iş birliğiyle, farklı optimizasyon yolları ve hata düzeltmeleri hızlıca ilerliyor.

OpenAI, GPT-OSS-120B'nin tek bir H100 üzerinde çalışabileceğini belirtse de, pratikte performans için 4-8 GPU paralelleştirme daha avantajlı oldu.
Tensor Parallelism gecikmede (latency), Expert Parallelism ise sistem throughput'u konusunda güçlü.
- Baseten için hedef gecikmeyi optimize etmek olduğu için Tensor Parallelism seçildi.
Blackwell'de, önceki Triton backend'ine kıyasla CUDA kernel performansını artıran TensorRT-LLM MoE Backend uygulandı.
Hopper ve Blackwell için ayrı ayrı optimize edilmiş ayarlar yayınlandı; Model API'de Blackwell tabanlı ayarlar benimsendi.

Sadece ilk optimizasyon turuyla SOTA düzeyinde throughput ve gecikme yakalanmasına rağmen, geliştirme payı hâlâ büyük.
Yaklaşan ana güncelleme, Speculative Decoding'in devreye alınması.
- Bu yöntemde daha hızlı küçük bir “draft” model, tahmini tokenları üretir; ana model bunları doğrular.
- Baseten, Eagle 3'ü öneriyor ancak çıkarım stack'inde 10'dan fazla algoritmayı duruma göre esnek biçimde çalıştırıyor.
Speculative decoding, tek seferde birden fazla tokeni çıkararak daha verimli hız artışı sağlar.