- OpenAI'nin açık kaynak LLM'i olan GPT-OSS-120B, NVIDIA GPU ortamında saniyede 500'den fazla token işleme performansı için optimize edildi.
- TensorRT-LLM, vLLM, SGLang gibi çeşitli inference frameworkler paralel olarak test edilerek hem Hopper hem de Blackwell mimarileri desteklendi.
- Uyumluluk hataları giderildi, Harmony gibi yeni yanıt formatları entegre edildi, KV cache-aware routing ve Eagle tabanlı speculative decoding gibi optimizasyonlar uygulandı.
- Tensor paralelleştirme ile uzman paralelleştirme karşılaştırıldı; düşük gecikme için tensor paralelleştirme tercih edildi ve Blackwell'de TensorRT-LLM MoE backend kullanıldı.
- Gelecekte performansı artırmak için küçük draft modeller kullanan speculative decoding de dahil olmak üzere ek optimizasyonlar planlanıyor.
Genel Bakış
- OpenAI'nin yeni açık kaynak büyük dil modeli GPT-OSS-120B yayınlandığında, Baseten en yüksek performansı hedefleyerek optimizasyon çalışmalarına başladı.
- Baseten, OpenAI'nin resmi launch partneridir.
- OpenRouter'da paylaşılan gerçek kullanıcı verileriyle, NVIDIA GPU tabanlı ortamda rakiplerin önüne geçen bir performansın kanıtlandığı gösterildi.
- Baseten'in esnek inference stack'i ve model mühendisleri uzmanlığıyla saatlik aralıklarla optimizasyon yamaları hızla uygulandı.
- Yazının ilk yayınlanmasından yalnızca birkaç saat sonra bile saniyede 100 ek token artış sağlandı ve %100 uptime korunabildi.
Performans Optimizasyonu Çabaları
- TensorRT-LLM, vLLM, SGLang gibi farklı inference framework'lerinde kapsamlı test ve benchmark çalışmaları gerçekleştirildi.
- Hopper ve Blackwell GPU mimarileri ile uyumluluk eşzamanlı olarak sağlandı.
- Baseten'in Flexible Inference Stack'i ile NVIDIA Dynamo dahil olmak üzere kritik bileşenler entegre edildi.
- KV cache-aware routing ve Speculative decoding (Eagle tabanlı) gibi doğrulanmış performans optimizasyon teknikleri sürekli olarak uygulandı.
Aşağıda SOTA performansla tam bağlam penceresi (context window) desteğini aynı anda hedeflemek için atılan ana adımlar yer alıyor.
Adım 1: İlk Çıkarım
- Ne olursa olsun, hızlıca bir başlangıç çıkarımı (baseline inference) çalıştırmak ilk adım oldu.
- Aynı anda birden fazla mühendis, GPU üzerinde vLLM, SGLang ve TensorRT-LLM testlerini paralel yürüttü.
- En iyi performansı gösteren TensorRT-LLM’in hızlı çalıştırılması sağlandı.
- Hopper (en fazla H100 GPU'nun bulunduğu mimari) ve Blackwell (B200 GPU ile daha yüksek hız sunan mimari) tarafında TensorRT-LLM desteği sağlandı.
- Baseten Inference Runtime'un esnekliği sayesinde yeni mimari modellere uyum ve stack içindeki araçların hızlı değişimi kolaylaştı.
Adım 2: Uyumluluk Hata Düzeltmeleri
- Yeni model mimarileri devreye girdiğinde, framework entegrasyonunda sıkça hata çıkıyor.
- GPT-OSS'ta Harmony gibi yeni yanıt formatları eklendiği için mevcut framework'lerle entegrasyonda uyumluluk hataları görüldü.
- Hız ve doğruluk hedefleri birlikte tutulması için yinelenen düzeltme ve test döngüleri uygulandı; etkili düzenlemeler açık kaynağa katkı olarak eklendi.
- Küresel açık kaynak topluluğunun iş birliğiyle, farklı optimizasyon yolları ve hata düzeltmeleri hızlıca ilerliyor.
Adım 3: Model Yapılandırma Optimizasyonu
- OpenAI, GPT-OSS-120B'nin tek bir H100 üzerinde çalışabileceğini belirtse de, pratikte performans için 4-8 GPU paralelleştirme daha avantajlı oldu.
- Tensor Parallelism gecikmede (latency), Expert Parallelism ise sistem throughput'u konusunda güçlü.
- Baseten için hedef gecikmeyi optimize etmek olduğu için Tensor Parallelism seçildi.
- Blackwell'de, önceki Triton backend'ine kıyasla CUDA kernel performansını artıran TensorRT-LLM MoE Backend uygulandı.
- Hopper ve Blackwell için ayrı ayrı optimize edilmiş ayarlar yayınlandı; Model API'de Blackwell tabanlı ayarlar benimsendi.
Ek Performans Optimizasyonları
- Sadece ilk optimizasyon turuyla SOTA düzeyinde throughput ve gecikme yakalanmasına rağmen, geliştirme payı hâlâ büyük.
- Yaklaşan ana güncelleme, Speculative Decoding'in devreye alınması.
- Bu yöntemde daha hızlı küçük bir “draft” model, tahmini tokenları üretir; ana model bunları doğrular.
- Baseten, Eagle 3'ü öneriyor ancak çıkarım stack'inde 10'dan fazla algoritmayı duruma göre esnek biçimde çalıştırıyor.
- Speculative decoding, tek seferde birden fazla tokeni çıkararak daha verimli hız artışı sağlar.
2 yorum
Keşke bana da yalnızca küçük bir tane, sevimli bir H100 verilseydi...
Hacker News Yorumları
Bunu görünce evdeki parçalarımı taradım ama ne kadar arasam da 25.000 dolarlık bir H100 GPU'nun neden bulunmadığını merak ettim.
MacBook Pro (M4, 128 GB RAM) ile Atlantik’i geçen bir uçakta GPT-OSS-120B kullandım.
Bağlam penceresi küçük ve toplam token sayısı azsa hızlıdı. 10.000 tokeni aşınca hemen her şey yavaşladı ve kuyrukta birikti.
MCP'ler, web araması ve URL patch gibi şeyler artık LLM kullanım deneyiminde çok kritik. Bu özellikler yoksa LLM'in pratik faydası da ciddi oranda düşüyor.
Önceden çevrimdışı kullanım için ayarlanmış CLI/TUI kodlama araçları (opencode vb.) modelle birlikte güvenilir şekilde çalışmadı.
OSS modellerin, önceki yorumlarda çokça bahsedilenlerin dışında da dikkat çeken şeyleri var:
Birkaç mühendis vLLM, SGLang ve TensorRT-LLM'i paralel denedi. TensorRT-LLM'in en hızlı olduğu söyleniyor ama genelde kurması en zor o; hem yeni mimarileri iyi yansıtmıyor hem de modeli üretim ile bire bir aynı donanım-sürücü-kütüphane yığınında doğrudan derlemeyi gerektiriyor, bu da oldukça zahmetli. Multimodal bir süre neredeyse mümkün değildi ve önde gelen bir Llama multimodal modeli bile düzgün çalışmıyordu. Bunun değerinin olup olmadığı tartışılır; örneğin GPT-OSS-120B'yi H100'de vLLM ile çalıştırırsanız düzgün çalışır ve token başına tutarlı şekilde 130~140t/s üretir. Başlığa bakınca tek bir GPU'da 500t/s beklenebilir sanılıyor ama gerçekte tensör paralel kurulum kullanılıyor. GPT-OSS için TRT-LLM'i ayrıca paketlemiş olmaları da biraz komik; TRT-LLM zaten biraz kafa karıştırıcı bir araç.
GPT-OSS 20B'nin kurulumu gerçekten kolaydı. Llama sayesinde Mac'imde 5 dakikada çalıştırabildim.
git pullyapıp yalnızca llama-server'ı yeniden derlersiniz; 40t/s herhangi bir ayar olmadan, 50t/s az biraz ayarlama ile alındı. Ne yazık ki 120B için zaten daha iyi modeller çıktı, bu yüzden çalıştırmak bir zorunluluk değil. ggerganov ve llama.cpp ekibinin kişisel hesaplama ortamlarında da LLM kullanımını demokratikleştirmesi çok kıymetli.Okurken anladım ki modeli düzgün çalıştırmak için ciddi bir ön işleme ve tuning gerekir, bu da benim farkında olmadığım bir şeydi. Sadece varsayılan ayarla iyi gideceğini sanıyordum.
ABD AI Action Plan'da “açık kaynak ve açık ağırlık yapay zekâ teşviki”nin “frontier AI'nın ifade özgürlüğünü ve Amerikan değerlerini koruması”nın hemen ardından geldiğini gördüm. Mantıklı olmasa da OpenAI OSS modellerini bu anda okumak biraz ürpertici. Yine de OSS model geliştiricisinin donanım konuşması iyi; çoğu geliştirici için donanım giriş bariyeri olduğu için bu yönde konuşulması sevindirici.
OS ve GPU bazında hangi LLM modelinin iyi çalıştığını net gösteren bir site biliyor musunuz? VRAM tahmininde en güvenilir ampirik formül parametre sayısı × (Precision/8) × 1.2 idi (referans)
GPT-OSS-120B modelinin gerçek dizi boyutu gibi net rakam bulmanın beklenmedik şekilde zor olduğunu söylemek istiyorum. Statik tipli bir dilde olsaydı dizi boyutunu göze çarptığı gibi anlayabilirdim; asıl ilgi çekici olan gerçek verinin (ağırlıklar dışında) nasıl aktığı ve çıktı akışının ne kadar geniş olduğu. Gigabit Ethernet'te “token çıkışı” için maksimum bant genişliğinin kaç t/s olduğu konusunda merak ediyorum; bu yüzden GitHub deposu gpt-oss içinde arıyorum ama net görünmüyor.
GPT-OSS fp4 desteğiyle Blackwell çiplerinde daha hızlı çalışıyor. Rust ile eğitim/inference engine geliştiriyoruz; bu yüzden cudarc ve candle'a fp8, fp4 desteği ekliyoruz. cudarc PR, candle PR, Mixlayer motorlarının bu modelleri desteklemesi için bu çalışma devam ediyor.