GPT-OSS ile Qwen3 ve GPT-2 sonrası LLM mimarisi gelişiminin ayrıntılı karşılaştırması
(magazine.sebastianraschka.com)- OpenAI, gpt-oss-20b/120b modellerini açık ağırlıklarla yayımlayarak 2019’daki GPT-2’den bu yana ilk kez OpenAI imzalı büyük bir açık ağırlıklı LLM sunmuş oldu
- gpt-oss modelleri, GPT-2’ye kıyasla Dropout, Absolute Position Embedding, GELU gibi bileşenleri RoPE, SwiGLU, RMSNorm gibi verimli modern tekniklerle değiştirerek gelişti
- Mixture-of-Experts (modüler uzman yapısı), Sliding Window Attention, MXFP4 kuantizasyonu gibi uygulamalar sayesinde yalnızca performans verimliliği değil, tek GPU üzerinde çalıştırma ortamı da büyük ölçüde iyileşti
- Qwen3 ile karşılaştırıldığında mimari derinlik/genişlik, uzman sayısı, attention bias, açık kaynak lisansı gibi birçok farklılaştırıcı unsur olduğu görülüyor
- gpt-oss-20b, güncel donanıma göre hafifletilmiş yapısı ve reasoning effort ayarlama özelliğiyle hem gerçek kullanım hem de araştırma açısından genişletilebilirlik sunuyor
Genel bakış ve başlıca yenilikler
- OpenAI, gpt-oss-20b/120b modellerini 2019’daki GPT-2’den sonra ilk kez açık ağırlıklarla yayımladı
- Sıradan kullanıcı GPU’larında (en fazla 16GB RAM) 20B, H100 80GB üzerinde ise 120B çalıştırılabiliyor
- MXFP4 optimizasyonu sayesinde tek GPU’da çalıştırma mümkün olurken tüketici erişilebilirliği de artıyor
GPT-2 → gpt-oss: başlıca mimari değişimler
Dropout’un kaldırılması
- GPT-2’de Dropout bulunuyordu; ancak büyük veriyle tek epoch eğitim ortamında bunun aksine performansı düşürdüğü görüldü
- Son araştırmalar da Dropout uygulanmamasının LLM’lerde downstream görevlerde daha iyi performans verdiğini gösteriyor
RoPE (rotary position embedding) kullanımı
- Geleneksel mutlak konum gömmesi yerine RoPE (Rotary Position Embedding) ana akım haline geldi
- RoPE, query/key vektörlerinin açısını konuma göre döndürerek daha esnek ve daha iyi genellenebilir konumsal bilgi sağlıyor
SwiGLU aktivasyon fonksiyonu ve GLU kullanımı
- GEGLU/SwiGLU gibi GLU yaklaşımlarının benimsenmesiyle, geleneksel 2 katmanlı FFN’e göre daha az parametreyle daha iyi temsil gücü elde ediliyor
- Swish, hesaplama açısından da GELU’ya kıyasla daha verimli
Mixture-of-Experts (MoE) uygulanması
- Tek bir FFN yerine çoklu uzman (Expert) ağları kullanılıyor ve her token üretiminde yalnızca bazı uzmanlar etkinleşiyor
- Model parametre sayısı keskin biçimde artırılırken çıkarım verimliliği (seyreklik) korunuyor, eğitim kapasitesi büyüyor
Grouped Query Attention (GQA) kullanımı
- Geleneksel Multi-Head Attention’a kıyasla key/value paylaşımı sayesinde bellek ve hesaplama yükü azalıyor
- Performans kaybı olmadan verimlilik artıyor; büyük ölçekli LLM’lerde standart bir eğilim haline gelmiş durumda
Sliding Window Attention kullanımı
- Bazı katmanlarda tüm bağlam yerine son 128 token ile sınırlı bir Sliding Window üzerinden yerel attention hesaplanıyor ve bellek kullanımı en aza indiriliyor
- Performans düşmeden daha hızlı çıkarım ve büyük bağlam desteği sağlanıyor
RMSNorm kullanımı
- LayerNorm yerine RMSNorm kullanılarak hesaplama verimliliği artırılıyor
- LayerNorm’un ortalama/varyans hesabı yerine RMS (kök ortalama kare) uygulanıyor, böylece GPU hesaplama yükü azalıyor
gpt-oss ile Qwen3 karşılaştırması
Ölçek/yapı farkları
- Qwen3 daha derin bir yapıya (48 Transformer blok) sahipken, gpt-oss daha geniş bir yapıya sahip (embedding boyutu ve head sayısı daha yüksek)
- Derin modeller daha esnek ama eğitimi daha zor; geniş modeller ise çıkarım paralelleştirmesinde avantajlı (Gemma 2 makalesinde, 9B model ölçeğinde geniş taraf az farkla üstün)
MoE yapısındaki farklar
- gpt-oss-20b: 32 büyük uzman, yalnızca 4’ü etkin
- Qwen3: çok sayıda küçük uzman, 8’i etkin
- Güncel eğilim, daha fazla sayıda küçük uzmanın daha etkili olduğu yönünde; ancak gpt-oss büyük ve az sayıda uzman yapısını koruyor (20B ve 120B’de yalnızca uzman ve blok sayısı ayarlanıyor)
Attention bias ve sinks
- gpt-oss, attention içinde bias birimleri kullanıyor (GPT-2 döneminden sonra nadir görülen bir yaklaşım)
- Ancak son çalışmalar, bunun key-proj tarafında etkisinin sınırlı olduğunu gösteriyor
- Attention sink, dizinin başlangıç konumuna her zaman attention verilen özel token kavramı; ancak gpt-oss’te bu, giriş tokenlarında değişiklik yapmadan her head’e öğrenilmiş bias logit biçiminde ekleniyor
Lisans ve açıklık kapsamı
- Apache 2.0 açık kaynak lisansı sayesinde ticari kullanım ve türev model geliştirme serbest
- Ancak tam anlamıyla açık kaynak değil (eğitim kodu ve veri seti yayımlanmış değil); bu bir open weight model
Diğer ayrıntılar ve gerçek kullanım
Eğitim/optimizasyon
- gpt-oss, 2.1M H100-hours düzeyinde hesaplama kaynağıyla eğitildi
- İngilizce odaklı; STEM, kodlama ve genel bilgi metinlerine ağırlık veriyor
- Ön eğitim + gözetimli ince ayar (Instruction), RL tabanlı reasoning aşaması gibi güncel teknikler uygulanıyor
Reasoning effort ayarı
- System prompt üzerinden reasoning effort (düşük/orta/yüksek) ayarlanarak yanıt uzunluğu ve doğruluk otomatik biçimde düzenlenebiliyor
- Basit işler için düşük maliyetle hızlı, karmaşık reasoning gerektiren durumlarda ise daha yüksek düzey seçilebiliyor
MXFP4 kuantizasyonu ile tek GPU desteği
- MXFP4 formatı sayesinde 20B model 16GB VRAM’de de çalışabiliyor (güncel GPU şart)
- 120B ise H100 düzeyinde 80GB bellekle tek GPU üzerinde mümkün; dağıtık işleme gerek kalmadan daha kolay çalıştırılıyor
Benchmark’lar ve pratik kullanılabilirlik
- gpt-oss, eğitim odağını reasoning tarafına verdiği için bazı genel bilgi sorularında halüsinasyon eğilimi gösterebiliyor
- Kullanılabilirlik açısından mevcut açık modeller arasında üst sıralarda; tool integration ile birleştiğinde pratik değeri daha da artabilir
- Gerçek kullanımda doğruluk ile reasoning dengesi önemli; ileride diğer açık modellerle karşılaştırma yapılması gerekiyor
GPT-5 ile karşılaştırma
- gpt-oss-120b, benchmark’lara göre OpenAI’nin ticari modeli GPT-5’e yakın performans gösteriyor
- Gerçek dünyadaki üstünlük için biraz daha gözlem gerekiyor; ancak açık ağırlıklı en güncel LLM’ler arasında güçlü bir alternatif
- Yalnızca benchmark’larla gerçek rekabet gücünü tam açıklamak zor; yine de dış karşılaştırmalar ve araştırmalar için büyük bir fırsat sunuyor
Özet
- gpt-oss serisinin ortaya çıkışı, büyük açık ağırlıklı LLM alanında yeni bir ölçüt ortaya koyuyor; güncel LLM’lerin benimsediği yenilikçi mimarilerin pratikte nasıl uygulandığını ayrıntılı biçimde karşılaştırıp analiz ediyor
- Qwen3, GPT-5 ve diğer yeni modellerle olan farkları ve eğilimleri görmek mümkün; bu da gerçek uygulama ve araştırmalar için yararlı bir güncel tablo sunuyor
1 yorum
Hacker News yorumu
Qwen3'ün yerel testlerde çok daha üstün olduğunu doğruladım. 32B parametreli sürümde prompt'a neredeyse kusursuz uyuyor ve sonuçlar doğal çıkıyor. Buna karşılık simplebench gpt-oss(120B), mantık bulmacalarında iyi performans göstermiyor. Bu farkın eğitim yöntemi, model boyutları ve az sayıda büyük uzman yerine çok sayıda küçük uzman kullanımı gibi etkenlerden kaynaklandığını düşünüyorum
sqrt(aktif head sayısı * toplam parametre sayısı). Örneğinsqrt(120*5) ~= 24; yani GPT-OSS 120B aslında 24B düzeyinde performans ve çok daha küçük bir model düzeyinde hız sunuyorSebastian Raschk'nin blog yazıları hazine değerinde bilgi içeriyor. get-oss ve qwen3 modellerini Ollama ve LM Studio ile yerelde kullanıyorum, büyük modeller içinse ticari API'ler kullanıyorum. get-oss, prompt'a bol miktarda bağlam bilgisi verdiğinizde iyi sonuç veriyor; qwen3 ise düpedüz harika. 3 yıl öncesine kadar sinir ağları, GAN, RNN, LSTM gibi şeyleri gerçekten implemente edecek kadar iyi anlıyordum ama bugünün LLM'leri doğrudan geliştirebilecek kadar kolay değil; buna üzülüyorum. Sebastian Raschk'nin kitabına da bakıyorum ama muhtemelen sonuna kadar bitiremeyeceğim
Yerelde 3090 GPU üzerinde qwen3 coder instruct 30b-a3b exl3 q6 modelini çalıştırıp örnek sayfalar oluşturdum; sunucuyu başlatma, çalışan sunucuyu algılama, bunu doğrudan kapatma(izin isteyerek), sonra yeniden başlatıp IP'yi otomatik bulup tarayıcıda açma sürecini denedim. Artık sadece basit bir demo değil; junior ya da stajyerler için de fiilen faydalı olacak seviyede yardımcı oluyor
Benim deneyimimde qwen3-coder açık ara daha iyi. gpt-oss:20b'yi de kurdum ama kod özeti istediğimde qwen3 birkaç saniye içinde sonuç veriyor, gpt-oss ise 5 dakikadan uzun süre hiçbir şey yapmadığı için durduruyorum. O yüzden sadece qwen3 kullanıyorum. İstediğim cevabı alamazsam arama motoru ya da Perplexity kullanıyorum. 10GB 3080, Ryzen 3600x, 32GB RAM kullanıyorum. Qwen3-coder şimdiye kadar kullandıklarımın en iyisi
Son zamanlarda open-weight LLM'lerin mimarilerinin bu kadar benzer olması ve yeniliğin yalnızca veri ya da RL tarafında yaşanması ilginç. Geçmişte büyük ML organizasyonlarında mimari ince ayarı en önemli şeydi ama gerçeklik farklı görünüyor
Qwen3 4B modelini yerelde gerçekten çok iyi kullanıyorum. Çevrimiçi modelleri neredeyse hiç kullanmıyorum ve web araması da çok daha hedefli oluyor. Tamamen güvenmiyorum ama genel olarak iyi. Bu açık kaynak modellerin yerel bilgi otomasyonunun kurallarını değiştireceğine eminim
LM Arena'da saf Transformer tabanlı olmayan modeller içinde en iyi performans gösteren model Jamba(Transformer'lar ve state space modellerinin hibrit yapısı, 96. sıra). Tencent'in hunyuan-turbos'u da yine hibrit ve 22. sırada. arxiv makalesine bakın
LLM'ler genelde çok büyük veri setlerini yalnızca bir kez(tek epoch) eğitiyor. Bu, çoklu tekrar eğitimini(yüzlerce epoch) varsayan Dropout yaklaşımından farklı bir ortam
Büyük araştırma laboratuvarlarının yayımladığı modellerin ek eğitimle ne kadar daha ileri gidebileceğini merak ediyorum. Örneğin GPT-OSS 2,1 milyon saat eğitildiyse, bunu iki katına çıkarmak ne kadar iyileşme sağlar, bilmek isterim
Siteye girdiğimde "Bağlantınız güvenli değil" hata mesajı alıyorum. "magazine.sebastianraschka.com web sitesi HSTS kullandığı için şu anda ziyaret edemezsiniz" diyor. En güncel Chrome sürümü ve Ubuntu kullanıyorum