GPT-OSS ile Qwen3 ve GPT-2 sonrası LLM mimarisi gelişiminin ayrıntılı karşılaştırması

(magazine.sebastianraschka.com)

27 puan yazan GN⁺ 2025-08-11 | Henüz yorum yok. | WhatsApp'ta paylaş

OpenAI, gpt-oss-20b/120b modellerini açık ağırlıklarla yayımlayarak 2019’daki GPT-2’den bu yana ilk kez OpenAI imzalı büyük bir açık ağırlıklı LLM sunmuş oldu
gpt-oss modelleri, GPT-2’ye kıyasla Dropout, Absolute Position Embedding, GELU gibi bileşenleri RoPE, SwiGLU, RMSNorm gibi verimli modern tekniklerle değiştirerek gelişti
Mixture-of-Experts (modüler uzman yapısı), Sliding Window Attention, MXFP4 kuantizasyonu gibi uygulamalar sayesinde yalnızca performans verimliliği değil, tek GPU üzerinde çalıştırma ortamı da büyük ölçüde iyileşti
Qwen3 ile karşılaştırıldığında mimari derinlik/genişlik, uzman sayısı, attention bias, açık kaynak lisansı gibi birçok farklılaştırıcı unsur olduğu görülüyor
gpt-oss-20b, güncel donanıma göre hafifletilmiş yapısı ve reasoning effort ayarlama özelliğiyle hem gerçek kullanım hem de araştırma açısından genişletilebilirlik sunuyor

Genel bakış ve başlıca yenilikler

OpenAI, gpt-oss-20b/120b modellerini 2019’daki GPT-2’den sonra ilk kez açık ağırlıklarla yayımladı
- Sıradan kullanıcı GPU’larında (en fazla 16GB RAM) 20B, H100 80GB üzerinde ise 120B çalıştırılabiliyor
- MXFP4 optimizasyonu sayesinde tek GPU’da çalıştırma mümkün olurken tüketici erişilebilirliği de artıyor

GPT-2 → gpt-oss: başlıca mimari değişimler

Dropout’un kaldırılması

GPT-2’de Dropout bulunuyordu; ancak büyük veriyle tek epoch eğitim ortamında bunun aksine performansı düşürdüğü görüldü
Son araştırmalar da Dropout uygulanmamasının LLM’lerde downstream görevlerde daha iyi performans verdiğini gösteriyor

RoPE (rotary position embedding) kullanımı

Geleneksel mutlak konum gömmesi yerine RoPE (Rotary Position Embedding) ana akım haline geldi
RoPE, query/key vektörlerinin açısını konuma göre döndürerek daha esnek ve daha iyi genellenebilir konumsal bilgi sağlıyor

SwiGLU aktivasyon fonksiyonu ve GLU kullanımı

GEGLU/SwiGLU gibi GLU yaklaşımlarının benimsenmesiyle, geleneksel 2 katmanlı FFN’e göre daha az parametreyle daha iyi temsil gücü elde ediliyor
Swish, hesaplama açısından da GELU’ya kıyasla daha verimli

Mixture-of-Experts (MoE) uygulanması

Tek bir FFN yerine çoklu uzman (Expert) ağları kullanılıyor ve her token üretiminde yalnızca bazı uzmanlar etkinleşiyor
Model parametre sayısı keskin biçimde artırılırken çıkarım verimliliği (seyreklik) korunuyor, eğitim kapasitesi büyüyor

Grouped Query Attention (GQA) kullanımı

Geleneksel Multi-Head Attention’a kıyasla key/value paylaşımı sayesinde bellek ve hesaplama yükü azalıyor
Performans kaybı olmadan verimlilik artıyor; büyük ölçekli LLM’lerde standart bir eğilim haline gelmiş durumda

Sliding Window Attention kullanımı

Bazı katmanlarda tüm bağlam yerine son 128 token ile sınırlı bir Sliding Window üzerinden yerel attention hesaplanıyor ve bellek kullanımı en aza indiriliyor
Performans düşmeden daha hızlı çıkarım ve büyük bağlam desteği sağlanıyor

RMSNorm kullanımı

LayerNorm yerine RMSNorm kullanılarak hesaplama verimliliği artırılıyor
LayerNorm’un ortalama/varyans hesabı yerine RMS (kök ortalama kare) uygulanıyor, böylece GPU hesaplama yükü azalıyor

gpt-oss ile Qwen3 karşılaştırması

Ölçek/yapı farkları

Qwen3 daha derin bir yapıya (48 Transformer blok) sahipken, gpt-oss daha geniş bir yapıya sahip (embedding boyutu ve head sayısı daha yüksek)
Derin modeller daha esnek ama eğitimi daha zor; geniş modeller ise çıkarım paralelleştirmesinde avantajlı (Gemma 2 makalesinde, 9B model ölçeğinde geniş taraf az farkla üstün)

MoE yapısındaki farklar

gpt-oss-20b: 32 büyük uzman, yalnızca 4’ü etkin
Qwen3: çok sayıda küçük uzman, 8’i etkin
Güncel eğilim, daha fazla sayıda küçük uzmanın daha etkili olduğu yönünde; ancak gpt-oss büyük ve az sayıda uzman yapısını koruyor (20B ve 120B’de yalnızca uzman ve blok sayısı ayarlanıyor)

Attention bias ve sinks

gpt-oss, attention içinde bias birimleri kullanıyor (GPT-2 döneminden sonra nadir görülen bir yaklaşım)
- Ancak son çalışmalar, bunun key-proj tarafında etkisinin sınırlı olduğunu gösteriyor
Attention sink, dizinin başlangıç konumuna her zaman attention verilen özel token kavramı; ancak gpt-oss’te bu, giriş tokenlarında değişiklik yapmadan her head’e öğrenilmiş bias logit biçiminde ekleniyor

Lisans ve açıklık kapsamı

Apache 2.0 açık kaynak lisansı sayesinde ticari kullanım ve türev model geliştirme serbest
Ancak tam anlamıyla açık kaynak değil (eğitim kodu ve veri seti yayımlanmış değil); bu bir open weight model

Diğer ayrıntılar ve gerçek kullanım

Eğitim/optimizasyon

gpt-oss, 2.1M H100-hours düzeyinde hesaplama kaynağıyla eğitildi
İngilizce odaklı; STEM, kodlama ve genel bilgi metinlerine ağırlık veriyor
Ön eğitim + gözetimli ince ayar (Instruction), RL tabanlı reasoning aşaması gibi güncel teknikler uygulanıyor

Reasoning effort ayarı

System prompt üzerinden reasoning effort (düşük/orta/yüksek) ayarlanarak yanıt uzunluğu ve doğruluk otomatik biçimde düzenlenebiliyor
Basit işler için düşük maliyetle hızlı, karmaşık reasoning gerektiren durumlarda ise daha yüksek düzey seçilebiliyor

MXFP4 kuantizasyonu ile tek GPU desteği

MXFP4 formatı sayesinde 20B model 16GB VRAM’de de çalışabiliyor (güncel GPU şart)
120B ise H100 düzeyinde 80GB bellekle tek GPU üzerinde mümkün; dağıtık işleme gerek kalmadan daha kolay çalıştırılıyor

Benchmark’lar ve pratik kullanılabilirlik

gpt-oss, eğitim odağını reasoning tarafına verdiği için bazı genel bilgi sorularında halüsinasyon eğilimi gösterebiliyor
Kullanılabilirlik açısından mevcut açık modeller arasında üst sıralarda; tool integration ile birleştiğinde pratik değeri daha da artabilir
Gerçek kullanımda doğruluk ile reasoning dengesi önemli; ileride diğer açık modellerle karşılaştırma yapılması gerekiyor

GPT-5 ile karşılaştırma

gpt-oss-120b, benchmark’lara göre OpenAI’nin ticari modeli GPT-5’e yakın performans gösteriyor
Gerçek dünyadaki üstünlük için biraz daha gözlem gerekiyor; ancak açık ağırlıklı en güncel LLM’ler arasında güçlü bir alternatif
Yalnızca benchmark’larla gerçek rekabet gücünü tam açıklamak zor; yine de dış karşılaştırmalar ve araştırmalar için büyük bir fırsat sunuyor

Özet

gpt-oss serisinin ortaya çıkışı, büyük açık ağırlıklı LLM alanında yeni bir ölçüt ortaya koyuyor; güncel LLM’lerin benimsediği yenilikçi mimarilerin pratikte nasıl uygulandığını ayrıntılı biçimde karşılaştırıp analiz ediyor
Qwen3, GPT-5 ve diğer yeni modellerle olan farkları ve eğilimleri görmek mümkün; bu da gerçek uygulama ve araştırmalar için yararlı bir güncel tablo sunuyor

GPT-OSS ile Qwen3 ve GPT-2 sonrası LLM mimarisi gelişiminin ayrıntılı karşılaştırması

Genel bakış ve başlıca yenilikler

GPT-2 → gpt-oss: başlıca mimari değişimler

Dropout’un kaldırılması

RoPE (rotary position embedding) kullanımı

SwiGLU aktivasyon fonksiyonu ve GLU kullanımı

Mixture-of-Experts (MoE) uygulanması

Grouped Query Attention (GQA) kullanımı

Sliding Window Attention kullanımı

RMSNorm kullanımı

gpt-oss ile Qwen3 karşılaştırması

Ölçek/yapı farkları

MoE yapısındaki farklar

Attention bias ve sinks

Lisans ve açıklık kapsamı

Diğer ayrıntılar ve gerçek kullanım

Eğitim/optimizasyon

Reasoning effort ayarı

MXFP4 kuantizasyonu ile tek GPU desteği

Benchmark’lar ve pratik kullanılabilirlik

GPT-5 ile karşılaştırma

Özet

İlgili okumalar

Henüz yorum yok.