- OpenAI, gpt-oss-20b/120b modellerini açık ağırlıklarla yayımlayarak 2019’daki GPT-2’den bu yana ilk kez OpenAI imzalı büyük bir açık ağırlıklı LLM sunmuş oldu
- gpt-oss modelleri, GPT-2’ye kıyasla Dropout, Absolute Position Embedding, GELU gibi bileşenleri RoPE, SwiGLU, RMSNorm gibi verimli modern tekniklerle değiştirerek gelişti
- Mixture-of-Experts (modüler uzman yapısı), Sliding Window Attention, MXFP4 kuantizasyonu gibi uygulamalar sayesinde yalnızca performans verimliliği değil, tek GPU üzerinde çalıştırma ortamı da büyük ölçüde iyileşti
- Qwen3 ile karşılaştırıldığında mimari derinlik/genişlik, uzman sayısı, attention bias, açık kaynak lisansı gibi birçok farklılaştırıcı unsur olduğu görülüyor
- gpt-oss-20b, güncel donanıma göre hafifletilmiş yapısı ve reasoning effort ayarlama özelliğiyle hem gerçek kullanım hem de araştırma açısından genişletilebilirlik sunuyor
Genel bakış ve başlıca yenilikler
- OpenAI, gpt-oss-20b/120b modellerini 2019’daki GPT-2’den sonra ilk kez açık ağırlıklarla yayımladı
- Sıradan kullanıcı GPU’larında (en fazla 16GB RAM) 20B, H100 80GB üzerinde ise 120B çalıştırılabiliyor
- MXFP4 optimizasyonu sayesinde tek GPU’da çalıştırma mümkün olurken tüketici erişilebilirliği de artıyor
GPT-2 → gpt-oss: başlıca mimari değişimler
Dropout’un kaldırılması
- GPT-2’de Dropout bulunuyordu; ancak büyük veriyle tek epoch eğitim ortamında bunun aksine performansı düşürdüğü görüldü
- Son araştırmalar da Dropout uygulanmamasının LLM’lerde downstream görevlerde daha iyi performans verdiğini gösteriyor
RoPE (rotary position embedding) kullanımı
- Geleneksel mutlak konum gömmesi yerine RoPE (Rotary Position Embedding) ana akım haline geldi
- RoPE, query/key vektörlerinin açısını konuma göre döndürerek daha esnek ve daha iyi genellenebilir konumsal bilgi sağlıyor
SwiGLU aktivasyon fonksiyonu ve GLU kullanımı
- GEGLU/SwiGLU gibi GLU yaklaşımlarının benimsenmesiyle, geleneksel 2 katmanlı FFN’e göre daha az parametreyle daha iyi temsil gücü elde ediliyor
- Swish, hesaplama açısından da GELU’ya kıyasla daha verimli
Mixture-of-Experts (MoE) uygulanması
- Tek bir FFN yerine çoklu uzman (Expert) ağları kullanılıyor ve her token üretiminde yalnızca bazı uzmanlar etkinleşiyor
- Model parametre sayısı keskin biçimde artırılırken çıkarım verimliliği (seyreklik) korunuyor, eğitim kapasitesi büyüyor
Grouped Query Attention (GQA) kullanımı
- Geleneksel Multi-Head Attention’a kıyasla key/value paylaşımı sayesinde bellek ve hesaplama yükü azalıyor
- Performans kaybı olmadan verimlilik artıyor; büyük ölçekli LLM’lerde standart bir eğilim haline gelmiş durumda
Sliding Window Attention kullanımı
- Bazı katmanlarda tüm bağlam yerine son 128 token ile sınırlı bir Sliding Window üzerinden yerel attention hesaplanıyor ve bellek kullanımı en aza indiriliyor
- Performans düşmeden daha hızlı çıkarım ve büyük bağlam desteği sağlanıyor
RMSNorm kullanımı
- LayerNorm yerine RMSNorm kullanılarak hesaplama verimliliği artırılıyor
- LayerNorm’un ortalama/varyans hesabı yerine RMS (kök ortalama kare) uygulanıyor, böylece GPU hesaplama yükü azalıyor
gpt-oss ile Qwen3 karşılaştırması
Ölçek/yapı farkları
- Qwen3 daha derin bir yapıya (48 Transformer blok) sahipken, gpt-oss daha geniş bir yapıya sahip (embedding boyutu ve head sayısı daha yüksek)
- Derin modeller daha esnek ama eğitimi daha zor; geniş modeller ise çıkarım paralelleştirmesinde avantajlı (Gemma 2 makalesinde, 9B model ölçeğinde geniş taraf az farkla üstün)
MoE yapısındaki farklar
- gpt-oss-20b: 32 büyük uzman, yalnızca 4’ü etkin
- Qwen3: çok sayıda küçük uzman, 8’i etkin
- Güncel eğilim, daha fazla sayıda küçük uzmanın daha etkili olduğu yönünde; ancak gpt-oss büyük ve az sayıda uzman yapısını koruyor (20B ve 120B’de yalnızca uzman ve blok sayısı ayarlanıyor)
Attention bias ve sinks
- gpt-oss, attention içinde bias birimleri kullanıyor (GPT-2 döneminden sonra nadir görülen bir yaklaşım)
- Ancak son çalışmalar, bunun key-proj tarafında etkisinin sınırlı olduğunu gösteriyor
- Attention sink, dizinin başlangıç konumuna her zaman attention verilen özel token kavramı; ancak gpt-oss’te bu, giriş tokenlarında değişiklik yapmadan her head’e öğrenilmiş bias logit biçiminde ekleniyor
Lisans ve açıklık kapsamı
- Apache 2.0 açık kaynak lisansı sayesinde ticari kullanım ve türev model geliştirme serbest
- Ancak tam anlamıyla açık kaynak değil (eğitim kodu ve veri seti yayımlanmış değil); bu bir open weight model
Diğer ayrıntılar ve gerçek kullanım
Eğitim/optimizasyon
- gpt-oss, 2.1M H100-hours düzeyinde hesaplama kaynağıyla eğitildi
- İngilizce odaklı; STEM, kodlama ve genel bilgi metinlerine ağırlık veriyor
- Ön eğitim + gözetimli ince ayar (Instruction), RL tabanlı reasoning aşaması gibi güncel teknikler uygulanıyor
Reasoning effort ayarı
- System prompt üzerinden reasoning effort (düşük/orta/yüksek) ayarlanarak yanıt uzunluğu ve doğruluk otomatik biçimde düzenlenebiliyor
- Basit işler için düşük maliyetle hızlı, karmaşık reasoning gerektiren durumlarda ise daha yüksek düzey seçilebiliyor
MXFP4 kuantizasyonu ile tek GPU desteği
- MXFP4 formatı sayesinde 20B model 16GB VRAM’de de çalışabiliyor (güncel GPU şart)
- 120B ise H100 düzeyinde 80GB bellekle tek GPU üzerinde mümkün; dağıtık işleme gerek kalmadan daha kolay çalıştırılıyor
Benchmark’lar ve pratik kullanılabilirlik
- gpt-oss, eğitim odağını reasoning tarafına verdiği için bazı genel bilgi sorularında halüsinasyon eğilimi gösterebiliyor
- Kullanılabilirlik açısından mevcut açık modeller arasında üst sıralarda; tool integration ile birleştiğinde pratik değeri daha da artabilir
- Gerçek kullanımda doğruluk ile reasoning dengesi önemli; ileride diğer açık modellerle karşılaştırma yapılması gerekiyor
GPT-5 ile karşılaştırma
- gpt-oss-120b, benchmark’lara göre OpenAI’nin ticari modeli GPT-5’e yakın performans gösteriyor
- Gerçek dünyadaki üstünlük için biraz daha gözlem gerekiyor; ancak açık ağırlıklı en güncel LLM’ler arasında güçlü bir alternatif
- Yalnızca benchmark’larla gerçek rekabet gücünü tam açıklamak zor; yine de dış karşılaştırmalar ve araştırmalar için büyük bir fırsat sunuyor
Özet
- gpt-oss serisinin ortaya çıkışı, büyük açık ağırlıklı LLM alanında yeni bir ölçüt ortaya koyuyor; güncel LLM’lerin benimsediği yenilikçi mimarilerin pratikte nasıl uygulandığını ayrıntılı biçimde karşılaştırıp analiz ediyor
- Qwen3, GPT-5 ve diğer yeni modellerle olan farkları ve eğilimleri görmek mümkün; bu da gerçek uygulama ve araştırmalar için yararlı bir güncel tablo sunuyor
Henüz yorum yok.