27 puan yazan GN⁺ 2025-08-11 | Henüz yorum yok. | WhatsApp'ta paylaş
  • OpenAI, gpt-oss-20b/120b modellerini açık ağırlıklarla yayımlayarak 2019’daki GPT-2’den bu yana ilk kez OpenAI imzalı büyük bir açık ağırlıklı LLM sunmuş oldu
  • gpt-oss modelleri, GPT-2’ye kıyasla Dropout, Absolute Position Embedding, GELU gibi bileşenleri RoPE, SwiGLU, RMSNorm gibi verimli modern tekniklerle değiştirerek gelişti
  • Mixture-of-Experts (modüler uzman yapısı), Sliding Window Attention, MXFP4 kuantizasyonu gibi uygulamalar sayesinde yalnızca performans verimliliği değil, tek GPU üzerinde çalıştırma ortamı da büyük ölçüde iyileşti
  • Qwen3 ile karşılaştırıldığında mimari derinlik/genişlik, uzman sayısı, attention bias, açık kaynak lisansı gibi birçok farklılaştırıcı unsur olduğu görülüyor
  • gpt-oss-20b, güncel donanıma göre hafifletilmiş yapısı ve reasoning effort ayarlama özelliğiyle hem gerçek kullanım hem de araştırma açısından genişletilebilirlik sunuyor

Genel bakış ve başlıca yenilikler

  • OpenAI, gpt-oss-20b/120b modellerini 2019’daki GPT-2’den sonra ilk kez açık ağırlıklarla yayımladı
    • Sıradan kullanıcı GPU’larında (en fazla 16GB RAM) 20B, H100 80GB üzerinde ise 120B çalıştırılabiliyor
    • MXFP4 optimizasyonu sayesinde tek GPU’da çalıştırma mümkün olurken tüketici erişilebilirliği de artıyor

GPT-2 → gpt-oss: başlıca mimari değişimler

Dropout’un kaldırılması

  • GPT-2’de Dropout bulunuyordu; ancak büyük veriyle tek epoch eğitim ortamında bunun aksine performansı düşürdüğü görüldü
  • Son araştırmalar da Dropout uygulanmamasının LLM’lerde downstream görevlerde daha iyi performans verdiğini gösteriyor

RoPE (rotary position embedding) kullanımı

  • Geleneksel mutlak konum gömmesi yerine RoPE (Rotary Position Embedding) ana akım haline geldi
  • RoPE, query/key vektörlerinin açısını konuma göre döndürerek daha esnek ve daha iyi genellenebilir konumsal bilgi sağlıyor

SwiGLU aktivasyon fonksiyonu ve GLU kullanımı

  • GEGLU/SwiGLU gibi GLU yaklaşımlarının benimsenmesiyle, geleneksel 2 katmanlı FFN’e göre daha az parametreyle daha iyi temsil gücü elde ediliyor
  • Swish, hesaplama açısından da GELU’ya kıyasla daha verimli

Mixture-of-Experts (MoE) uygulanması

  • Tek bir FFN yerine çoklu uzman (Expert) ağları kullanılıyor ve her token üretiminde yalnızca bazı uzmanlar etkinleşiyor
  • Model parametre sayısı keskin biçimde artırılırken çıkarım verimliliği (seyreklik) korunuyor, eğitim kapasitesi büyüyor

Grouped Query Attention (GQA) kullanımı

  • Geleneksel Multi-Head Attention’a kıyasla key/value paylaşımı sayesinde bellek ve hesaplama yükü azalıyor
  • Performans kaybı olmadan verimlilik artıyor; büyük ölçekli LLM’lerde standart bir eğilim haline gelmiş durumda

Sliding Window Attention kullanımı

  • Bazı katmanlarda tüm bağlam yerine son 128 token ile sınırlı bir Sliding Window üzerinden yerel attention hesaplanıyor ve bellek kullanımı en aza indiriliyor
  • Performans düşmeden daha hızlı çıkarım ve büyük bağlam desteği sağlanıyor

RMSNorm kullanımı

  • LayerNorm yerine RMSNorm kullanılarak hesaplama verimliliği artırılıyor
  • LayerNorm’un ortalama/varyans hesabı yerine RMS (kök ortalama kare) uygulanıyor, böylece GPU hesaplama yükü azalıyor

gpt-oss ile Qwen3 karşılaştırması

Ölçek/yapı farkları

  • Qwen3 daha derin bir yapıya (48 Transformer blok) sahipken, gpt-oss daha geniş bir yapıya sahip (embedding boyutu ve head sayısı daha yüksek)
  • Derin modeller daha esnek ama eğitimi daha zor; geniş modeller ise çıkarım paralelleştirmesinde avantajlı (Gemma 2 makalesinde, 9B model ölçeğinde geniş taraf az farkla üstün)

MoE yapısındaki farklar

  • gpt-oss-20b: 32 büyük uzman, yalnızca 4’ü etkin
  • Qwen3: çok sayıda küçük uzman, 8’i etkin
  • Güncel eğilim, daha fazla sayıda küçük uzmanın daha etkili olduğu yönünde; ancak gpt-oss büyük ve az sayıda uzman yapısını koruyor (20B ve 120B’de yalnızca uzman ve blok sayısı ayarlanıyor)

Attention bias ve sinks

  • gpt-oss, attention içinde bias birimleri kullanıyor (GPT-2 döneminden sonra nadir görülen bir yaklaşım)
    • Ancak son çalışmalar, bunun key-proj tarafında etkisinin sınırlı olduğunu gösteriyor
  • Attention sink, dizinin başlangıç konumuna her zaman attention verilen özel token kavramı; ancak gpt-oss’te bu, giriş tokenlarında değişiklik yapmadan her head’e öğrenilmiş bias logit biçiminde ekleniyor

Lisans ve açıklık kapsamı

  • Apache 2.0 açık kaynak lisansı sayesinde ticari kullanım ve türev model geliştirme serbest
  • Ancak tam anlamıyla açık kaynak değil (eğitim kodu ve veri seti yayımlanmış değil); bu bir open weight model

Diğer ayrıntılar ve gerçek kullanım

Eğitim/optimizasyon

  • gpt-oss, 2.1M H100-hours düzeyinde hesaplama kaynağıyla eğitildi
  • İngilizce odaklı; STEM, kodlama ve genel bilgi metinlerine ağırlık veriyor
  • Ön eğitim + gözetimli ince ayar (Instruction), RL tabanlı reasoning aşaması gibi güncel teknikler uygulanıyor

Reasoning effort ayarı

  • System prompt üzerinden reasoning effort (düşük/orta/yüksek) ayarlanarak yanıt uzunluğu ve doğruluk otomatik biçimde düzenlenebiliyor
  • Basit işler için düşük maliyetle hızlı, karmaşık reasoning gerektiren durumlarda ise daha yüksek düzey seçilebiliyor

MXFP4 kuantizasyonu ile tek GPU desteği

  • MXFP4 formatı sayesinde 20B model 16GB VRAM’de de çalışabiliyor (güncel GPU şart)
  • 120B ise H100 düzeyinde 80GB bellekle tek GPU üzerinde mümkün; dağıtık işleme gerek kalmadan daha kolay çalıştırılıyor

Benchmark’lar ve pratik kullanılabilirlik

  • gpt-oss, eğitim odağını reasoning tarafına verdiği için bazı genel bilgi sorularında halüsinasyon eğilimi gösterebiliyor
  • Kullanılabilirlik açısından mevcut açık modeller arasında üst sıralarda; tool integration ile birleştiğinde pratik değeri daha da artabilir
  • Gerçek kullanımda doğruluk ile reasoning dengesi önemli; ileride diğer açık modellerle karşılaştırma yapılması gerekiyor

GPT-5 ile karşılaştırma

  • gpt-oss-120b, benchmark’lara göre OpenAI’nin ticari modeli GPT-5’e yakın performans gösteriyor
  • Gerçek dünyadaki üstünlük için biraz daha gözlem gerekiyor; ancak açık ağırlıklı en güncel LLM’ler arasında güçlü bir alternatif
  • Yalnızca benchmark’larla gerçek rekabet gücünü tam açıklamak zor; yine de dış karşılaştırmalar ve araştırmalar için büyük bir fırsat sunuyor

Özet

  • gpt-oss serisinin ortaya çıkışı, büyük açık ağırlıklı LLM alanında yeni bir ölçüt ortaya koyuyor; güncel LLM’lerin benimsediği yenilikçi mimarilerin pratikte nasıl uygulandığını ayrıntılı biçimde karşılaştırıp analiz ediyor
  • Qwen3, GPT-5 ve diğer yeni modellerle olan farkları ve eğilimleri görmek mümkün; bu da gerçek uygulama ve araştırmalar için yararlı bir güncel tablo sunuyor

Henüz yorum yok.

Henüz yorum yok.