27 puan yazan GN⁺ 2025-08-11 | 1 yorum | WhatsApp'ta paylaş
  • OpenAI, gpt-oss-20b/120b modellerini açık ağırlıklarla yayımlayarak 2019’daki GPT-2’den bu yana ilk kez OpenAI imzalı büyük bir açık ağırlıklı LLM sunmuş oldu
  • gpt-oss modelleri, GPT-2’ye kıyasla Dropout, Absolute Position Embedding, GELU gibi bileşenleri RoPE, SwiGLU, RMSNorm gibi verimli modern tekniklerle değiştirerek gelişti
  • Mixture-of-Experts (modüler uzman yapısı), Sliding Window Attention, MXFP4 kuantizasyonu gibi uygulamalar sayesinde yalnızca performans verimliliği değil, tek GPU üzerinde çalıştırma ortamı da büyük ölçüde iyileşti
  • Qwen3 ile karşılaştırıldığında mimari derinlik/genişlik, uzman sayısı, attention bias, açık kaynak lisansı gibi birçok farklılaştırıcı unsur olduğu görülüyor
  • gpt-oss-20b, güncel donanıma göre hafifletilmiş yapısı ve reasoning effort ayarlama özelliğiyle hem gerçek kullanım hem de araştırma açısından genişletilebilirlik sunuyor

Genel bakış ve başlıca yenilikler

  • OpenAI, gpt-oss-20b/120b modellerini 2019’daki GPT-2’den sonra ilk kez açık ağırlıklarla yayımladı
    • Sıradan kullanıcı GPU’larında (en fazla 16GB RAM) 20B, H100 80GB üzerinde ise 120B çalıştırılabiliyor
    • MXFP4 optimizasyonu sayesinde tek GPU’da çalıştırma mümkün olurken tüketici erişilebilirliği de artıyor

GPT-2 → gpt-oss: başlıca mimari değişimler

Dropout’un kaldırılması

  • GPT-2’de Dropout bulunuyordu; ancak büyük veriyle tek epoch eğitim ortamında bunun aksine performansı düşürdüğü görüldü
  • Son araştırmalar da Dropout uygulanmamasının LLM’lerde downstream görevlerde daha iyi performans verdiğini gösteriyor

RoPE (rotary position embedding) kullanımı

  • Geleneksel mutlak konum gömmesi yerine RoPE (Rotary Position Embedding) ana akım haline geldi
  • RoPE, query/key vektörlerinin açısını konuma göre döndürerek daha esnek ve daha iyi genellenebilir konumsal bilgi sağlıyor

SwiGLU aktivasyon fonksiyonu ve GLU kullanımı

  • GEGLU/SwiGLU gibi GLU yaklaşımlarının benimsenmesiyle, geleneksel 2 katmanlı FFN’e göre daha az parametreyle daha iyi temsil gücü elde ediliyor
  • Swish, hesaplama açısından da GELU’ya kıyasla daha verimli

Mixture-of-Experts (MoE) uygulanması

  • Tek bir FFN yerine çoklu uzman (Expert) ağları kullanılıyor ve her token üretiminde yalnızca bazı uzmanlar etkinleşiyor
  • Model parametre sayısı keskin biçimde artırılırken çıkarım verimliliği (seyreklik) korunuyor, eğitim kapasitesi büyüyor

Grouped Query Attention (GQA) kullanımı

  • Geleneksel Multi-Head Attention’a kıyasla key/value paylaşımı sayesinde bellek ve hesaplama yükü azalıyor
  • Performans kaybı olmadan verimlilik artıyor; büyük ölçekli LLM’lerde standart bir eğilim haline gelmiş durumda

Sliding Window Attention kullanımı

  • Bazı katmanlarda tüm bağlam yerine son 128 token ile sınırlı bir Sliding Window üzerinden yerel attention hesaplanıyor ve bellek kullanımı en aza indiriliyor
  • Performans düşmeden daha hızlı çıkarım ve büyük bağlam desteği sağlanıyor

RMSNorm kullanımı

  • LayerNorm yerine RMSNorm kullanılarak hesaplama verimliliği artırılıyor
  • LayerNorm’un ortalama/varyans hesabı yerine RMS (kök ortalama kare) uygulanıyor, böylece GPU hesaplama yükü azalıyor

gpt-oss ile Qwen3 karşılaştırması

Ölçek/yapı farkları

  • Qwen3 daha derin bir yapıya (48 Transformer blok) sahipken, gpt-oss daha geniş bir yapıya sahip (embedding boyutu ve head sayısı daha yüksek)
  • Derin modeller daha esnek ama eğitimi daha zor; geniş modeller ise çıkarım paralelleştirmesinde avantajlı (Gemma 2 makalesinde, 9B model ölçeğinde geniş taraf az farkla üstün)

MoE yapısındaki farklar

  • gpt-oss-20b: 32 büyük uzman, yalnızca 4’ü etkin
  • Qwen3: çok sayıda küçük uzman, 8’i etkin
  • Güncel eğilim, daha fazla sayıda küçük uzmanın daha etkili olduğu yönünde; ancak gpt-oss büyük ve az sayıda uzman yapısını koruyor (20B ve 120B’de yalnızca uzman ve blok sayısı ayarlanıyor)

Attention bias ve sinks

  • gpt-oss, attention içinde bias birimleri kullanıyor (GPT-2 döneminden sonra nadir görülen bir yaklaşım)
    • Ancak son çalışmalar, bunun key-proj tarafında etkisinin sınırlı olduğunu gösteriyor
  • Attention sink, dizinin başlangıç konumuna her zaman attention verilen özel token kavramı; ancak gpt-oss’te bu, giriş tokenlarında değişiklik yapmadan her head’e öğrenilmiş bias logit biçiminde ekleniyor

Lisans ve açıklık kapsamı

  • Apache 2.0 açık kaynak lisansı sayesinde ticari kullanım ve türev model geliştirme serbest
  • Ancak tam anlamıyla açık kaynak değil (eğitim kodu ve veri seti yayımlanmış değil); bu bir open weight model

Diğer ayrıntılar ve gerçek kullanım

Eğitim/optimizasyon

  • gpt-oss, 2.1M H100-hours düzeyinde hesaplama kaynağıyla eğitildi
  • İngilizce odaklı; STEM, kodlama ve genel bilgi metinlerine ağırlık veriyor
  • Ön eğitim + gözetimli ince ayar (Instruction), RL tabanlı reasoning aşaması gibi güncel teknikler uygulanıyor

Reasoning effort ayarı

  • System prompt üzerinden reasoning effort (düşük/orta/yüksek) ayarlanarak yanıt uzunluğu ve doğruluk otomatik biçimde düzenlenebiliyor
  • Basit işler için düşük maliyetle hızlı, karmaşık reasoning gerektiren durumlarda ise daha yüksek düzey seçilebiliyor

MXFP4 kuantizasyonu ile tek GPU desteği

  • MXFP4 formatı sayesinde 20B model 16GB VRAM’de de çalışabiliyor (güncel GPU şart)
  • 120B ise H100 düzeyinde 80GB bellekle tek GPU üzerinde mümkün; dağıtık işleme gerek kalmadan daha kolay çalıştırılıyor

Benchmark’lar ve pratik kullanılabilirlik

  • gpt-oss, eğitim odağını reasoning tarafına verdiği için bazı genel bilgi sorularında halüsinasyon eğilimi gösterebiliyor
  • Kullanılabilirlik açısından mevcut açık modeller arasında üst sıralarda; tool integration ile birleştiğinde pratik değeri daha da artabilir
  • Gerçek kullanımda doğruluk ile reasoning dengesi önemli; ileride diğer açık modellerle karşılaştırma yapılması gerekiyor

GPT-5 ile karşılaştırma

  • gpt-oss-120b, benchmark’lara göre OpenAI’nin ticari modeli GPT-5’e yakın performans gösteriyor
  • Gerçek dünyadaki üstünlük için biraz daha gözlem gerekiyor; ancak açık ağırlıklı en güncel LLM’ler arasında güçlü bir alternatif
  • Yalnızca benchmark’larla gerçek rekabet gücünü tam açıklamak zor; yine de dış karşılaştırmalar ve araştırmalar için büyük bir fırsat sunuyor

Özet

  • gpt-oss serisinin ortaya çıkışı, büyük açık ağırlıklı LLM alanında yeni bir ölçüt ortaya koyuyor; güncel LLM’lerin benimsediği yenilikçi mimarilerin pratikte nasıl uygulandığını ayrıntılı biçimde karşılaştırıp analiz ediyor
  • Qwen3, GPT-5 ve diğer yeni modellerle olan farkları ve eğilimleri görmek mümkün; bu da gerçek uygulama ve araştırmalar için yararlı bir güncel tablo sunuyor

1 yorum

 
GN⁺ 2025-08-11
Hacker News yorumu
  • Qwen3'ün yerel testlerde çok daha üstün olduğunu doğruladım. 32B parametreli sürümde prompt'a neredeyse kusursuz uyuyor ve sonuçlar doğal çıkıyor. Buna karşılık simplebench gpt-oss(120B), mantık bulmacalarında iyi performans göstermiyor. Bu farkın eğitim yöntemi, model boyutları ve az sayıda büyük uzman yerine çok sayıda küçük uzman kullanımı gibi etkenlerden kaynaklandığını düşünüyorum

    • Qwen3 32B, tüm parametreleri her zaman kullanan dense bir model. GPT OSS 20B ise yalnızca bir kısmını kullanan sparse bir MoE(Expert of Experts) modeli ve bir seferde yaklaşık 3.6B kullanıyor. Bu yüzden dense 20B modelden daha hızlı, 3.6B modelden ise daha akıllı. Adil bir karşılaştırma dense 8B modelle yapılmalı; Qwen Coder 30B A3B gibi modeller de iyi bir kıyas noktası
    • Bence bu farklarda model mimarisinden çok veri ve eğitim pipeline'ının etkisi var. gpt-oss'un yalnızca Phi tarzı sentetik veri setleri kullandığı ve ağırlıklı olarak benchmark oyunlarına odaklandığı söyleniyor; bunun kanıtı da oldukça ikna edici görünüyor
    • MoE için beklenen performans formülü sqrt(aktif head sayısı * toplam parametre sayısı). Örneğin sqrt(120*5) ~= 24; yani GPT-OSS 120B aslında 24B düzeyinde performans ve çok daha küçük bir model düzeyinde hız sunuyor
    • qwen3 yavaş tarafta kalıyor. Bizzat kullandım; çalışıyor ama yavaş ve yetenekleri eksikmiş gibi hissettiriyor
  • Sebastian Raschk'nin blog yazıları hazine değerinde bilgi içeriyor. get-oss ve qwen3 modellerini Ollama ve LM Studio ile yerelde kullanıyorum, büyük modeller içinse ticari API'ler kullanıyorum. get-oss, prompt'a bol miktarda bağlam bilgisi verdiğinizde iyi sonuç veriyor; qwen3 ise düpedüz harika. 3 yıl öncesine kadar sinir ağları, GAN, RNN, LSTM gibi şeyleri gerçekten implemente edecek kadar iyi anlıyordum ama bugünün LLM'leri doğrudan geliştirebilecek kadar kolay değil; buna üzülüyorum. Sebastian Raschk'nin kitabına da bakıyorum ama muhtemelen sonuna kadar bitiremeyeceğim

    • Sebastian Raschk, inanılmaz hızlı değişen bu alanda güncel bilgileri hep kısa ve öz toparladığı için gerçekten çok yardımcı oluyor
  • Yerelde 3090 GPU üzerinde qwen3 coder instruct 30b-a3b exl3 q6 modelini çalıştırıp örnek sayfalar oluşturdum; sunucuyu başlatma, çalışan sunucuyu algılama, bunu doğrudan kapatma(izin isteyerek), sonra yeniden başlatıp IP'yi otomatik bulup tarayıcıda açma sürecini denedim. Artık sadece basit bir demo değil; junior ya da stajyerler için de fiilen faydalı olacak seviyede yardımcı oluyor

  • Benim deneyimimde qwen3-coder açık ara daha iyi. gpt-oss:20b'yi de kurdum ama kod özeti istediğimde qwen3 birkaç saniye içinde sonuç veriyor, gpt-oss ise 5 dakikadan uzun süre hiçbir şey yapmadığı için durduruyorum. O yüzden sadece qwen3 kullanıyorum. İstediğim cevabı alamazsam arama motoru ya da Perplexity kullanıyorum. 10GB 3080, Ryzen 3600x, 32GB RAM kullanıyorum. Qwen3-coder şimdiye kadar kullandıklarımın en iyisi

    • Qwen3 coder 480B, Sonnet 4 ile boy ölçüşecek kadar iyi. Bu sayede Çin modellerinin yakında ABD merkezli modelleri geçebileceğini ilk kez gerçekten hissettim(özellikle kodlama alanında)
    • Sorun, gpt-oss 20B'nin 10GB'a sığmamasından kaynaklanıyor olabilir
    • Ben de gpt-oss-20b'yi hafif şekilde kullanıyorum; kısa prompt'larda(tek cümle) bazen sonsuz tekrara giriyor. llama.cpp ile çalıştırırken tekrar cezası değerini düşük ayarlayınca bu sorun ortadan kalktı(gün içinde çoğunlukla diff analizi için birkaç kez kullanıyorum). Tabii belki de ben şanslıyımdır
    • Bunu agentic tarzda mı kullanıyorsunuz(çok turlu soru-cevap otomasyonu), yoksa kopyalayıp “bana şu kodu yaz” türü tek giriş/tek çıkış şeklinde mi? En yeni açık modellerin agentic kodlamada ticari modelleri ne kadar yakaladığını merak ediyorum
  • Son zamanlarda open-weight LLM'lerin mimarilerinin bu kadar benzer olması ve yeniliğin yalnızca veri ya da RL tarafında yaşanması ilginç. Geçmişte büyük ML organizasyonlarında mimari ince ayarı en önemli şeydi ama gerçeklik farklı görünüyor

    • LLM ölçeğinde hyperparameter tuning'in zaten mümkün olmadığını düşünüyorum. Maliyet o kadar yüksek ki ancak birkaç mimariyi temel düzeyde test edip birini seçiyorlar, sonra veri ve RL ile optimize ediyorlar
    • İyi nokta. LLM'ler sayesinde artık yeterli kaynağı olan herkes bu işe girişebiliyor. Mimari epey dayanıklı; yeterli compute ve veri verdiğiniz sürece scaling law'u ihlal etseniz bile iyi bir model çıkarabiliyorsunuz(Llama 3'ün geçmişte gösterdiği gibi)
  • Qwen3 4B modelini yerelde gerçekten çok iyi kullanıyorum. Çevrimiçi modelleri neredeyse hiç kullanmıyorum ve web araması da çok daha hedefli oluyor. Tamamen güvenmiyorum ama genel olarak iyi. Bu açık kaynak modellerin yerel bilgi otomasyonunun kurallarını değiştireceğine eminim

    • Qwen daha iyi arama parametrelerini mi öneriyor, yoksa gerçekten web'de arama da yapıyor mu, bunu merak ediyorum
  • LM Arena'da saf Transformer tabanlı olmayan modeller içinde en iyi performans gösteren model Jamba(Transformer'lar ve state space modellerinin hibrit yapısı, 96. sıra). Tencent'in hunyuan-turbos'u da yine hibrit ve 22. sırada. arxiv makalesine bakın

  • LLM'ler genelde çok büyük veri setlerini yalnızca bir kez(tek epoch) eğitiyor. Bu, çoklu tekrar eğitimini(yüzlerce epoch) varsayan Dropout yaklaşımından farklı bir ortam

    • Bu zaten iyi bilinen bir gerçek. GPT-3 makalesindeki Table 2.2'ye bakılabilir
  • Büyük araştırma laboratuvarlarının yayımladığı modellerin ek eğitimle ne kadar daha ileri gidebileceğini merak ediyorum. Örneğin GPT-OSS 2,1 milyon saat eğitildiyse, bunu iki katına çıkarmak ne kadar iyileşme sağlar, bilmek isterim

    • GPT-4.5 aslında daha büyük bir GPT-5 olarak planlanmış ve daha fazla veriyle eğitilmiş olabilir. Ama çok pahalı olduğu için geniş çaplı ticari kullanıma açılamadı ve RL uygulanmış sürümünü de görememiş olmamız üzücü
    • GPT-5'te kullanılan RL tabanlı eğitimdeki son teknoloji yöntemlerin de sonsuza kadar ölçeklenemediği şimdiden ortaya çıktı
  • Siteye girdiğimde "Bağlantınız güvenli değil" hata mesajı alıyorum. "magazine.sebastianraschka.com web sitesi HSTS kullandığı için şu anda ziyaret edemezsiniz" diyor. En güncel Chrome sürümü ve Ubuntu kullanıyorum