7 puan yazan GN⁺ 2025-08-06 | 1 yorum | WhatsApp'ta paylaş
  • OpenAI, ilk kez büyük ölçekli açık ağırlıklı dil modeli (gpt-oss) yayımladı
  • gpt-oss-120b ve gpt-oss-20b olmak üzere iki model sunuluyor; güçlü performansları ve çok farklı cihazlarda çalışabilmeleri öne çıkarılıyor
  • Apache 2.0 lisansı ile ticari kullanım, özelleştirme ve serbest dağıtım mümkün
  • Güvenlik için eğitim, dış uzman incelemeleri ve kapsamlı güvenlik test süreçleri getirildi
  • Hugging Face, GitHub vb. platformlarda modelleri doğrudan indirip kullanmak mümkün; ince ayar, dağıtım ve özelleştirme ile ilgili kaynaklar ve Playground da sağlanıyor

OpenAI'nin Açık Modelleri

  • OpenAI, her kullanım senaryosuna göre özelleştirilebilen ve her yerde çalıştırılabilen büyük ölçekli açık ağırlıklı çıkarım modeli (gpt-oss) açıkladı
  • Hugging Face ve GitHub üzerinden model dosyalarını doğrudan indirip deneyebilirsiniz; web tabanlı Playground ile bir demo da görüntülenebiliyor
  • Apache 2.0 lisansıyla dağıtılıyor; copyleft veya telif hakkı ihlali kaygısı olmaksızın ticari kullanım, özelleştirme, dağıtım serbest
  • gpt-oss-120b: Veri merkezleri, yüksek performanslı masaüstü ve dizüstü bilgisayarlar için büyük model
  • gpt-oss-20b: Çoğu masaüstü ve dizüstü bilgisayarda çalışabilen orta ölçekli model

Öne çıkan özellikler

  • Ajan işi optimizasyonu

    • Araç kullanımı ve yönergeleri takip güçlüdür; web arama, Python kodu çalıştırma gibi ajan odaklı kullanım senaryoları için uygundur
  • Özelleştirme ve ince ayar

    • reasoning_effort(çıkarım zorluğu) gibi hiperparametreler ayarlanabilir
    • Tam parametre ince ayarı ile gelişmiş özelleştirme desteklenir
    Reklam
  • Düşünce akışı (Chain-of-Thought) görünürlüğü

    • modelin çıkarım sürecinin tüm adımlarını görebildiğiniz için hata ayıklama ve güvenilirlik ölçümü kolaylaşır
  • Playground sağlanması

    • geliştiriciler ve araştırmacılar için tarayıcıda model performansını deneyimleyebileceği bir Playground desteği

Model performansı

  • gpt-oss-120b ve gpt-oss-20b, OpenAI'nin ticari modelleri (OpenAI o3, o4-mini) ile birçok ana benchmarkta performansları doğrudan karşılaştırılarak sunuldu
  • Her modelin çıkarım, bilgi, yarışma matematiği gibi çeşitli alanlardaki puanları ayrıntılı olarak paylaşıldı
  • Bazı kalemlerde OpenAI ticari modellerine yakın sonuçlar veya bazı testlerde daha iyi sonuçlar görülüyor

Başlıca benchmark performans detayı

  • Çıkarım ve bilgi

    • MMLU(Massive Multitask Language Understanding)
      • gpt-oss-120b: 90
      • gpt-oss-20b: 85.3
      • OpenAI o3: 93.4
      • OpenAI o4-mini: 93
      • → Büyük ticari modellerin biraz altında kalsa da, açık model ölçütlerinde çok güçlü bir genel çıkarım performansı gösteriyor
      Reklam
    • GPQA Diamond
      • gpt-oss-120b: 80.9
      • gpt-oss-20b: 74.2
      • OpenAI o3: 77
      • OpenAI o4-mini: 81.4
      • → Açık bir model olmasına rağmen, ticari modellerle neredeyse eşdeğer gelişmiş bilgi tabanlı soru-cevap performansı yakalıyor
    • Humanity’s Last Exam
      • gpt-oss-120b: 19
      • gpt-oss-20b: 17.3
      • OpenAI o3: 24.9
      • OpenAI o4-mini: 17.7
      • → Zorlu bir değerlendirmede ticari modellere göre daha düşük olsa da, 20b ile o4-mini'nin sonuçları neredeyse benzer
  • Rekabet matematiği (AIME)

    • AIME 2024
      • gpt-oss-120b: 96.6
      • gpt-oss-20b: 96
      • OpenAI o3: 91.6
      • OpenAI o4-mini: 93.4
      • 2024 sürümüne göre tersine, ticari modellerden daha yüksek puan alınmış
    • AIME 2025
      • gpt-oss-120b: 97.9
      • gpt-oss-20b: 98.7
      • OpenAI o3: 88.9
      • OpenAI o4-mini: 92.7
      • Matematikte OpenAI'nin ticari modellerini geçen sonuçlar da gözleniyor
      Reklam
  • Genel değerlendirme

    • gpt-oss serisi özellikle matematik, mantık ve bilgi alanlarında güçlü performans sergiliyor
    • ticari modellerle farkı büyük değil; gerçek dünya servislerinde veya mühendislik uygulamalarında kullanılma olasılığı yüksek
    • Büyük bir açık model olarak Ar-Ge, ajanlar ve özelleştirme ortamlarında yeterince rekabetçi bir seçenek

Güvenlik ve test

  • Tüm modellerde sıkı güvenlik eğitimi ve değerlendirme uygulanıyor
  • OpenAI'nin hazırlık çerçevesine göre, kötü niyetli ince ayarlara karşı direnç ayrıca test ediliyor
  • Dış güvenlik uzmanlarıyla iş birliği yapılarak, açık modeller için bir güvenlik standardı oluşturuldu

1 yorum

 
GN⁺ 2025-08-06
Hacker News yorumları
  • En kritik noktayı tam yakalayamadığımı düşünüyorum
    gpt-oss:20b, MMLU sıralamasında ilk 10 modelden biri ve doğrudan Gemini-2.5-Pro'nin hemen arkasında
    Geçen yıl çıkan MacBook Air M3'te doğrudan çalıştırdım
    Laptopta ve Pixel 9 Pro telefonda farklı yerel modelleri deniyorum; bu seviyeye yaklaşırız sanıyordum ama bugün zaten oradayız
    En yeni modeli laptopta neredeyse elektrik faturası gibi (neredeyse ücretsiz) bir maliyetle koşturabiliyoruz
    Aylık 200$ abonelik ücreti gibi bir maliyetin de ortadan kalkması şaşırtıcı
    Gerçekten inanılmaz

    • 20b modelini doğrudan test ettim ama sadece etiketleri değiştirerek yapılan bir “nehri geçme” testini bile çözemedi
      SOTA'dan uzak ve QwQ-32b gibi bazı yerel modellerden bile geri kaldı

    • Yerel yapay zekâyı en çok kimlerin kullanacağını sürekli düşünüyorum
      Donanımı olan ama ücretli modele geçmek istemeyen öğrenciler mi?
      Ya da fiyat hassasiyeti yüksek olup ücretsiz kodlama isteyen geliştiriciler mi?
      Bana göre yerel modeller hem görüntüden veri çıkaramıyor hem de bol bol saçmalıyor (Qwen 2.5 VI örneğinde)
      Yerel/klein modellerin kalitesi ile cihaz performansının gelişmesini bekliyorum
      Açıkçası “yapabiliyoruz” diye bir merakla kullanıyorum
      Birkaç Mac Studio'yu birleştirip iyi bir GPU alarak bunu yapmanın ne kadar acil bir gerekçe olduğunu merak ediyorum
      exo gibi dağıtık hesaplama araçlarının fikri güzel ama gerçekten bu kadarını gerektiren acil kullanım durumu ne kadar var, merak ediyorum

    • Jevons paradoksunu (kaynaklar kıtlaştıkça daha çok kullanılmaları) kabul ediyorum; eninde sonunda bir “buzdolabı ajanı”nın kendini bilinçliymiş gibi simüle edip kaynakları yeniden tüketmeye kadar bu kullanımın patlayacağını hissediyorum

    • En yeni açık ağırlık modelleri konusunda ne kadar derin bilgiye sahibiz, merak ediyorum
      Birkaç saat denedikten sonra Qwen3-30B-A3B'ye kıyasla oldukça geride kaldım
      Özellikle dünya bilgisi tarafında ciddi eksiklik var

    • Aslında 'kaynakların hepsini tüketmek' dediğimiz şey inference (çıkarım) değil, training (eğitim)

  • Model kartlarıyla ilgilenenler için paylaşıyorum PDF bağlantısı
    Tanıtılan model mimarisi Deepseek, Qwen, GLM, Kimi gibi önde gelen açık ağırlık modelleriyle karşılaştırılmış
    Teknik olarak bakınca "öyle bir şey" dedirten bir his var

  • Her iki model de genel Grouped-Query Attention yapısını (64 query head, 8 KV head) kullanıyor
    GPT-3 zamanındaki eski bir optimizasyon olan banded-window sparsity (128 token) ile dense attention desenini çapraz olarak uyguluyorlar
    RoPE + YaRN kombinasyonuyla 131K bağlam penceresi kullanılmış
    Deepseek’in Multi-head Latent Attention veya diğer GQA geliştirmeleri uygulanmamış

  • Her iki model de MoE transformer
    120B (tam 116.8B, aktif 5.1B) model, 128 uzmanı top-4 routing ile çalıştırıyor
    Gated SwiGLU aktivasyonuna özel bir vurgu var, fakat Deepseek’in shared/routed expert mimarisi, Qwen’in yük dengeleme stratejisi gibi noktalar yok

  • En dikkat çekici kısım kuantizasyon yaklaşımı
    Parametrelerin %90'ından fazlası 4.25 bit/parametre (MXFP4 formatı) ile kuantize edilerek 120B model tek bir 80GB GPU'ya sığdırılmış
    Yine de Unsloth zaten 1.58-bit kuantizasyonu başarıyla yapmış
    Genel olarak ajan davranışı ve çıkarım için eğitim çok iyi ama teknik açıdan bakınca ilerleme “içerde saklı” gibi duruyor

    • Burada gizli kaynağın büyük olasılıkla distillation olduğunu tahmin ediyorum
      İnternet verisi yerine o3 gibi SOTA modellerin prompt çıktılarını kullanıp yüksek kaliteli sentetik veri setiyle ön eğitim yapıldığında, küçük modellerin performansı maksimuma çıkabiliyor
      RL'nin küçük modele sonradan uygulanmasından çok daha verimli (küçük modellerin baz düzeyi düşük olduğundan RL verimsiz kalıyor)

    • OpenAI'yi, attention yapısının dışındaki alanlarda gerçek teknik ilerleme yaptığı şeklinde de okuyabiliriz
      Yapıda “sizin bir sır yok, mid/post training yapmayı beceremediniz” dedirtecek bir hissi var, veya öyle yapmak istiyorlar gibi
      Model oldukça yüksek sparsity'ye sahip: 32:1

    • MXFP4 yayınını bir tür hediye gibi görüyorum
      Büyük ölçekli maliyet optimizasyonunun ürünü olduğu için OSS tarafında avantajlı
      Unsloth'un 1.58-bit quant'u da harika ama full quant karşısında kayıp belirgin; çoğu LLM kullanımında doğruluk önceliklidir
      Üretimde frontier modeli reduced quant ile koşturan şirket sayısı çok az
      OpenAI bunun prod'da uygulanması ilginç bir hamle olur

    • Benzer bir analiz github deposunda da mümkün

    • attention sink (özel token'lara odaklanan bir mekanizma) de uygulanmış
      Ancak ayrı bir token olarak değil, attention softmax için ek bir eğitim logiti (logit) ile uygulanmış

  • İlk izlenim özeti, birkaç saat harcayarak bıraktım detaylı inceleme bağlantısı
    TLDR: OpenAI, açık ağırlıklar arasındaki en iyi model unvanını Çinli AI lablardan geri almış gibi görünüyor
    Bağımsız benchmark sonuçları nasıl çıkacak merakla bekleniyor
    20B model Mac notebook'ta 15GB'in altında RAM ile çalışıyor

    • streamlit dashboard'u MACD, RSI, MA(200) ile yaptım.
      qwen3-coder-30b 4bit mlx son verilere kadar çok iyi ilerledi ve kusursuz çalışan bir dashboard üretti
      gpt-oss-20b mxfp4'te datetime import eksikti; düzeltsem bile başlangıç tarihi 2020 Ağustos'ta durdu ve veri yoktu
      Tarihi ayarladıktan sonra güncelleme fonksiyonunda hata alındı

    • Macbook'ta modeli kullanırken bağlam penceresini çok kısa tutmak gerektiği için pratiklik düşük kaldı; bu durumu nasıl çözdüklerini merak ediyorum

    • Tool calling özelliğinin ne kadar iyi çalıştığını merak ediyorum
      Birkaç saat çalıştırdım ama iyi gitmedi
      Yine de beklenti veren bir model

    • 20B modelinin 15GB RAM kullanmaması nedeniyle ben de çok yakında doğrudan test edeceğim
      TPS (saniyedeki token üretimi) ve işlemci bilgisi merak ediyorum

  • o3 seviyesine yakın bir modeli 24GB Mac Mini'de koşturmanın dönemi geldi
    Geçtiğimiz günlerde böyle yeni modelleri yerelde veya mobilde çalıştırmak 5 yıl sonraki bir iş gibi görünüyordu; şimdi bir sonraki telefon jenerasyonunda mümkün olur gibi
    Donanım kısıtı çok olsa da Qwen gibi modeller ciddi performans gösteriyor
    İleride yeni açık kaynak modellerin nasıl kıyaslanacağını gösteren benchmark sonuçlarını merakla bekliyorum

    • Llama'nın açıldığı zamanki güvenlik tartışması aklımda
      Artık 96GB (V)RAM'li bir MacBook'ta 120B parametreli frontier modeli çalıştırabiliyoruz
      MLX quant gelirse GLM-4.5-air ile karşılaştırmayı sabırsızlıkla bekliyorum

    • Dürüst olayım, bu modelden çok umut ettim ama localllama'daki değerlendirmede
      120B modeli kodlama açısından qwen 3 coder, glm45 air ve grok 3'ün gerisine düşmüş
      reddit tartışması

    • Mac Mini'de (kuantize) orta boy bir modeli gerçekten koşturunca yanıt hızı 5 token/s mi, yoksa gerçekten kullanılabilir mi, merak ediyorum

    • Şu an yerel modelin web taraması yapmasını sağlayacak en basit yol ne, merak ediyorum

  • Uzun vadede açık modellerin kazanacağını düşünüyorum
    Anthropic da OSS modelle araştırma yapıyor; Çin açık modelleri hızlıca tekrar tekrar geliştiriyor
    ABD cephesi de N-1 (bir jenerasyon eski) modellerin 1-3 jenerasyon boyunca açık ağırlık olarak açılacağını öngörüyorum
    En yeni jenerasyon modelleri OSS olarak açmak çok maliyetli
    Devlet desteği veya Stargate'in enerji inovasyonu olmadan sınır var
    N-1 modellerinin değer kaybı çok hızlı olduğundan, OSS olarak yayınlayıp uzmanlaşmış uygulama örneklerini emerek toplamak uzun vadede değerli
    Pazar payı kaybı gibi riskler olsa da, yayınlanan araştırmalar bir araya getirildiğinde bir sonraki nesil geliştirme hızı ciddi şekilde artabilir
    Bundan sonra çok sayıda küçük OSS model göreceğiz
    OSS yayınlar çevresinde yerelde geliştirilerek küçük cihazlarda iyi çalışan özelleşmiş modeller birden fazla çıkacak
    Ajan merkezli gelecekte alan bazlı özelleşmiş/distile edilmiş modeller yağmur gibi gelecek
    Herkes AGI/SGI hedefliyor ve bu süreçteki modeller, pazar payı ve veri kullanımı için bir ara adım
    AGI/SGI gerçekleşirse gerçek değer bilimin, mühendisliğin ve her alandaki yeniliğin içinde olacak
    Anthropic araştırmasında Qwen, Llama gibi OSS modellerini kullanıyor

    • Anthropic'ın sadece OSS ile çalışmak zorunda olması gerekmiyor
      Sadece sonrakileri yeniden üretebilecek şekilde OSS'de sonuç bırakmak da yeterli

    • “Açık modellerin bir gün kazanacağı” düşüncesinin ön koşulları var
      Önce kazanım tanımı bile zor
      Eğer değilse

      • OSS rakiplerin hızını da artırabilir
      • OSS kendi R&D'sine hiç fayda sağlamayabilir
      • OSS, dünyayı yeni ürün yarışıyla kaynak israfına sürükleyebilir
      • OSS iş modeli olarak şirketleri zor durumda bırakabilir
      • Kötüye kullanım riskleri (deepfake, güvenlik, biyoterör, kontrolden çıkmış AGI vb.)
        Örnek: What failure looks like, AGI Manhattan Project? Max Tegmark'in makalesi
    • Sanırım endüstri, sağlam bir foundation modelin üzerine araç, veritabanı ve süreçleri ekleyip kullanma modeline kayıyor
      O yüzden OSS modellerin pazarı ele geçirme olasılığı var
      Ama çok sayıda özelleşmiş modeli ayrı ayrı eğitip yönetmenin pratik bir değer yaratıp yaratmayacağı net değil

    • AGI/SGI'ya erişim tek bir olayla olmayacak
      Performans yavaş yavaş biraz daha iyileşerek ilerleyecek
      Çıkarım maliyeti yeterince ucuz olmadan gerçek kullanım mümkün olmaz
      Kâr veya yenilik hedefliyorsanız hangisi daha iyi, merak ediyorum
      Isomorphic Labs gibi örnekler bunun modeliydi (zaten var ve dikkatler orada)

    • Eğer açık modeller gerçekten uzun vadede kazanacaksa
      frontier lab'ler için hangi hızda ve ne kadar gizlilikle OSS'ye açmanın mantıklı olduğu sorusu hala var
      Operasyonel, operasyonel değil yatırım ve iş motivasyonları farklı; ulus veya insanlık hedefleriyle her zaman uyumlu değil

  • Python'da model çıkarımı için harmony[1] adında Rust ile yazılmış bir şey, tokenization için tiktoken[2], Codex[3] de Rust ile yazılmış durumda
    OpenAI inference pipeline'da Rust tercihini artırıyor
    harmony, tiktoken, codex

    • Rust odaklı bir mühendis olarak bu akış çok keyif verici

    • Stack'te Python'un azalması olumlu

  • En iyi model birkaç gün içinde mi açılacak diye bir şey mi?
    Stratejik olarak bunu yayınlamak, daha yenilikçi bir açıklamanın gelmek üzere olduğunun işareti gibi duruyor

    • Doğrudan bir duyuru olmasa bile bu akıllıca bir strateji
      Qwen gibi yüksek performanslı açık ağırlık modellerinin baskısı çok yüksek
      Grace'de yoksa tüm alanda geride kalma riski var
      Lisans, teknik destek, ajanlaşma, marka bilinirliği, pazar payı gibi gelecekteki fırsatlar da büyük
      Bu modelleri iyi kullanırsanız, daha büyük modellere geçerken OpenAI'i daha kolay bulursunuz

    • Perşembe lansman beklentisi
      GPT-5'in ne zaman duyurulacağına dair bahis

    • GPT-5 bu Perşembe çıkacak

    • Açık sürüm olmazsa mevcut ücretli ürünlerin değeri azalır
      Yine de, OSS'nin geç açılması nedeniyle ticari modellere zarar verecek kadar tehditle karşılaşılmış bir örnek henüz yok

    • Yaklaşık bir hafta önceki işaretlere bakınca bile GPT-5'in çok yakın olduğu kanaati zaten vardı

  • o3 seviyesine yakın bir performansa sahip 20B model görmek başlı başına yeni bir şey
    Bir yıl önce böyle küçük bir modelin bu zekaya sahip olacağı düşünülmüyordu
    Beni daha da heyecanlandıran şey, 100 milyar parametreyle eğitilmiş bir modeli 10 milyar parametreye distill ederek “sihri” neredeyse kayıpsız aktarmak
    Örneğin Claude 4 Opus seviyesinde zekayı 10B modelde, 2,000 token/s ile yerelde çalıştırabileceğinizi düşünmek yazılım geliştirme biçimini tamamen değiştirir

    • Aslında 20B modeli değil, MoE olduğu için aktif parametre 3.6B
      Performansı da gerçekte o3 seviyesinde değil
      Metrikler her zaman gerçek hayattan sapma gösterir; kaliteyi doğrudan test ederek doğrulamak gerekir

    • 10B x 2,000 t/s için 20,000 GB/s bellek bant genişliği gerekir
      Apple donanımı bunun için yaklaşık 1,000 GB/s sınırına sahip

  • Az da olsa farklı bir not: Ollama gerçekten çok iyi
    Modeli 2 saniyede buluyor, 1 dakikada indiriyor ve doğrudan kullanıma hazır
    Takıma selamlar!

    • Aslında Ollama OpenAI desteğiyle önceden geliştirilmişti
      Ollama resmi blogu

    • LM Studio da aynı derecede pratik
      Asıl önemli olan, llama.cpp ve dağıtım tarafında HuggingFace'ın çoğu şeyi yapması

    • Ollama'nın kapalı kaynağa geçtiğine dair bir haber gördüm
      ilgili reddit tartışması

  • gpt-oss:20b'yi bir ara proxy ve Ollama ile Claude Code'da yerel olarak entegre etmeyi başardım
    Eğlenceli ama prefill nedeniyle hız o kadar yavaş ki pratikte kullanılamıyor
    Araç kullanımı bir kez olduğunda 2-3 dakika sürüyor, 10-20 kez yapınca 30-60 dakika alıyor
    server.py (1.000 satır) içinde araç tanımı + claude context yaklaşık 30K token, giriş dosyası okununca 50K tokena çıkıyor
    Optimizasyon için açık bir alan var
    Ollama'nın /v1/completions çağrıları arasında kv-cache desteği olup olmadığını bilmiyorum; varsa hız için faydalı olur

    • Ollama bilmiyorum ama llama-server'da transparent kv cache var
      Şu komutla deneyin
      llama-server -hf ggml-org/gpt-oss-20b-GGUF -c 0 -fa --jinja --reasoning-format none
      
      Web UI: localhost:8080 (OpenAI uyumlu API sunuyor)