OpenAI, büyük ölçekli açık ağırlık dil modeli yayınladı

(openai.com)

7 puan yazan GN⁺ 2025-08-06 | 1 yorum | WhatsApp'ta paylaş

OpenAI, ilk kez büyük ölçekli açık ağırlıklı dil modeli (gpt-oss) yayımladı
gpt-oss-120b ve gpt-oss-20b olmak üzere iki model sunuluyor; güçlü performansları ve çok farklı cihazlarda çalışabilmeleri öne çıkarılıyor
Apache 2.0 lisansı ile ticari kullanım, özelleştirme ve serbest dağıtım mümkün
Güvenlik için eğitim, dış uzman incelemeleri ve kapsamlı güvenlik test süreçleri getirildi
Hugging Face, GitHub vb. platformlarda modelleri doğrudan indirip kullanmak mümkün; ince ayar, dağıtım ve özelleştirme ile ilgili kaynaklar ve Playground da sağlanıyor

OpenAI'nin Açık Modelleri

OpenAI, her kullanım senaryosuna göre özelleştirilebilen ve her yerde çalıştırılabilen büyük ölçekli açık ağırlıklı çıkarım modeli (gpt-oss) açıkladı
Hugging Face ve GitHub üzerinden model dosyalarını doğrudan indirip deneyebilirsiniz; web tabanlı Playground ile bir demo da görüntülenebiliyor
Apache 2.0 lisansıyla dağıtılıyor; copyleft veya telif hakkı ihlali kaygısı olmaksızın ticari kullanım, özelleştirme, dağıtım serbest

gpt-oss-120b: Veri merkezleri, yüksek performanslı masaüstü ve dizüstü bilgisayarlar için büyük model
gpt-oss-20b: Çoğu masaüstü ve dizüstü bilgisayarda çalışabilen orta ölçekli model

Öne çıkan özellikler

Ajan işi optimizasyonu
- Araç kullanımı ve yönergeleri takip güçlüdür; web arama, Python kodu çalıştırma gibi ajan odaklı kullanım senaryoları için uygundur
Özelleştirme ve ince ayar
- reasoning_effort(çıkarım zorluğu) gibi hiperparametreler ayarlanabilir
- Tam parametre ince ayarı ile gelişmiş özelleştirme desteklenir
Reklam
Düşünce akışı (Chain-of-Thought) görünürlüğü
- modelin çıkarım sürecinin tüm adımlarını görebildiğiniz için hata ayıklama ve güvenilirlik ölçümü kolaylaşır
Playground sağlanması
- geliştiriciler ve araştırmacılar için tarayıcıda model performansını deneyimleyebileceği bir Playground desteği

Model performansı

gpt-oss-120b ve gpt-oss-20b, OpenAI'nin ticari modelleri (OpenAI o3, o4-mini) ile birçok ana benchmarkta performansları doğrudan karşılaştırılarak sunuldu
Her modelin çıkarım, bilgi, yarışma matematiği gibi çeşitli alanlardaki puanları ayrıntılı olarak paylaşıldı
Bazı kalemlerde OpenAI ticari modellerine yakın sonuçlar veya bazı testlerde daha iyi sonuçlar görülüyor

Başlıca benchmark performans detayı

Çıkarım ve bilgi
- MMLU(Massive Multitask Language Understanding)
  - gpt-oss-120b: 90
  - gpt-oss-20b: 85.3
  - OpenAI o3: 93.4
  - OpenAI o4-mini: 93
  - → Büyük ticari modellerin biraz altında kalsa da, açık model ölçütlerinde çok güçlü bir genel çıkarım performansı gösteriyor
  Reklam
- GPQA Diamond
  - gpt-oss-120b: 80.9
  - gpt-oss-20b: 74.2
  - OpenAI o3: 77
  - OpenAI o4-mini: 81.4
  - → Açık bir model olmasına rağmen, ticari modellerle neredeyse eşdeğer gelişmiş bilgi tabanlı soru-cevap performansı yakalıyor
- Humanity’s Last Exam
  - gpt-oss-120b: 19
  - gpt-oss-20b: 17.3
  - OpenAI o3: 24.9
  - OpenAI o4-mini: 17.7
  - → Zorlu bir değerlendirmede ticari modellere göre daha düşük olsa da, 20b ile o4-mini'nin sonuçları neredeyse benzer
Rekabet matematiği (AIME)
- AIME 2024
  - gpt-oss-120b: 96.6
  - gpt-oss-20b: 96
  - OpenAI o3: 91.6
  - OpenAI o4-mini: 93.4
  - → 2024 sürümüne göre tersine, ticari modellerden daha yüksek puan alınmış
- AIME 2025
  - gpt-oss-120b: 97.9
  - gpt-oss-20b: 98.7
  - OpenAI o3: 88.9
  - OpenAI o4-mini: 92.7
  - → Matematikte OpenAI'nin ticari modellerini geçen sonuçlar da gözleniyor
  Reklam
Genel değerlendirme
- gpt-oss serisi özellikle matematik, mantık ve bilgi alanlarında güçlü performans sergiliyor
- ticari modellerle farkı büyük değil; gerçek dünya servislerinde veya mühendislik uygulamalarında kullanılma olasılığı yüksek
- Büyük bir açık model olarak Ar-Ge, ajanlar ve özelleştirme ortamlarında yeterince rekabetçi bir seçenek

Güvenlik ve test

Tüm modellerde sıkı güvenlik eğitimi ve değerlendirme uygulanıyor
OpenAI'nin hazırlık çerçevesine göre, kötü niyetli ince ayarlara karşı direnç ayrıca test ediliyor
Dış güvenlik uzmanlarıyla iş birliği yapılarak, açık modeller için bir güvenlik standardı oluşturuldu

Hugging Face ve GitHub üzerinden model indirme ve kullanım mümkündür

1 yorum

GN⁺ 2025-08-06

Hacker News yorumları

En kritik noktayı tam yakalayamadığımı düşünüyorum
gpt-oss:20b, MMLU sıralamasında ilk 10 modelden biri ve doğrudan Gemini-2.5-Pro'nin hemen arkasında
Geçen yıl çıkan MacBook Air M3'te doğrudan çalıştırdım
Laptopta ve Pixel 9 Pro telefonda farklı yerel modelleri deniyorum; bu seviyeye yaklaşırız sanıyordum ama bugün zaten oradayız
En yeni modeli laptopta neredeyse elektrik faturası gibi (neredeyse ücretsiz) bir maliyetle koşturabiliyoruz
Aylık 200$ abonelik ücreti gibi bir maliyetin de ortadan kalkması şaşırtıcı
Gerçekten inanılmaz
- 20b modelini doğrudan test ettim ama sadece etiketleri değiştirerek yapılan bir “nehri geçme” testini bile çözemedi
  SOTA'dan uzak ve QwQ-32b gibi bazı yerel modellerden bile geri kaldı
- Yerel yapay zekâyı en çok kimlerin kullanacağını sürekli düşünüyorum
  Donanımı olan ama ücretli modele geçmek istemeyen öğrenciler mi?
  Ya da fiyat hassasiyeti yüksek olup ücretsiz kodlama isteyen geliştiriciler mi?
  Bana göre yerel modeller hem görüntüden veri çıkaramıyor hem de bol bol saçmalıyor (Qwen 2.5 VI örneğinde)
  Yerel/klein modellerin kalitesi ile cihaz performansının gelişmesini bekliyorum
  Açıkçası “yapabiliyoruz” diye bir merakla kullanıyorum
  Birkaç Mac Studio'yu birleştirip iyi bir GPU alarak bunu yapmanın ne kadar acil bir gerekçe olduğunu merak ediyorum
  exo gibi dağıtık hesaplama araçlarının fikri güzel ama gerçekten bu kadarını gerektiren acil kullanım durumu ne kadar var, merak ediyorum
- Jevons paradoksunu (kaynaklar kıtlaştıkça daha çok kullanılmaları) kabul ediyorum; eninde sonunda bir “buzdolabı ajanı”nın kendini bilinçliymiş gibi simüle edip kaynakları yeniden tüketmeye kadar bu kullanımın patlayacağını hissediyorum
- En yeni açık ağırlık modelleri konusunda ne kadar derin bilgiye sahibiz, merak ediyorum
  Birkaç saat denedikten sonra Qwen3-30B-A3B'ye kıyasla oldukça geride kaldım
  Özellikle dünya bilgisi tarafında ciddi eksiklik var
- Aslında 'kaynakların hepsini tüketmek' dediğimiz şey inference (çıkarım) değil, training (eğitim)
Model kartlarıyla ilgilenenler için paylaşıyorum PDF bağlantısı
Tanıtılan model mimarisi Deepseek, Qwen, GLM, Kimi gibi önde gelen açık ağırlık modelleriyle karşılaştırılmış
Teknik olarak bakınca "öyle bir şey" dedirten bir his var

Her iki model de genel Grouped-Query Attention yapısını (64 query head, 8 KV head) kullanıyor
GPT-3 zamanındaki eski bir optimizasyon olan banded-window sparsity (128 token) ile dense attention desenini çapraz olarak uyguluyorlar
RoPE + YaRN kombinasyonuyla 131K bağlam penceresi kullanılmış
Deepseek’in Multi-head Latent Attention veya diğer GQA geliştirmeleri uygulanmamış
Her iki model de MoE transformer
120B (tam 116.8B, aktif 5.1B) model, 128 uzmanı top-4 routing ile çalıştırıyor
Gated SwiGLU aktivasyonuna özel bir vurgu var, fakat Deepseek’in shared/routed expert mimarisi, Qwen’in yük dengeleme stratejisi gibi noktalar yok
En dikkat çekici kısım kuantizasyon yaklaşımı
Parametrelerin %90'ından fazlası 4.25 bit/parametre (MXFP4 formatı) ile kuantize edilerek 120B model tek bir 80GB GPU'ya sığdırılmış
Yine de Unsloth zaten 1.58-bit kuantizasyonu başarıyla yapmış
Genel olarak ajan davranışı ve çıkarım için eğitim çok iyi ama teknik açıdan bakınca ilerleme “içerde saklı” gibi duruyor
- Burada gizli kaynağın büyük olasılıkla distillation olduğunu tahmin ediyorum
  İnternet verisi yerine o3 gibi SOTA modellerin prompt çıktılarını kullanıp yüksek kaliteli sentetik veri setiyle ön eğitim yapıldığında, küçük modellerin performansı maksimuma çıkabiliyor
  RL'nin küçük modele sonradan uygulanmasından çok daha verimli (küçük modellerin baz düzeyi düşük olduğundan RL verimsiz kalıyor)
- OpenAI'yi, attention yapısının dışındaki alanlarda gerçek teknik ilerleme yaptığı şeklinde de okuyabiliriz
  Yapıda “sizin bir sır yok, mid/post training yapmayı beceremediniz” dedirtecek bir hissi var, veya öyle yapmak istiyorlar gibi
  Model oldukça yüksek sparsity'ye sahip: 32:1
- MXFP4 yayınını bir tür hediye gibi görüyorum
  Büyük ölçekli maliyet optimizasyonunun ürünü olduğu için OSS tarafında avantajlı
  Unsloth'un 1.58-bit quant'u da harika ama full quant karşısında kayıp belirgin; çoğu LLM kullanımında doğruluk önceliklidir
  Üretimde frontier modeli reduced quant ile koşturan şirket sayısı çok az
  OpenAI bunun prod'da uygulanması ilginç bir hamle olur
- Benzer bir analiz github deposunda da mümkün
- attention sink (özel token'lara odaklanan bir mekanizma) de uygulanmış
  Ancak ayrı bir token olarak değil, attention softmax için ek bir eğitim logiti (logit) ile uygulanmış

İlk izlenim özeti, birkaç saat harcayarak bıraktım detaylı inceleme bağlantısı
TLDR: OpenAI, açık ağırlıklar arasındaki en iyi model unvanını Çinli AI lablardan geri almış gibi görünüyor
Bağımsız benchmark sonuçları nasıl çıkacak merakla bekleniyor
20B model Mac notebook'ta 15GB'in altında RAM ile çalışıyor
- streamlit dashboard'u MACD, RSI, MA(200) ile yaptım.
  qwen3-coder-30b 4bit mlx son verilere kadar çok iyi ilerledi ve kusursuz çalışan bir dashboard üretti
  gpt-oss-20b mxfp4'te datetime import eksikti; düzeltsem bile başlangıç tarihi 2020 Ağustos'ta durdu ve veri yoktu
  Tarihi ayarladıktan sonra güncelleme fonksiyonunda hata alındı
- Macbook'ta modeli kullanırken bağlam penceresini çok kısa tutmak gerektiği için pratiklik düşük kaldı; bu durumu nasıl çözdüklerini merak ediyorum
- Tool calling özelliğinin ne kadar iyi çalıştığını merak ediyorum
  Birkaç saat çalıştırdım ama iyi gitmedi
  Yine de beklenti veren bir model
- 20B modelinin 15GB RAM kullanmaması nedeniyle ben de çok yakında doğrudan test edeceğim
  TPS (saniyedeki token üretimi) ve işlemci bilgisi merak ediyorum
o3 seviyesine yakın bir modeli 24GB Mac Mini'de koşturmanın dönemi geldi
Geçtiğimiz günlerde böyle yeni modelleri yerelde veya mobilde çalıştırmak 5 yıl sonraki bir iş gibi görünüyordu; şimdi bir sonraki telefon jenerasyonunda mümkün olur gibi
Donanım kısıtı çok olsa da Qwen gibi modeller ciddi performans gösteriyor
İleride yeni açık kaynak modellerin nasıl kıyaslanacağını gösteren benchmark sonuçlarını merakla bekliyorum
- Llama'nın açıldığı zamanki güvenlik tartışması aklımda
  Artık 96GB (V)RAM'li bir MacBook'ta 120B parametreli frontier modeli çalıştırabiliyoruz
  MLX quant gelirse GLM-4.5-air ile karşılaştırmayı sabırsızlıkla bekliyorum
- Dürüst olayım, bu modelden çok umut ettim ama localllama'daki değerlendirmede
  120B modeli kodlama açısından qwen 3 coder, glm45 air ve grok 3'ün gerisine düşmüş
  reddit tartışması
- Mac Mini'de (kuantize) orta boy bir modeli gerçekten koşturunca yanıt hızı 5 token/s mi, yoksa gerçekten kullanılabilir mi, merak ediyorum
- Şu an yerel modelin web taraması yapmasını sağlayacak en basit yol ne, merak ediyorum
Uzun vadede açık modellerin kazanacağını düşünüyorum
Anthropic da OSS modelle araştırma yapıyor; Çin açık modelleri hızlıca tekrar tekrar geliştiriyor
ABD cephesi de N-1 (bir jenerasyon eski) modellerin 1-3 jenerasyon boyunca açık ağırlık olarak açılacağını öngörüyorum
En yeni jenerasyon modelleri OSS olarak açmak çok maliyetli
Devlet desteği veya Stargate'in enerji inovasyonu olmadan sınır var
N-1 modellerinin değer kaybı çok hızlı olduğundan, OSS olarak yayınlayıp uzmanlaşmış uygulama örneklerini emerek toplamak uzun vadede değerli
Pazar payı kaybı gibi riskler olsa da, yayınlanan araştırmalar bir araya getirildiğinde bir sonraki nesil geliştirme hızı ciddi şekilde artabilir
Bundan sonra çok sayıda küçük OSS model göreceğiz
OSS yayınlar çevresinde yerelde geliştirilerek küçük cihazlarda iyi çalışan özelleşmiş modeller birden fazla çıkacak
Ajan merkezli gelecekte alan bazlı özelleşmiş/distile edilmiş modeller yağmur gibi gelecek
Herkes AGI/SGI hedefliyor ve bu süreçteki modeller, pazar payı ve veri kullanımı için bir ara adım
AGI/SGI gerçekleşirse gerçek değer bilimin, mühendisliğin ve her alandaki yeniliğin içinde olacak
Anthropic araştırmasında Qwen, Llama gibi OSS modellerini kullanıyor
- Anthropic'ın sadece OSS ile çalışmak zorunda olması gerekmiyor
  Sadece sonrakileri yeniden üretebilecek şekilde OSS'de sonuç bırakmak da yeterli
- “Açık modellerin bir gün kazanacağı” düşüncesinin ön koşulları var
  Önce kazanım tanımı bile zor
  Eğer değilse
  - OSS rakiplerin hızını da artırabilir
  - OSS kendi R&D'sine hiç fayda sağlamayabilir
  - OSS, dünyayı yeni ürün yarışıyla kaynak israfına sürükleyebilir
  - OSS iş modeli olarak şirketleri zor durumda bırakabilir
  - Kötüye kullanım riskleri (deepfake, güvenlik, biyoterör, kontrolden çıkmış AGI vb.)
    Örnek: What failure looks like, AGI Manhattan Project? Max Tegmark'in makalesi
- Sanırım endüstri, sağlam bir foundation modelin üzerine araç, veritabanı ve süreçleri ekleyip kullanma modeline kayıyor
  O yüzden OSS modellerin pazarı ele geçirme olasılığı var
  Ama çok sayıda özelleşmiş modeli ayrı ayrı eğitip yönetmenin pratik bir değer yaratıp yaratmayacağı net değil
- AGI/SGI'ya erişim tek bir olayla olmayacak
  Performans yavaş yavaş biraz daha iyileşerek ilerleyecek
  Çıkarım maliyeti yeterince ucuz olmadan gerçek kullanım mümkün olmaz
  Kâr veya yenilik hedefliyorsanız hangisi daha iyi, merak ediyorum
  Isomorphic Labs gibi örnekler bunun modeliydi (zaten var ve dikkatler orada)
- Eğer açık modeller gerçekten uzun vadede kazanacaksa
  frontier lab'ler için hangi hızda ve ne kadar gizlilikle OSS'ye açmanın mantıklı olduğu sorusu hala var
  Operasyonel, operasyonel değil yatırım ve iş motivasyonları farklı; ulus veya insanlık hedefleriyle her zaman uyumlu değil
Python'da model çıkarımı için harmony[1] adında Rust ile yazılmış bir şey, tokenization için tiktoken[2], Codex[3] de Rust ile yazılmış durumda
OpenAI inference pipeline'da Rust tercihini artırıyor
harmony, tiktoken, codex
- Rust odaklı bir mühendis olarak bu akış çok keyif verici
- Stack'te Python'un azalması olumlu
En iyi model birkaç gün içinde mi açılacak diye bir şey mi?
Stratejik olarak bunu yayınlamak, daha yenilikçi bir açıklamanın gelmek üzere olduğunun işareti gibi duruyor
- Doğrudan bir duyuru olmasa bile bu akıllıca bir strateji
  Qwen gibi yüksek performanslı açık ağırlık modellerinin baskısı çok yüksek
  Grace'de yoksa tüm alanda geride kalma riski var
  Lisans, teknik destek, ajanlaşma, marka bilinirliği, pazar payı gibi gelecekteki fırsatlar da büyük
  Bu modelleri iyi kullanırsanız, daha büyük modellere geçerken OpenAI'i daha kolay bulursunuz
- Perşembe lansman beklentisi
  GPT-5'in ne zaman duyurulacağına dair bahis
- GPT-5 bu Perşembe çıkacak
- Açık sürüm olmazsa mevcut ücretli ürünlerin değeri azalır
  Yine de, OSS'nin geç açılması nedeniyle ticari modellere zarar verecek kadar tehditle karşılaşılmış bir örnek henüz yok
- Yaklaşık bir hafta önceki işaretlere bakınca bile GPT-5'in çok yakın olduğu kanaati zaten vardı
o3 seviyesine yakın bir performansa sahip 20B model görmek başlı başına yeni bir şey
Bir yıl önce böyle küçük bir modelin bu zekaya sahip olacağı düşünülmüyordu
Beni daha da heyecanlandıran şey, 100 milyar parametreyle eğitilmiş bir modeli 10 milyar parametreye distill ederek “sihri” neredeyse kayıpsız aktarmak
Örneğin Claude 4 Opus seviyesinde zekayı 10B modelde, 2,000 token/s ile yerelde çalıştırabileceğinizi düşünmek yazılım geliştirme biçimini tamamen değiştirir
- Aslında 20B modeli değil, MoE olduğu için aktif parametre 3.6B
  Performansı da gerçekte o3 seviyesinde değil
  Metrikler her zaman gerçek hayattan sapma gösterir; kaliteyi doğrudan test ederek doğrulamak gerekir
- 10B x 2,000 t/s için 20,000 GB/s bellek bant genişliği gerekir
  Apple donanımı bunun için yaklaşık 1,000 GB/s sınırına sahip
Az da olsa farklı bir not: Ollama gerçekten çok iyi
Modeli 2 saniyede buluyor, 1 dakikada indiriyor ve doğrudan kullanıma hazır
Takıma selamlar!
- Aslında Ollama OpenAI desteğiyle önceden geliştirilmişti
  Ollama resmi blogu
- LM Studio da aynı derecede pratik
  Asıl önemli olan, llama.cpp ve dağıtım tarafında HuggingFace'ın çoğu şeyi yapması
- Ollama'nın kapalı kaynağa geçtiğine dair bir haber gördüm
  ilgili reddit tartışması
gpt-oss:20b'yi bir ara proxy ve Ollama ile Claude Code'da yerel olarak entegre etmeyi başardım
Eğlenceli ama prefill nedeniyle hız o kadar yavaş ki pratikte kullanılamıyor
Araç kullanımı bir kez olduğunda 2-3 dakika sürüyor, 10-20 kez yapınca 30-60 dakika alıyor
server.py (1.000 satır) içinde araç tanımı + claude context yaklaşık 30K token, giriş dosyası okununca 50K tokena çıkıyor
Optimizasyon için açık bir alan var
Ollama'nın /v1/completions çağrıları arasında kv-cache desteği olup olmadığını bilmiyorum; varsa hız için faydalı olur
- Ollama bilmiyorum ama llama-server'da transparent kv cache var
  Şu komutla deneyin
```
llama-server -hf ggml-org/gpt-oss-20b-GGUF -c 0 -fa --jinja --reasoning-format none
```
  Web UI: localhost:8080 (OpenAI uyumlu API sunuyor)

OpenAI, büyük ölçekli açık ağırlık dil modeli yayınladı

OpenAI'nin Açık Modelleri

Öne çıkan özellikler

Ajan işi optimizasyonu

Özelleştirme ve ince ayar

Düşünce akışı (Chain-of-Thought) görünürlüğü

Playground sağlanması

Model performansı

Başlıca benchmark performans detayı

Çıkarım ve bilgi

Rekabet matematiği (AIME)

Genel değerlendirme

Güvenlik ve test

İlgili okumalar

1 yorum

Hacker News yorumları