- OpenAI, ilk kez büyük ölçekli açık ağırlıklı dil modeli (gpt-oss) yayımladı
- gpt-oss-120b ve gpt-oss-20b olmak üzere iki model sunuluyor; güçlü performansları ve çok farklı cihazlarda çalışabilmeleri öne çıkarılıyor
- Apache 2.0 lisansı ile ticari kullanım, özelleştirme ve serbest dağıtım mümkün
- Güvenlik için eğitim, dış uzman incelemeleri ve kapsamlı güvenlik test süreçleri getirildi
- Hugging Face, GitHub vb. platformlarda modelleri doğrudan indirip kullanmak mümkün; ince ayar, dağıtım ve özelleştirme ile ilgili kaynaklar ve Playground da sağlanıyor
OpenAI'nin Açık Modelleri
- OpenAI, her kullanım senaryosuna göre özelleştirilebilen ve her yerde çalıştırılabilen büyük ölçekli açık ağırlıklı çıkarım modeli (gpt-oss) açıkladı
- Hugging Face ve GitHub üzerinden model dosyalarını doğrudan indirip deneyebilirsiniz; web tabanlı Playground ile bir demo da görüntülenebiliyor
- Apache 2.0 lisansıyla dağıtılıyor; copyleft veya telif hakkı ihlali kaygısı olmaksızın ticari kullanım, özelleştirme, dağıtım serbest
- gpt-oss-120b: Veri merkezleri, yüksek performanslı masaüstü ve dizüstü bilgisayarlar için büyük model
- gpt-oss-20b: Çoğu masaüstü ve dizüstü bilgisayarda çalışabilen orta ölçekli model
Öne çıkan özellikler
-
Ajan işi optimizasyonu
- Araç kullanımı ve yönergeleri takip güçlüdür; web arama, Python kodu çalıştırma gibi ajan odaklı kullanım senaryoları için uygundur
-
Özelleştirme ve ince ayar
- reasoning_effort(çıkarım zorluğu) gibi hiperparametreler ayarlanabilir
- Tam parametre ince ayarı ile gelişmiş özelleştirme desteklenir
-
Düşünce akışı (Chain-of-Thought) görünürlüğü
- modelin çıkarım sürecinin tüm adımlarını görebildiğiniz için hata ayıklama ve güvenilirlik ölçümü kolaylaşır
-
Playground sağlanması
- geliştiriciler ve araştırmacılar için tarayıcıda model performansını deneyimleyebileceği bir Playground desteği
Model performansı
- gpt-oss-120b ve gpt-oss-20b, OpenAI'nin ticari modelleri (OpenAI o3, o4-mini) ile birçok ana benchmarkta performansları doğrudan karşılaştırılarak sunuldu
- Her modelin çıkarım, bilgi, yarışma matematiği gibi çeşitli alanlardaki puanları ayrıntılı olarak paylaşıldı
- Bazı kalemlerde OpenAI ticari modellerine yakın sonuçlar veya bazı testlerde daha iyi sonuçlar görülüyor
Başlıca benchmark performans detayı
-
Çıkarım ve bilgi
- MMLU(Massive Multitask Language Understanding)
- gpt-oss-120b: 90
- gpt-oss-20b: 85.3
- OpenAI o3: 93.4
- OpenAI o4-mini: 93
- → Büyük ticari modellerin biraz altında kalsa da, açık model ölçütlerinde çok güçlü bir genel çıkarım performansı gösteriyor
- GPQA Diamond
- gpt-oss-120b: 80.9
- gpt-oss-20b: 74.2
- OpenAI o3: 77
- OpenAI o4-mini: 81.4
- → Açık bir model olmasına rağmen, ticari modellerle neredeyse eşdeğer gelişmiş bilgi tabanlı soru-cevap performansı yakalıyor
- Humanity’s Last Exam
- gpt-oss-120b: 19
- gpt-oss-20b: 17.3
- OpenAI o3: 24.9
- OpenAI o4-mini: 17.7
- → Zorlu bir değerlendirmede ticari modellere göre daha düşük olsa da, 20b ile o4-mini'nin sonuçları neredeyse benzer
- MMLU(Massive Multitask Language Understanding)
-
Rekabet matematiği (AIME)
- AIME 2024
- gpt-oss-120b: 96.6
- gpt-oss-20b: 96
- OpenAI o3: 91.6
- OpenAI o4-mini: 93.4
- → 2024 sürümüne göre tersine, ticari modellerden daha yüksek puan alınmış
- AIME 2025
- gpt-oss-120b: 97.9
- gpt-oss-20b: 98.7
- OpenAI o3: 88.9
- OpenAI o4-mini: 92.7
- → Matematikte OpenAI'nin ticari modellerini geçen sonuçlar da gözleniyor
- AIME 2024
-
Genel değerlendirme
- gpt-oss serisi özellikle matematik, mantık ve bilgi alanlarında güçlü performans sergiliyor
- ticari modellerle farkı büyük değil; gerçek dünya servislerinde veya mühendislik uygulamalarında kullanılma olasılığı yüksek
- Büyük bir açık model olarak Ar-Ge, ajanlar ve özelleştirme ortamlarında yeterince rekabetçi bir seçenek
Güvenlik ve test
- Tüm modellerde sıkı güvenlik eğitimi ve değerlendirme uygulanıyor
- OpenAI'nin hazırlık çerçevesine göre, kötü niyetli ince ayarlara karşı direnç ayrıca test ediliyor
- Dış güvenlik uzmanlarıyla iş birliği yapılarak, açık modeller için bir güvenlik standardı oluşturuldu
- Hugging Face ve GitHub üzerinden model indirme ve kullanım mümkündür
1 yorum
Hacker News yorumları
En kritik noktayı tam yakalayamadığımı düşünüyorum
gpt-oss:20b, MMLU sıralamasında ilk 10 modelden biri ve doğrudan Gemini-2.5-Pro'nin hemen arkasında
Geçen yıl çıkan MacBook Air M3'te doğrudan çalıştırdım
Laptopta ve Pixel 9 Pro telefonda farklı yerel modelleri deniyorum; bu seviyeye yaklaşırız sanıyordum ama bugün zaten oradayız
En yeni modeli laptopta neredeyse elektrik faturası gibi (neredeyse ücretsiz) bir maliyetle koşturabiliyoruz
Aylık 200$ abonelik ücreti gibi bir maliyetin de ortadan kalkması şaşırtıcı
Gerçekten inanılmaz
20b modelini doğrudan test ettim ama sadece etiketleri değiştirerek yapılan bir “nehri geçme” testini bile çözemedi
SOTA'dan uzak ve QwQ-32b gibi bazı yerel modellerden bile geri kaldı
Yerel yapay zekâyı en çok kimlerin kullanacağını sürekli düşünüyorum
Donanımı olan ama ücretli modele geçmek istemeyen öğrenciler mi?
Ya da fiyat hassasiyeti yüksek olup ücretsiz kodlama isteyen geliştiriciler mi?
Bana göre yerel modeller hem görüntüden veri çıkaramıyor hem de bol bol saçmalıyor (Qwen 2.5 VI örneğinde)
Yerel/klein modellerin kalitesi ile cihaz performansının gelişmesini bekliyorum
Açıkçası “yapabiliyoruz” diye bir merakla kullanıyorum
Birkaç Mac Studio'yu birleştirip iyi bir GPU alarak bunu yapmanın ne kadar acil bir gerekçe olduğunu merak ediyorum
exo gibi dağıtık hesaplama araçlarının fikri güzel ama gerçekten bu kadarını gerektiren acil kullanım durumu ne kadar var, merak ediyorum
Jevons paradoksunu (kaynaklar kıtlaştıkça daha çok kullanılmaları) kabul ediyorum; eninde sonunda bir “buzdolabı ajanı”nın kendini bilinçliymiş gibi simüle edip kaynakları yeniden tüketmeye kadar bu kullanımın patlayacağını hissediyorum
En yeni açık ağırlık modelleri konusunda ne kadar derin bilgiye sahibiz, merak ediyorum
Birkaç saat denedikten sonra Qwen3-30B-A3B'ye kıyasla oldukça geride kaldım
Özellikle dünya bilgisi tarafında ciddi eksiklik var
Aslında 'kaynakların hepsini tüketmek' dediğimiz şey inference (çıkarım) değil, training (eğitim)
Model kartlarıyla ilgilenenler için paylaşıyorum PDF bağlantısı
Tanıtılan model mimarisi Deepseek, Qwen, GLM, Kimi gibi önde gelen açık ağırlık modelleriyle karşılaştırılmış
Teknik olarak bakınca "öyle bir şey" dedirten bir his var
Her iki model de genel Grouped-Query Attention yapısını (64 query head, 8 KV head) kullanıyor
GPT-3 zamanındaki eski bir optimizasyon olan banded-window sparsity (128 token) ile dense attention desenini çapraz olarak uyguluyorlar
RoPE + YaRN kombinasyonuyla 131K bağlam penceresi kullanılmış
Deepseek’in Multi-head Latent Attention veya diğer GQA geliştirmeleri uygulanmamış
Her iki model de MoE transformer
120B (tam 116.8B, aktif 5.1B) model, 128 uzmanı top-4 routing ile çalıştırıyor
Gated SwiGLU aktivasyonuna özel bir vurgu var, fakat Deepseek’in shared/routed expert mimarisi, Qwen’in yük dengeleme stratejisi gibi noktalar yok
En dikkat çekici kısım kuantizasyon yaklaşımı
Parametrelerin %90'ından fazlası 4.25 bit/parametre (MXFP4 formatı) ile kuantize edilerek 120B model tek bir 80GB GPU'ya sığdırılmış
Yine de Unsloth zaten 1.58-bit kuantizasyonu başarıyla yapmış
Genel olarak ajan davranışı ve çıkarım için eğitim çok iyi ama teknik açıdan bakınca ilerleme “içerde saklı” gibi duruyor
Burada gizli kaynağın büyük olasılıkla distillation olduğunu tahmin ediyorum
İnternet verisi yerine o3 gibi SOTA modellerin prompt çıktılarını kullanıp yüksek kaliteli sentetik veri setiyle ön eğitim yapıldığında, küçük modellerin performansı maksimuma çıkabiliyor
RL'nin küçük modele sonradan uygulanmasından çok daha verimli (küçük modellerin baz düzeyi düşük olduğundan RL verimsiz kalıyor)
OpenAI'yi, attention yapısının dışındaki alanlarda gerçek teknik ilerleme yaptığı şeklinde de okuyabiliriz
Yapıda “sizin bir sır yok, mid/post training yapmayı beceremediniz” dedirtecek bir hissi var, veya öyle yapmak istiyorlar gibi
Model oldukça yüksek sparsity'ye sahip: 32:1
MXFP4 yayınını bir tür hediye gibi görüyorum
Büyük ölçekli maliyet optimizasyonunun ürünü olduğu için OSS tarafında avantajlı
Unsloth'un 1.58-bit quant'u da harika ama full quant karşısında kayıp belirgin; çoğu LLM kullanımında doğruluk önceliklidir
Üretimde frontier modeli reduced quant ile koşturan şirket sayısı çok az
OpenAI bunun prod'da uygulanması ilginç bir hamle olur
Benzer bir analiz github deposunda da mümkün
attention sink (özel token'lara odaklanan bir mekanizma) de uygulanmış
Ancak ayrı bir token olarak değil, attention softmax için ek bir eğitim logiti (logit) ile uygulanmış
İlk izlenim özeti, birkaç saat harcayarak bıraktım detaylı inceleme bağlantısı
TLDR: OpenAI, açık ağırlıklar arasındaki en iyi model unvanını Çinli AI lablardan geri almış gibi görünüyor
Bağımsız benchmark sonuçları nasıl çıkacak merakla bekleniyor
20B model Mac notebook'ta 15GB'in altında RAM ile çalışıyor
streamlit dashboard'u MACD, RSI, MA(200) ile yaptım.
qwen3-coder-30b 4bit mlx son verilere kadar çok iyi ilerledi ve kusursuz çalışan bir dashboard üretti
gpt-oss-20b mxfp4'te datetime import eksikti; düzeltsem bile başlangıç tarihi 2020 Ağustos'ta durdu ve veri yoktu
Tarihi ayarladıktan sonra güncelleme fonksiyonunda hata alındı
Macbook'ta modeli kullanırken bağlam penceresini çok kısa tutmak gerektiği için pratiklik düşük kaldı; bu durumu nasıl çözdüklerini merak ediyorum
Tool calling özelliğinin ne kadar iyi çalıştığını merak ediyorum
Birkaç saat çalıştırdım ama iyi gitmedi
Yine de beklenti veren bir model
20B modelinin 15GB RAM kullanmaması nedeniyle ben de çok yakında doğrudan test edeceğim
TPS (saniyedeki token üretimi) ve işlemci bilgisi merak ediyorum
o3 seviyesine yakın bir modeli 24GB Mac Mini'de koşturmanın dönemi geldi
Geçtiğimiz günlerde böyle yeni modelleri yerelde veya mobilde çalıştırmak 5 yıl sonraki bir iş gibi görünüyordu; şimdi bir sonraki telefon jenerasyonunda mümkün olur gibi
Donanım kısıtı çok olsa da Qwen gibi modeller ciddi performans gösteriyor
İleride yeni açık kaynak modellerin nasıl kıyaslanacağını gösteren benchmark sonuçlarını merakla bekliyorum
Llama'nın açıldığı zamanki güvenlik tartışması aklımda
Artık 96GB (V)RAM'li bir MacBook'ta 120B parametreli frontier modeli çalıştırabiliyoruz
MLX quant gelirse GLM-4.5-air ile karşılaştırmayı sabırsızlıkla bekliyorum
Dürüst olayım, bu modelden çok umut ettim ama localllama'daki değerlendirmede
120B modeli kodlama açısından qwen 3 coder, glm45 air ve grok 3'ün gerisine düşmüş
reddit tartışması
Mac Mini'de (kuantize) orta boy bir modeli gerçekten koşturunca yanıt hızı 5 token/s mi, yoksa gerçekten kullanılabilir mi, merak ediyorum
Şu an yerel modelin web taraması yapmasını sağlayacak en basit yol ne, merak ediyorum
Uzun vadede açık modellerin kazanacağını düşünüyorum
Anthropic da OSS modelle araştırma yapıyor; Çin açık modelleri hızlıca tekrar tekrar geliştiriyor
ABD cephesi de N-1 (bir jenerasyon eski) modellerin 1-3 jenerasyon boyunca açık ağırlık olarak açılacağını öngörüyorum
En yeni jenerasyon modelleri OSS olarak açmak çok maliyetli
Devlet desteği veya Stargate'in enerji inovasyonu olmadan sınır var
N-1 modellerinin değer kaybı çok hızlı olduğundan, OSS olarak yayınlayıp uzmanlaşmış uygulama örneklerini emerek toplamak uzun vadede değerli
Pazar payı kaybı gibi riskler olsa da, yayınlanan araştırmalar bir araya getirildiğinde bir sonraki nesil geliştirme hızı ciddi şekilde artabilir
Bundan sonra çok sayıda küçük OSS model göreceğiz
OSS yayınlar çevresinde yerelde geliştirilerek küçük cihazlarda iyi çalışan özelleşmiş modeller birden fazla çıkacak
Ajan merkezli gelecekte alan bazlı özelleşmiş/distile edilmiş modeller yağmur gibi gelecek
Herkes AGI/SGI hedefliyor ve bu süreçteki modeller, pazar payı ve veri kullanımı için bir ara adım
AGI/SGI gerçekleşirse gerçek değer bilimin, mühendisliğin ve her alandaki yeniliğin içinde olacak
Anthropic araştırmasında Qwen, Llama gibi OSS modellerini kullanıyor
Anthropic'ın sadece OSS ile çalışmak zorunda olması gerekmiyor
Sadece sonrakileri yeniden üretebilecek şekilde OSS'de sonuç bırakmak da yeterli
“Açık modellerin bir gün kazanacağı” düşüncesinin ön koşulları var
Önce kazanım tanımı bile zor
Eğer değilse
Örnek: What failure looks like, AGI Manhattan Project? Max Tegmark'in makalesi
Sanırım endüstri, sağlam bir foundation modelin üzerine araç, veritabanı ve süreçleri ekleyip kullanma modeline kayıyor
O yüzden OSS modellerin pazarı ele geçirme olasılığı var
Ama çok sayıda özelleşmiş modeli ayrı ayrı eğitip yönetmenin pratik bir değer yaratıp yaratmayacağı net değil
AGI/SGI'ya erişim tek bir olayla olmayacak
Performans yavaş yavaş biraz daha iyileşerek ilerleyecek
Çıkarım maliyeti yeterince ucuz olmadan gerçek kullanım mümkün olmaz
Kâr veya yenilik hedefliyorsanız hangisi daha iyi, merak ediyorum
Isomorphic Labs gibi örnekler bunun modeliydi (zaten var ve dikkatler orada)
Eğer açık modeller gerçekten uzun vadede kazanacaksa
frontier lab'ler için hangi hızda ve ne kadar gizlilikle OSS'ye açmanın mantıklı olduğu sorusu hala var
Operasyonel, operasyonel değil yatırım ve iş motivasyonları farklı; ulus veya insanlık hedefleriyle her zaman uyumlu değil
Python'da model çıkarımı için harmony[1] adında Rust ile yazılmış bir şey, tokenization için tiktoken[2], Codex[3] de Rust ile yazılmış durumda
OpenAI inference pipeline'da Rust tercihini artırıyor
harmony, tiktoken, codex
Rust odaklı bir mühendis olarak bu akış çok keyif verici
Stack'te Python'un azalması olumlu
En iyi model birkaç gün içinde mi açılacak diye bir şey mi?
Stratejik olarak bunu yayınlamak, daha yenilikçi bir açıklamanın gelmek üzere olduğunun işareti gibi duruyor
Doğrudan bir duyuru olmasa bile bu akıllıca bir strateji
Qwen gibi yüksek performanslı açık ağırlık modellerinin baskısı çok yüksek
Grace'de yoksa tüm alanda geride kalma riski var
Lisans, teknik destek, ajanlaşma, marka bilinirliği, pazar payı gibi gelecekteki fırsatlar da büyük
Bu modelleri iyi kullanırsanız, daha büyük modellere geçerken OpenAI'i daha kolay bulursunuz
Perşembe lansman beklentisi
GPT-5'in ne zaman duyurulacağına dair bahis
GPT-5 bu Perşembe çıkacak
Açık sürüm olmazsa mevcut ücretli ürünlerin değeri azalır
Yine de, OSS'nin geç açılması nedeniyle ticari modellere zarar verecek kadar tehditle karşılaşılmış bir örnek henüz yok
Yaklaşık bir hafta önceki işaretlere bakınca bile GPT-5'in çok yakın olduğu kanaati zaten vardı
o3 seviyesine yakın bir performansa sahip 20B model görmek başlı başına yeni bir şey
Bir yıl önce böyle küçük bir modelin bu zekaya sahip olacağı düşünülmüyordu
Beni daha da heyecanlandıran şey, 100 milyar parametreyle eğitilmiş bir modeli 10 milyar parametreye distill ederek “sihri” neredeyse kayıpsız aktarmak
Örneğin Claude 4 Opus seviyesinde zekayı 10B modelde, 2,000 token/s ile yerelde çalıştırabileceğinizi düşünmek yazılım geliştirme biçimini tamamen değiştirir
Aslında 20B modeli değil, MoE olduğu için aktif parametre 3.6B
Performansı da gerçekte o3 seviyesinde değil
Metrikler her zaman gerçek hayattan sapma gösterir; kaliteyi doğrudan test ederek doğrulamak gerekir
10B x 2,000 t/s için 20,000 GB/s bellek bant genişliği gerekir
Apple donanımı bunun için yaklaşık 1,000 GB/s sınırına sahip
Az da olsa farklı bir not: Ollama gerçekten çok iyi
Modeli 2 saniyede buluyor, 1 dakikada indiriyor ve doğrudan kullanıma hazır
Takıma selamlar!
Aslında Ollama OpenAI desteğiyle önceden geliştirilmişti
Ollama resmi blogu
LM Studio da aynı derecede pratik
Asıl önemli olan, llama.cpp ve dağıtım tarafında HuggingFace'ın çoğu şeyi yapması
Ollama'nın kapalı kaynağa geçtiğine dair bir haber gördüm
ilgili reddit tartışması
gpt-oss:20b'yi bir ara proxy ve Ollama ile Claude Code'da yerel olarak entegre etmeyi başardım
Eğlenceli ama prefill nedeniyle hız o kadar yavaş ki pratikte kullanılamıyor
Araç kullanımı bir kez olduğunda 2-3 dakika sürüyor, 10-20 kez yapınca 30-60 dakika alıyor
server.py (1.000 satır) içinde araç tanımı + claude context yaklaşık 30K token, giriş dosyası okununca 50K tokena çıkıyor
Optimizasyon için açık bir alan var
Ollama'nın /v1/completions çağrıları arasında kv-cache desteği olup olmadığını bilmiyorum; varsa hız için faydalı olur
Şu komutla deneyin Web UI: localhost:8080 (OpenAI uyumlu API sunuyor)