OpenAI, GPT-OSS model serisini (gpt-oss-120b / gpt-oss-20b) Apache 2.0 lisansıyla sürpriz şekilde yayımladı. GPT-2’den sonra 6 yıl aradan sonra gelen açık ağırlıklı model ve hem performans hem de verimlilik açısından pazarın dengesini değiştirme potansiyeline sahip.
🧠 Temel özellikler
- 20B model: Mixture of Experts (MoE) yapısı
• 128 uzmandan 4’ü etkinleştiriliyor → performansı korurken çıkarım maliyetini düşürüyor
• FlashAttention, 128k token desteği, YaRN içeriyor - 20B model: 16GB GPU ortamında da çalışabiliyor (Apple Silicon dahil)
📊 Başlıca benchmark performansı (GPT-OSS-120B bazında)
- MMLU: %90,0 (
o4-miniile benzer) - AIME matematik: %97,9 (matematik + araç kullanımında en üst seviye)
- Codeforces Elo: 2622 (kodlama becerisi de üst düzey)
- HealthBench: GPT-4o’ya kıyasla daha iyi performans
- MMMLU (14 dil): %81,3 → çok dilli akıl yürütmede de güçlü
💡 Pratik kullanım & ekosistem
- 120B model tek bir H100 80GB GPU üzerinde çalıştırılabiliyor
- 20B model 16GB ortamda da gerçek zamanlı çalışıyor
- HuggingFace, vLLM, Ollama vb. ile anında uyumlu
🔐 Güvenlik & sorumluluk
- RL tabanlı akıl yürütme tutarlılığı güçlendirildi
- Deliberative Alignment kullanıma alındı
- Kasıtlı kötüye kullanımda bile yüksek riskli çıktı üretmiyor
Görünüşe göre bir süre daha "ClosedAI" diye alay edilmekten kurtulacak. Kısa bir test yaptım; Koreceyi de oldukça iyi kullanıyor.
8 yorum
120b modelinin simpleqa puanı da 0.168 görünüyor.
vllmile servis etmeyi denemiştim ama Flash Attention3 tabanlı olduğu için yalnızca Hopper destekleniyor ağla ağlaBen de bu yüzden
ollamaile…Artık tamamen gözden düşmüş A100...
İlgili Hacker News yorumları için OpenAI, büyük ölçekli açık ağırlıklı dil modeli yayımladı yazısına bakın.
Performansa dair çeşitli değerlendirmeleri görebilirsiniz.
Bilgisayarımın yavaş olduğunu anlamak istediğimde... aynı prompt ile süreyi doğrudan ölçerek test etsem nasıl olur diye düşünüyorum. ^^; Basit bir kayıt için bile bir Google Sheets açıp kenarda tutmak istiyorum (tamamen kayıt tutmanın keyfi için)
MXFP4 kuantizasyonu sayesinde Ollama'da 16GB bellek (VRAM) bulunan sistemlerde de çalıştırılabildiği söyleniyor (
gpt-oss:20b): https://ollama.com/blog/gpt-ossDaha büyük modelleri çalıştırmak isteyenler, bu kez kullanıma sunulan aylık 20 dolarlık ollama turbo'yu kullanabilir: https://ollama.com/turbo