- OpenAI, ilk kez büyük ölçekli açık ağırlıklı dil modeli (gpt-oss) yayımladı
- gpt-oss-120b ve gpt-oss-20b olmak üzere iki model sunuluyor; güçlü performansları ve çok farklı cihazlarda çalışabilmeleri öne çıkarılıyor
- Apache 2.0 lisansı ile ticari kullanım, özelleştirme ve serbest dağıtım mümkün
- Güvenlik için eğitim, dış uzman incelemeleri ve kapsamlı güvenlik test süreçleri getirildi
- Hugging Face, GitHub vb. platformlarda modelleri doğrudan indirip kullanmak mümkün; ince ayar, dağıtım ve özelleştirme ile ilgili kaynaklar ve Playground da sağlanıyor
OpenAI'nin Açık Modelleri
- OpenAI, her kullanım senaryosuna göre özelleştirilebilen ve her yerde çalıştırılabilen büyük ölçekli açık ağırlıklı çıkarım modeli (gpt-oss) açıkladı
- Hugging Face ve GitHub üzerinden model dosyalarını doğrudan indirip deneyebilirsiniz; web tabanlı Playground ile bir demo da görüntülenebiliyor
- Apache 2.0 lisansıyla dağıtılıyor; copyleft veya telif hakkı ihlali kaygısı olmaksızın ticari kullanım, özelleştirme, dağıtım serbest
- gpt-oss-120b: Veri merkezleri, yüksek performanslı masaüstü ve dizüstü bilgisayarlar için büyük model
- gpt-oss-20b: Çoğu masaüstü ve dizüstü bilgisayarda çalışabilen orta ölçekli model
Öne çıkan özellikler
-
Ajan işi optimizasyonu
- Araç kullanımı ve yönergeleri takip güçlüdür; web arama, Python kodu çalıştırma gibi ajan odaklı kullanım senaryoları için uygundur
-
Özelleştirme ve ince ayar
- reasoning_effort(çıkarım zorluğu) gibi hiperparametreler ayarlanabilir
- Tam parametre ince ayarı ile gelişmiş özelleştirme desteklenir
-
Düşünce akışı (Chain-of-Thought) görünürlüğü
- modelin çıkarım sürecinin tüm adımlarını görebildiğiniz için hata ayıklama ve güvenilirlik ölçümü kolaylaşır
-
Playground sağlanması
- geliştiriciler ve araştırmacılar için tarayıcıda model performansını deneyimleyebileceği bir Playground desteği
Model performansı
- gpt-oss-120b ve gpt-oss-20b, OpenAI'nin ticari modelleri (OpenAI o3, o4-mini) ile birçok ana benchmarkta performansları doğrudan karşılaştırılarak sunuldu
- Her modelin çıkarım, bilgi, yarışma matematiği gibi çeşitli alanlardaki puanları ayrıntılı olarak paylaşıldı
- Bazı kalemlerde OpenAI ticari modellerine yakın sonuçlar veya bazı testlerde daha iyi sonuçlar görülüyor
Başlıca benchmark performans detayı
-
Çıkarım ve bilgi
- MMLU(Massive Multitask Language Understanding)
- gpt-oss-120b: 90
- gpt-oss-20b: 85.3
- OpenAI o3: 93.4
- OpenAI o4-mini: 93
- → Büyük ticari modellerin biraz altında kalsa da, açık model ölçütlerinde çok güçlü bir genel çıkarım performansı gösteriyor
- GPQA Diamond
- gpt-oss-120b: 80.9
- gpt-oss-20b: 74.2
- OpenAI o3: 77
- OpenAI o4-mini: 81.4
- → Açık bir model olmasına rağmen, ticari modellerle neredeyse eşdeğer gelişmiş bilgi tabanlı soru-cevap performansı yakalıyor
- Humanity’s Last Exam
- gpt-oss-120b: 19
- gpt-oss-20b: 17.3
- OpenAI o3: 24.9
- OpenAI o4-mini: 17.7
- → Zorlu bir değerlendirmede ticari modellere göre daha düşük olsa da, 20b ile o4-mini'nin sonuçları neredeyse benzer
-
Rekabet matematiği (AIME)
- AIME 2024
- gpt-oss-120b: 96.6
- gpt-oss-20b: 96
- OpenAI o3: 91.6
- OpenAI o4-mini: 93.4
- → 2024 sürümüne göre tersine, ticari modellerden daha yüksek puan alınmış
- AIME 2025
- gpt-oss-120b: 97.9
- gpt-oss-20b: 98.7
- OpenAI o3: 88.9
- OpenAI o4-mini: 92.7
- → Matematikte OpenAI'nin ticari modellerini geçen sonuçlar da gözleniyor
-
Genel değerlendirme
- gpt-oss serisi özellikle matematik, mantık ve bilgi alanlarında güçlü performans sergiliyor
- ticari modellerle farkı büyük değil; gerçek dünya servislerinde veya mühendislik uygulamalarında kullanılma olasılığı yüksek
- Büyük bir açık model olarak Ar-Ge, ajanlar ve özelleştirme ortamlarında yeterince rekabetçi bir seçenek
Güvenlik ve test
- Tüm modellerde sıkı güvenlik eğitimi ve değerlendirme uygulanıyor
- OpenAI'nin hazırlık çerçevesine göre, kötü niyetli ince ayarlara karşı direnç ayrıca test ediliyor
- Dış güvenlik uzmanlarıyla iş birliği yapılarak, açık modeller için bir güvenlik standardı oluşturuldu
Henüz yorum yok.