- OpenAI o3-mini, maliyet açısından verimli akıl yürütme modeli serisinin en yeni modeli
- 2024 Aralık önizlemesinin ardından resmen yayımlandı ve ChatGPT ile API'de kullanılabiliyor
- Bilim, matematik, kodlama gibi STEM alanlarında güçlü performans gösterirken OpenAI o1-mini'ye kıyasla daha düşük maliyet ve gecikme süresini koruyor
Başlıca özellikler ve iyileştirmeler
- OpenAI o3-mini, ilk kez function calling, structured outputs, developer messages destekleyen küçük bir akıl yürütme modeli
- Streaming desteği sunuyor ve duruma göre optimize edilebilmesi için düşük, orta, yüksek olmak üzere üç akıl yürütme çabası seçeneği sağlıyor
- Vision (görüntü) özelliğini desteklemiyor; görsel akıl yürütme gerektiğinde OpenAI o1 kullanılması öneriliyor
- Chat Completions API, Assistants API ve Batch API'de kullanılabiliyor; API kullanım katmanı 3~5 geliştiricilere sunuluyor
- ChatGPT Plus, Team ve Pro kullanıcıları bugünden itibaren erişebiliyor; Enterprise kullanıcıları için destek Şubat ayında planlanıyor
- OpenAI o1-mini'nin yerini alıyor ve daha yüksek hız ile geliştirilmiş akıl yürütme yeteneği sunuyor
- Plus ve Team kullanıcılarının mesaj sınırı, mevcut o1-mini'deki 50'den 150'ye çıkarıldı
- Arama özelliği eklendi; en güncel bilgileri web bağlantılarıyla birlikte sunan bir özellik deneysel olarak test ediliyor
Ücretsiz kullanıcılar için erişimin genişletilmesi
- Ücretsiz kullanıcılar da mesaj yazma alanında ‘Reason’ seçeneğini seçerek veya yanıtı yeniden oluşturarak o3-mini'yi kullanabiliyor
- ChatGPT'de bir reasoning modelinin ücretsiz kullanıcılara sunulması ilk kez gerçekleşiyor
STEM optimizasyonu ve performans artışı
- STEM alanları için optimize edilmiş performans sunuyor ve o1-mini'ye kıyasla daha hızlı ve daha doğru yanıtlar üretiyor
- Uzman test kullanıcılarının değerlendirmesine göre o3-mini, vakaların %56'sında o1-mini'ye tercih edildi ve zor problemler için ana hatalarda %39 azalma görüldü
- AIME, GPQA gibi yüksek zorluktaki akıl yürütme ve zekâ değerlendirmelerinde o1'e benzer performans gösterirken daha hızlı yanıt veriyor
Başlıca performans karşılaştırmaları
- Matematik (AIME 2024):
- Düşük akıl yürütme çabasında o1-mini ile benzer performans, orta akıl yürütme çabasında ise o1'e yakın performans
- Yüksek akıl yürütme çabasında o1 ve o1-mini'den daha iyi performans gösteriyor
- Doktora düzeyinde bilim soruları (GPQA Diamond):
- Biyoloji, kimya ve fizik problemlerinde düşük akıl yürütme çabasıyla bile o1-mini'den daha iyi performans
- Yüksek akıl yürütme çabasında o1'e benzer performans
- İleri matematik (FrontierMath):
- Python aracı kullanıldığında ilk denemede soruların %32'sinden fazlasını çözüyor, yüksek zorluktaki problemlerden (T3) de %28'den fazlasını çözüyor
- Yarışmalı programlama (Codeforces):
- Akıl yürütme çabası arttıkça daha yüksek Elo puanı elde ediyor ve o1-mini'den daha iyi performans gösteriyor
- Orta akıl yürütme çabasında o1'e yakın performans
- Yazılım mühendisliği (SWE-bench Verified):
- SWEbench-verified'da şimdiye kadar yayımlanan modeller arasında en iyi performansı kaydediyor
- Gerçek kodlama testleri (LiveBench Coding):
- o1-high'dan daha iyi performans gösteriyor; yüksek akıl yürütme çabasında farkı daha da açıyor
- Genel bilgi değerlendirmesi:
- Genel bilgi değerlendirmelerinde o1-mini'den daha iyi sonuçlar elde ediyor
- Kullanıcı tercih değerlendirmesi:
- Uzman test sonuçlarına göre o3-mini, o1-mini'ye kıyasla %56 daha çok tercih edildi ve zor problemlerde %39 hata azalması görüldü
Hız ve performans iyileştirmeleri
- o1'e benzer zekâyı korurken daha hızlı performans ve daha yüksek verimlilik sunuyor
- Matematik ve olgusallık değerlendirmelerinde orta akıl yürütme çabasıyla da daha iyi sonuçlar üretiyor
- A/B test sonuçlarına göre, o3-mini, o1-mini'den %24 daha hızlı yanıt veriyor
- Ortalama yanıt süresi: o3-mini (7,7 saniye) vs o1-mini (10,16 saniye)
- İlk token üretim hızı: o3-mini, o1-mini'den ortalama 2500 ms daha hızlı
Güvenlik ve alınan önlemler
- OpenAI o3-mini, daha güvenli yanıtlar üretmesi için ‘deliberative alignment’ tekniğiyle eğitildi
- OpenAI o1 ile karşılaştırıldığında, GPT-4o'dan da yüksek düzeyde güvenlik ve jailbreak savunması gösteriyor
- Yayımlanmadan önce hazırlık değerlendirmeleri, harici red team testleri ve güvenlik değerlendirmeleri ile kapsamlı biçimde doğrulandı
- o3-mini'nin izin verilmeyen içerik yanıt değerlendirmesi ve jailbreak değerlendirmesi sonuçları system card içinde sunuluyor
Gelecek planları ve beklentiler
- OpenAI o3-mini, maliyet açısından verimli yapay zeka zekâsının gelişiminde yeni bir aşamayı temsil ediyor
- STEM optimizasyonu ve düşük maliyetli model geliştirme yoluyla yüksek kaliteli yapay zekâyı daha fazla kullanıcıya sunma hedefi sürdürülüyor
- GPT-4'ün yayımlanmasından bu yana token başına fiyatı %95 azaltırken, üst düzey akıl yürütme yeteneklerini koruma yönünde ilerliyor
- Yapay zekânın kitlesel benimsenmesi genişlerken, zekâ, verimlilik ve güvenlik arasında denge kuran modeller geliştirmeye odaklanmayı planlıyor
1 yorum
Hacker News görüşleri
Claude-3.5-sonnet modeli tutarlılık açısından çok iyi; diğer modeller ise ADHD benzeri sorunlar yaşıyor
o3-mini'nin yanıtları, o1-mini'ye kıyasla %56 daha fazla tercih ediliyor
o3-mini kullanılarak iş parçacığının özetlendiği sonuç paylaşıldı
Yapay zeka ile kodlamada o3-mini, o1'e benzer puan aldı ve maliyeti 10 kat daha ucuz
Yeni model ve reasoning_effort seçeneğini destekleyen LLM CLI aracının yeni sürümü duyuruldu
o3-mini'nin SWE Bench puanının %61'den %49,3'e düştüğüne dikkat çekildi
o3-mini-high'ın seg fault'un kök nedenini başarıyla bulduğu belirtildi
SWE-Bench'te kayda değer bir artış görüldü; daha önce o1-mini'nin başa çıkamadığı görevleri işleyip işleyemediğini görmek için yeniden denemeye değer
Yapay zeka ortamı hızla değişiyor ve yeni yapay zeka modelleri ortaya çıkıyor