OpenAI o3-Mini kullanıma sunuldu

(openai.com)

13 puan yazan GN⁺ 2025-02-01 | 1 yorum | WhatsApp'ta paylaş

OpenAI o3-mini, maliyet açısından verimli akıl yürütme modeli serisinin en yeni modeli
2024 Aralık önizlemesinin ardından resmen yayımlandı ve ChatGPT ile API'de kullanılabiliyor
Bilim, matematik, kodlama gibi STEM alanlarında güçlü performans gösterirken OpenAI o1-mini'ye kıyasla daha düşük maliyet ve gecikme süresini koruyor

Başlıca özellikler ve iyileştirmeler

OpenAI o3-mini, ilk kez function calling, structured outputs, developer messages destekleyen küçük bir akıl yürütme modeli
Streaming desteği sunuyor ve duruma göre optimize edilebilmesi için düşük, orta, yüksek olmak üzere üç akıl yürütme çabası seçeneği sağlıyor
Vision (görüntü) özelliğini desteklemiyor; görsel akıl yürütme gerektiğinde OpenAI o1 kullanılması öneriliyor
Chat Completions API, Assistants API ve Batch API'de kullanılabiliyor; API kullanım katmanı 3~5 geliştiricilere sunuluyor
ChatGPT Plus, Team ve Pro kullanıcıları bugünden itibaren erişebiliyor; Enterprise kullanıcıları için destek Şubat ayında planlanıyor
OpenAI o1-mini'nin yerini alıyor ve daha yüksek hız ile geliştirilmiş akıl yürütme yeteneği sunuyor
Plus ve Team kullanıcılarının mesaj sınırı, mevcut o1-mini'deki 50'den 150'ye çıkarıldı
Arama özelliği eklendi; en güncel bilgileri web bağlantılarıyla birlikte sunan bir özellik deneysel olarak test ediliyor

Ücretsiz kullanıcılar için erişimin genişletilmesi

Ücretsiz kullanıcılar da mesaj yazma alanında ‘Reason’ seçeneğini seçerek veya yanıtı yeniden oluşturarak o3-mini'yi kullanabiliyor
ChatGPT'de bir reasoning modelinin ücretsiz kullanıcılara sunulması ilk kez gerçekleşiyor

STEM optimizasyonu ve performans artışı

STEM alanları için optimize edilmiş performans sunuyor ve o1-mini'ye kıyasla daha hızlı ve daha doğru yanıtlar üretiyor
Uzman test kullanıcılarının değerlendirmesine göre o3-mini, vakaların %56'sında o1-mini'ye tercih edildi ve zor problemler için ana hatalarda %39 azalma görüldü
AIME, GPQA gibi yüksek zorluktaki akıl yürütme ve zekâ değerlendirmelerinde o1'e benzer performans gösterirken daha hızlı yanıt veriyor

Başlıca performans karşılaştırmaları

Matematik (AIME 2024):
- Düşük akıl yürütme çabasında o1-mini ile benzer performans, orta akıl yürütme çabasında ise o1'e yakın performans
- Yüksek akıl yürütme çabasında o1 ve o1-mini'den daha iyi performans gösteriyor
Doktora düzeyinde bilim soruları (GPQA Diamond):
- Biyoloji, kimya ve fizik problemlerinde düşük akıl yürütme çabasıyla bile o1-mini'den daha iyi performans
- Yüksek akıl yürütme çabasında o1'e benzer performans
İleri matematik (FrontierMath):
- Python aracı kullanıldığında ilk denemede soruların %32'sinden fazlasını çözüyor, yüksek zorluktaki problemlerden (T3) de %28'den fazlasını çözüyor
Yarışmalı programlama (Codeforces):
- Akıl yürütme çabası arttıkça daha yüksek Elo puanı elde ediyor ve o1-mini'den daha iyi performans gösteriyor
- Orta akıl yürütme çabasında o1'e yakın performans
Yazılım mühendisliği (SWE-bench Verified):
- SWEbench-verified'da şimdiye kadar yayımlanan modeller arasında en iyi performansı kaydediyor
Gerçek kodlama testleri (LiveBench Coding):
- o1-high'dan daha iyi performans gösteriyor; yüksek akıl yürütme çabasında farkı daha da açıyor
Genel bilgi değerlendirmesi:
- Genel bilgi değerlendirmelerinde o1-mini'den daha iyi sonuçlar elde ediyor
Kullanıcı tercih değerlendirmesi:
- Uzman test sonuçlarına göre o3-mini, o1-mini'ye kıyasla %56 daha çok tercih edildi ve zor problemlerde %39 hata azalması görüldü

Hız ve performans iyileştirmeleri

o1'e benzer zekâyı korurken daha hızlı performans ve daha yüksek verimlilik sunuyor
Matematik ve olgusallık değerlendirmelerinde orta akıl yürütme çabasıyla da daha iyi sonuçlar üretiyor
A/B test sonuçlarına göre, o3-mini, o1-mini'den %24 daha hızlı yanıt veriyor
- Ortalama yanıt süresi: o3-mini (7,7 saniye) vs o1-mini (10,16 saniye)
- İlk token üretim hızı: o3-mini, o1-mini'den ortalama 2500 ms daha hızlı

Güvenlik ve alınan önlemler

OpenAI o3-mini, daha güvenli yanıtlar üretmesi için ‘deliberative alignment’ tekniğiyle eğitildi
OpenAI o1 ile karşılaştırıldığında, GPT-4o'dan da yüksek düzeyde güvenlik ve jailbreak savunması gösteriyor
Yayımlanmadan önce hazırlık değerlendirmeleri, harici red team testleri ve güvenlik değerlendirmeleri ile kapsamlı biçimde doğrulandı
o3-mini'nin izin verilmeyen içerik yanıt değerlendirmesi ve jailbreak değerlendirmesi sonuçları system card içinde sunuluyor

Gelecek planları ve beklentiler

OpenAI o3-mini, maliyet açısından verimli yapay zeka zekâsının gelişiminde yeni bir aşamayı temsil ediyor
STEM optimizasyonu ve düşük maliyetli model geliştirme yoluyla yüksek kaliteli yapay zekâyı daha fazla kullanıcıya sunma hedefi sürdürülüyor
GPT-4'ün yayımlanmasından bu yana token başına fiyatı %95 azaltırken, üst düzey akıl yürütme yeteneklerini koruma yönünde ilerliyor
Yapay zekânın kitlesel benimsenmesi genişlerken, zekâ, verimlilik ve güvenlik arasında denge kuran modeller geliştirmeye odaklanmayı planlıyor

1 yorum

GN⁺ 2025-02-01

Hacker News görüşleri

Claude-3.5-sonnet modeli tutarlılık açısından çok iyi; diğer modeller ise ADHD benzeri sorunlar yaşıyor
- Bir NextJS uygulamasında shadcn bileşenlerini kullanmaya çalışırken, sonnet bunu neredeyse kusursuz yapıyor ama diğer modeller radix-ui kullanmaya çalışıyor
- o3-mini modeli de aynı sorunu yaşıyor
- Sorun cursor'ın talimat seti olabilir
- Sonnet, elde kalan tek uygulanabilir kodlama seçeneği olmaya devam ediyor
o3-mini'nin yanıtları, o1-mini'ye kıyasla %56 daha fazla tercih ediliyor
- İki yanıt da 2.000 kelime olduğunda, soruya daha hızlı cevap veren tarafı seçme eğilimi var
- Bu anket anlamsız; %50 yanıt oranı yazı tura atmakla aynı
o3-mini kullanılarak iş parçacığının özetlendiği sonuç paylaşıldı
- 18.936 girdi, 2.905 çıktı için 3,3612 cent harcandı
Yapay zeka ile kodlamada o3-mini, o1'e benzer puan aldı ve maliyeti 10 kat daha ucuz
- o3-mini, orta çabayla R1 ile Sonnet arasında bir puan alıyor
Yeni model ve reasoning_effort seçeneğini destekleyen LLM CLI aracının yeni sürümü duyuruldu
- Örnek kullanım paylaşıldı
o3-mini'nin SWE Bench puanının %61'den %49,3'e düştüğüne dikkat çekildi
- o3-mini, gerçek kodlama işlerinde Claude'a benzer performans gösteriyor
o3-mini-high'ın seg fault'un kök nedenini başarıyla bulduğu belirtildi
- Daha önce o1'in gözden kaçırdığı bir sorunu çözdü
SWE-Bench'te kayda değer bir artış görüldü; daha önce o1-mini'nin başa çıkamadığı görevleri işleyip işleyemediğini görmek için yeniden denemeye değer
- Maliyet farkı milyon çıktı token başına $4'e karşı $60
Yapay zeka ortamı hızla değişiyor ve yeni yapay zeka modelleri ortaya çıkıyor
- Yapay zekadaki değişimin bu sürümü ve gelecekteki sürümleri nasıl etkileyeceği merak ediliyor

OpenAI o3-Mini kullanıma sunuldu

Başlıca özellikler ve iyileştirmeler

Ücretsiz kullanıcılar için erişimin genişletilmesi

STEM optimizasyonu ve performans artışı

Başlıca performans karşılaştırmaları

Hız ve performans iyileştirmeleri

Güvenlik ve alınan önlemler

Gelecek planları ve beklentiler

İlgili okumalar

1 yorum

Hacker News görüşleri