13 puan yazan GN⁺ 2025-02-01 | 1 yorum | WhatsApp'ta paylaş
  • OpenAI o3-mini, maliyet açısından verimli akıl yürütme modeli serisinin en yeni modeli
  • 2024 Aralık önizlemesinin ardından resmen yayımlandı ve ChatGPT ile API'de kullanılabiliyor
  • Bilim, matematik, kodlama gibi STEM alanlarında güçlü performans gösterirken OpenAI o1-mini'ye kıyasla daha düşük maliyet ve gecikme süresini koruyor

Başlıca özellikler ve iyileştirmeler

  • OpenAI o3-mini, ilk kez function calling, structured outputs, developer messages destekleyen küçük bir akıl yürütme modeli
  • Streaming desteği sunuyor ve duruma göre optimize edilebilmesi için düşük, orta, yüksek olmak üzere üç akıl yürütme çabası seçeneği sağlıyor
  • Vision (görüntü) özelliğini desteklemiyor; görsel akıl yürütme gerektiğinde OpenAI o1 kullanılması öneriliyor
  • Chat Completions API, Assistants API ve Batch API'de kullanılabiliyor; API kullanım katmanı 3~5 geliştiricilere sunuluyor
  • ChatGPT Plus, Team ve Pro kullanıcıları bugünden itibaren erişebiliyor; Enterprise kullanıcıları için destek Şubat ayında planlanıyor
  • OpenAI o1-mini'nin yerini alıyor ve daha yüksek hız ile geliştirilmiş akıl yürütme yeteneği sunuyor
  • Plus ve Team kullanıcılarının mesaj sınırı, mevcut o1-mini'deki 50'den 150'ye çıkarıldı
  • Arama özelliği eklendi; en güncel bilgileri web bağlantılarıyla birlikte sunan bir özellik deneysel olarak test ediliyor

Ücretsiz kullanıcılar için erişimin genişletilmesi

  • Ücretsiz kullanıcılar da mesaj yazma alanında ‘Reason’ seçeneğini seçerek veya yanıtı yeniden oluşturarak o3-mini'yi kullanabiliyor
  • ChatGPT'de bir reasoning modelinin ücretsiz kullanıcılara sunulması ilk kez gerçekleşiyor

STEM optimizasyonu ve performans artışı

  • STEM alanları için optimize edilmiş performans sunuyor ve o1-mini'ye kıyasla daha hızlı ve daha doğru yanıtlar üretiyor
  • Uzman test kullanıcılarının değerlendirmesine göre o3-mini, vakaların %56'sında o1-mini'ye tercih edildi ve zor problemler için ana hatalarda %39 azalma görüldü
  • AIME, GPQA gibi yüksek zorluktaki akıl yürütme ve zekâ değerlendirmelerinde o1'e benzer performans gösterirken daha hızlı yanıt veriyor

Başlıca performans karşılaştırmaları

  • Matematik (AIME 2024):
    • Düşük akıl yürütme çabasında o1-mini ile benzer performans, orta akıl yürütme çabasında ise o1'e yakın performans
    • Yüksek akıl yürütme çabasında o1 ve o1-mini'den daha iyi performans gösteriyor
  • Doktora düzeyinde bilim soruları (GPQA Diamond):
    • Biyoloji, kimya ve fizik problemlerinde düşük akıl yürütme çabasıyla bile o1-mini'den daha iyi performans
    • Yüksek akıl yürütme çabasında o1'e benzer performans
  • İleri matematik (FrontierMath):
    • Python aracı kullanıldığında ilk denemede soruların %32'sinden fazlasını çözüyor, yüksek zorluktaki problemlerden (T3) de %28'den fazlasını çözüyor
  • Yarışmalı programlama (Codeforces):
    • Akıl yürütme çabası arttıkça daha yüksek Elo puanı elde ediyor ve o1-mini'den daha iyi performans gösteriyor
    • Orta akıl yürütme çabasında o1'e yakın performans
  • Yazılım mühendisliği (SWE-bench Verified):
    • SWEbench-verified'da şimdiye kadar yayımlanan modeller arasında en iyi performansı kaydediyor
  • Gerçek kodlama testleri (LiveBench Coding):
    • o1-high'dan daha iyi performans gösteriyor; yüksek akıl yürütme çabasında farkı daha da açıyor
  • Genel bilgi değerlendirmesi:
    • Genel bilgi değerlendirmelerinde o1-mini'den daha iyi sonuçlar elde ediyor
  • Kullanıcı tercih değerlendirmesi:
    • Uzman test sonuçlarına göre o3-mini, o1-mini'ye kıyasla %56 daha çok tercih edildi ve zor problemlerde %39 hata azalması görüldü

Hız ve performans iyileştirmeleri

  • o1'e benzer zekâyı korurken daha hızlı performans ve daha yüksek verimlilik sunuyor
  • Matematik ve olgusallık değerlendirmelerinde orta akıl yürütme çabasıyla da daha iyi sonuçlar üretiyor
  • A/B test sonuçlarına göre, o3-mini, o1-mini'den %24 daha hızlı yanıt veriyor
    • Ortalama yanıt süresi: o3-mini (7,7 saniye) vs o1-mini (10,16 saniye)
    • İlk token üretim hızı: o3-mini, o1-mini'den ortalama 2500 ms daha hızlı

Güvenlik ve alınan önlemler

  • OpenAI o3-mini, daha güvenli yanıtlar üretmesi için ‘deliberative alignment’ tekniğiyle eğitildi
  • OpenAI o1 ile karşılaştırıldığında, GPT-4o'dan da yüksek düzeyde güvenlik ve jailbreak savunması gösteriyor
  • Yayımlanmadan önce hazırlık değerlendirmeleri, harici red team testleri ve güvenlik değerlendirmeleri ile kapsamlı biçimde doğrulandı
  • o3-mini'nin izin verilmeyen içerik yanıt değerlendirmesi ve jailbreak değerlendirmesi sonuçları system card içinde sunuluyor

Gelecek planları ve beklentiler

  • OpenAI o3-mini, maliyet açısından verimli yapay zeka zekâsının gelişiminde yeni bir aşamayı temsil ediyor
  • STEM optimizasyonu ve düşük maliyetli model geliştirme yoluyla yüksek kaliteli yapay zekâyı daha fazla kullanıcıya sunma hedefi sürdürülüyor
  • GPT-4'ün yayımlanmasından bu yana token başına fiyatı %95 azaltırken, üst düzey akıl yürütme yeteneklerini koruma yönünde ilerliyor
  • Yapay zekânın kitlesel benimsenmesi genişlerken, zekâ, verimlilik ve güvenlik arasında denge kuran modeller geliştirmeye odaklanmayı planlıyor

1 yorum

 
GN⁺ 2025-02-01
Hacker News görüşleri
  • Claude-3.5-sonnet modeli tutarlılık açısından çok iyi; diğer modeller ise ADHD benzeri sorunlar yaşıyor

    • Bir NextJS uygulamasında shadcn bileşenlerini kullanmaya çalışırken, sonnet bunu neredeyse kusursuz yapıyor ama diğer modeller radix-ui kullanmaya çalışıyor
    • o3-mini modeli de aynı sorunu yaşıyor
    • Sorun cursor'ın talimat seti olabilir
    • Sonnet, elde kalan tek uygulanabilir kodlama seçeneği olmaya devam ediyor
  • o3-mini'nin yanıtları, o1-mini'ye kıyasla %56 daha fazla tercih ediliyor

    • İki yanıt da 2.000 kelime olduğunda, soruya daha hızlı cevap veren tarafı seçme eğilimi var
    • Bu anket anlamsız; %50 yanıt oranı yazı tura atmakla aynı
  • o3-mini kullanılarak iş parçacığının özetlendiği sonuç paylaşıldı

    • 18.936 girdi, 2.905 çıktı için 3,3612 cent harcandı
  • Yapay zeka ile kodlamada o3-mini, o1'e benzer puan aldı ve maliyeti 10 kat daha ucuz

    • o3-mini, orta çabayla R1 ile Sonnet arasında bir puan alıyor
  • Yeni model ve reasoning_effort seçeneğini destekleyen LLM CLI aracının yeni sürümü duyuruldu

    • Örnek kullanım paylaşıldı
  • o3-mini'nin SWE Bench puanının %61'den %49,3'e düştüğüne dikkat çekildi

    • o3-mini, gerçek kodlama işlerinde Claude'a benzer performans gösteriyor
  • o3-mini-high'ın seg fault'un kök nedenini başarıyla bulduğu belirtildi

    • Daha önce o1'in gözden kaçırdığı bir sorunu çözdü
  • SWE-Bench'te kayda değer bir artış görüldü; daha önce o1-mini'nin başa çıkamadığı görevleri işleyip işleyemediğini görmek için yeniden denemeye değer

    • Maliyet farkı milyon çıktı token başına $4'e karşı $60
  • Yapay zeka ortamı hızla değişiyor ve yeni yapay zeka modelleri ortaya çıkıyor

    • Yapay zekadaki değişimin bu sürümü ve gelecekteki sürümleri nasıl etkileyeceği merak ediliyor