14 puan yazan xguru 2025-02-02 | 1 yorum | WhatsApp'ta paylaş
  • OpenAI'nin o3-mini modeli yeni tanıtıldı ve diğer o serisi modeller gibi değerlendirmesi biraz zor
    • Artık mevcut GPT-4o, o1, o1 Pro vb. modellerin ardından, kullanım amacına göre hangi modeli seçeceğine karar vermek gerekiyor
  • o3-mini System Card (PDF)'e göre, bazı değerlendirme metriklerinde o3-mini GPT-4o ve o1'den daha iyi, ancak tüm başlıklarda tutarlı biçimde yüksek değil
    • Özellikle Codeforces ELO gibi rekabetçi programlama performansına ilişkin benchmark metriklerinde çok iyi sonuç veriyor
  • OpenAI, o3-mini kullanarak internette arama yaptıktan sonra ChatGPT'nin sonuçları özetlemesine izin vermeyi planlıyor
    • Mevcut o1 modeli ChatGPT içinde web arama aracını kullanmadığı için, bu yeni özelliğin ne kadar kullanışlı olacağı dikkat çekiyor
  • Ayrıca o3-mini vision (görüntü) özelliğini desteklemiyor, ancak bir sonraki mini modelde vision'ın yer alma ihtimali var
  • Yazdığım CLI aracı LLM 0.21 içinde o3-mini desteği eklendi
    • -o reasoning_effort seçeneğiyle high, medium, low belirtilebiliyor
  • Şu anda o3-mini yalnızca Tier 3 ve üzerindeki kullanıcılar tarafından kullanılabiliyor
    • Bu tier'da olmak için minimum API harcamasının 100 $ ve üzeri olması gerekiyor
  • o3-mini'nin maliyeti
    • 1 milyon giriş tokenı başına 1,10 $
    • 1 milyon çıkış tokenı başına 4,40 $
    • GPT-4o'ya (2,50 $/10 $) kıyasla yarıdan daha ucuz, o1'e (15 $/60 $) kıyasla ise onda birden daha düşük fiyatlı
  • Hacker News gönderisini (42890627) özetlemek için hn-summary.sh betiğini o3-mini ile çalıştırmayı denedim
    • hn-summary.sh 42890627 -o o3-mini
    • 18.936 giriş tokenı ve 2.905 çıkış tokenı kullanıldı; toplam maliyet yaklaşık 0,033612 dolar (3,3612 cent) oldu
  • o3-mini'nin maksimum çıkış tokenı sınırı 100.000
    • GPT-4o'dan (16.000), DeepSeek R1'den (8.000), Claude 3.5'ten (8.000) çok daha yüksek
    • İç muhakeme için kullanılan tokenlar da bu sınırdan harcandığı için, gerçek çıktının 100.000'e ulaşması zor olabilir
  • Giriş tokenı en fazla 200.000 olabiliyor; bu da GPT-4o'nun 128.000'ine göre genişletilmiş bir kapasite
  • Uzun metin çevirisi gibi işler için kullanım potansiyeli yüksek görünüyor
    • Çünkü fiyatı ucuz ve uzun giriş/çıkış işlemede avantajlı
  • Hacker News'te profesyonel çevirmen Tom Gally'nin yorumu dikkat çekici
    • DeepSeek R1 ve o3-mini'nin ikisi de uzun metin çevirilerinde sonlara doğru kalite düşüşü gösterdiğini söylüyor
    • Başta R1 de fena görünmese de, o3-mini daha akıcı ve doğal İngilizceyle istenen yazım stiline daha yakın sonuç üretiyor
    • Ancak çıktı uzunluğu R1'de 5.855 karakter, o3-mini'de 9.052 karakter, elle düzeltilmiş sürümde ise 11.021 karakterdi
    • R1 son kısımdaki bazı paragrafları atladı; o3-mini ise alışılmadık biçimde kısaltmalı bir üslup kullandı (isimler arasında and yerine / kullanmak gibi)
    • Daha önce ChatGPT, Claude, Gemini vb. aynı metni çevirirken bu tür sorunlar göstermemişti