Simon Willison'ın o3-mini hakkındaki notları

xguru · 2025-02-02T10:07:02+09:00

OpenAI'nin o3-mini modeli yeni tanıtıldı ve diğer o serisi modeller gibi değerlendirmesi biraz zor Artık mevcut GPT-4o, o1, o1 Pro vb. modellerin ardından, kullanım amacına göre hangi modeli seçeceğine karar vermek gerekiyor o3-mini System Card (PDF)'e göre, bazı değerlendirme metriklerinde o3-mini GPT-4o ve o1'den daha iyi, ancak tüm başlıklarda tutarlı biçimde yüksek değil Özellikle Codeforces ELO gibi rekabetçi programlama performansına ilişkin benchmark metriklerinde çok iyi sonuç veriyor OpenAI, o3-mini kullanarak internette arama yaptıktan sonra ChatGPT'nin sonuçları özetlemesine izin vermeyi planlıyor Mevcut o1 modeli ChatGPT içinde web arama aracını kullanmadığı için, bu yeni özelliğin ne kadar kullanışlı olacağı dikkat çekiyor Ayrıca o3-mini vision (görüntü) özelliğini desteklemiyor, ancak bir sonraki mini modelde vision'ın yer alma ihtimali var Yazdığım CLI aracı LLM 0.21 içinde o3-mini desteği eklendi -o reasoning_effort seçeneğiyle high, medium, low belirtilebiliyor Şu anda o3-mini yalnızca Tier 3 ve üzerindeki kullanıcılar tarafından kullanılabiliyor Bu tier'da olmak için minimum API harcamasının 100 $ ve üzeri olması gerekiyor o3-mini'nin maliyeti 1 milyon giriş tokenı başına 1,10 $ 1 milyon çıkış tokenı başına 4,40 $ GPT-4o'ya (2,50 $/10 $) kıyasla yarıdan daha ucuz, o1'e (15 $/60 $) kıyasla ise onda birden daha düşük fiyatlı Hacker News gönderisini (42890627) özetlemek için hn-summary.sh betiğini o3-mini ile çalıştırmayı denedim hn-summary.sh 42890627 -o o3-mini 18.936 giriş tokenı ve 2.905 çıkış tokenı kullanıldı; toplam maliyet yaklaşık 0,033612 dolar (3,3612 cent) oldu o3-mini'nin maksimum çıkış tokenı sınırı 100.000 GPT-4o'dan (16.000), DeepSeek R1'den (8.000), Claude 3.5'ten (8.000) çok daha yüksek İç muhakeme için kullanılan tokenlar da bu sınırdan harcandığı için, gerçek çıktının 100.000'e ulaşması zor olabilir Giriş tokenı en fazla 200.000 olabiliyor; bu da GPT-4o'nun 128.000'ine göre genişletilmiş bir kapasite Uzun metin çevirisi gibi işler için kullanım potansiyeli yüksek görünüyor Çünkü fiyatı ucuz ve uzun giriş/çıkış işlemede avantajlı Hacker News'te profesyonel çevirmen Tom Gally'nin yorumu dikkat çekici DeepSeek R1 ve o3-mini'nin ikisi de uzun metin çevirilerinde sonlara doğru kalite düşüşü gösterdiğini söylüyor Başta R1 de fena görünmese de, o3-mini daha akıcı ve doğal İngilizceyle istenen yazım stiline daha yakın sonuç üretiyor Ancak çıktı uzunluğu R1'de 5.855 karakter, o3-mini'de 9.052 karakter, elle düzeltilmiş sürümde ise 11.021 karakterdi R1 son kısımdaki bazı paragrafları atladı; o3-mini ise alışılmadık biçimde kısaltmalı bir üslup kullandı (isimler arasında and yerine / kullanmak gibi) Daha önce ChatGPT, Claude, Gemini vb. aynı metni çevirirken bu tür sorunlar göstermemişti

(simonwillison.net)

14 puan yazan xguru 2025-02-02 | 1 yorum | WhatsApp'ta paylaş

OpenAI'nin o3-mini modeli yeni tanıtıldı ve diğer o serisi modeller gibi değerlendirmesi biraz zor
- Artık mevcut GPT-4o, o1, o1 Pro vb. modellerin ardından, kullanım amacına göre hangi modeli seçeceğine karar vermek gerekiyor
o3-mini System Card (PDF)'e göre, bazı değerlendirme metriklerinde o3-mini GPT-4o ve o1'den daha iyi, ancak tüm başlıklarda tutarlı biçimde yüksek değil
- Özellikle Codeforces ELO gibi rekabetçi programlama performansına ilişkin benchmark metriklerinde çok iyi sonuç veriyor
OpenAI, o3-mini kullanarak internette arama yaptıktan sonra ChatGPT'nin sonuçları özetlemesine izin vermeyi planlıyor
- Mevcut o1 modeli ChatGPT içinde web arama aracını kullanmadığı için, bu yeni özelliğin ne kadar kullanışlı olacağı dikkat çekiyor
Ayrıca o3-mini vision (görüntü) özelliğini desteklemiyor, ancak bir sonraki mini modelde vision'ın yer alma ihtimali var
Yazdığım CLI aracı LLM 0.21 içinde o3-mini desteği eklendi
- -o reasoning_effort seçeneğiyle high, medium, low belirtilebiliyor
Şu anda o3-mini yalnızca Tier 3 ve üzerindeki kullanıcılar tarafından kullanılabiliyor
- Bu tier'da olmak için minimum API harcamasının 100 $ ve üzeri olması gerekiyor
o3-mini'nin maliyeti
- 1 milyon giriş tokenı başına 1,10 $
- 1 milyon çıkış tokenı başına 4,40 $
- GPT-4o'ya (2,50 $/10 $) kıyasla yarıdan daha ucuz, o1'e (15 $/60 $) kıyasla ise onda birden daha düşük fiyatlı
Hacker News gönderisini (42890627) özetlemek için hn-summary.sh betiğini o3-mini ile çalıştırmayı denedim
- hn-summary.sh 42890627 -o o3-mini
- 18.936 giriş tokenı ve 2.905 çıkış tokenı kullanıldı; toplam maliyet yaklaşık 0,033612 dolar (3,3612 cent) oldu
o3-mini'nin maksimum çıkış tokenı sınırı 100.000
- GPT-4o'dan (16.000), DeepSeek R1'den (8.000), Claude 3.5'ten (8.000) çok daha yüksek
- İç muhakeme için kullanılan tokenlar da bu sınırdan harcandığı için, gerçek çıktının 100.000'e ulaşması zor olabilir
Giriş tokenı en fazla 200.000 olabiliyor; bu da GPT-4o'nun 128.000'ine göre genişletilmiş bir kapasite
Uzun metin çevirisi gibi işler için kullanım potansiyeli yüksek görünüyor
- Çünkü fiyatı ucuz ve uzun giriş/çıkış işlemede avantajlı
Hacker News'te profesyonel çevirmen Tom Gally'nin yorumu dikkat çekici
- DeepSeek R1 ve o3-mini'nin ikisi de uzun metin çevirilerinde sonlara doğru kalite düşüşü gösterdiğini söylüyor
- Başta R1 de fena görünmese de, o3-mini daha akıcı ve doğal İngilizceyle istenen yazım stiline daha yakın sonuç üretiyor
- Ancak çıktı uzunluğu R1'de 5.855 karakter, o3-mini'de 9.052 karakter, elle düzeltilmiş sürümde ise 11.021 karakterdi
- R1 son kısımdaki bazı paragrafları atladı; o3-mini ise alışılmadık biçimde kısaltmalı bir üslup kullandı (isimler arasında and yerine / kullanmak gibi)
- Daha önce ChatGPT, Claude, Gemini vb. aynı metni çevirirken bu tür sorunlar göstermemişti

1 yorum

xguru 2025-02-02

OpenAI o3-Mini’nin yayınlanması

Simon Willison'ın o3-mini hakkındaki notları

İlgili okumalar

1 yorum