- o3 ve o4-mini modelleri, ChatGPT'nin akıl yürütme yeteneklerini büyük ölçüde geliştiriyor
- Bu iki model, basit soru-cevapların ötesine geçerek araçları birleştirerek kullanma, görsel materyal analizi, görüntü oluşturma, Python kodu çalıştırma gibi karmaşık görevleri de yerine getirebiliyor
- Özellikle kullanıcı soru sorduğunda, hangi aracı ne zaman kullanacağına kendisi karar verip uygulayabilme yeteneğine sahip
- Karmaşık problem çözme, görsel akıl yürütme, çok adımlı analiz gibi alanlarda güçlüler ve daha insansı bir konuşma tarzını hedefliyorlar
- o3 karmaşık problem çözme için, o4-mini ise hızlı ve verimli akıl yürütme için optimize edilmiş bir model olarak, sırasıyla yüksek performans ve yüksek verimliliği birlikte hedefliyor
- Görüntü ve metin üzerinde birlikte düşünebilen çok modlu akıl yürütme yeteneğine ve gelişmiş ajan tarzı araç kullanma yeteneğine sahipler
Temel özellik değişiklikleri
OpenAI o3
- Şimdiye kadarki en güçlü akıl yürütme odaklı model
- Kodlama, matematik, bilim, görsel analiz gibi çeşitli alanlarda son teknoloji performansa ulaşıyor
- Codeforces, SWE-bench, MMMU gibi benchmark'larda en yüksek performansı kaydetti
- Dış uzman değerlendirmelerine göre, o1'e kıyasla %20 daha düşük ciddi hata oranına sahip
- Programlama, danışmanlık, biyoloji, mühendislik gibi alanlarda fikir üretme ve eleştirel değerlendirmede üstün
OpenAI o4-mini
- Hız ve maliyet verimliliği için optimize edilmiş küçük model
- Özellikle matematik, kodlama, görsel problem çözme yeteneği çok güçlü
- AIME 2024 ve 2025 benchmark'larında sınıfının en iyi performansını gösterdi
- o3-mini'ye kıyasla STEM dışındaki alanlarda da üstün performans sunuyor
- Yüksek kullanım ve hızlı yanıt gerektiren ortamlar için uygun
- Her iki model de komut anlama, yanıtların faydalılığı ve güvenilirlik açısından önceki modellere göre geliştirildi
- Konuşma hafızası ve kişiselleştirilmiş yanıt sunma yetenekleri de güçlendirildi
Çok modlu özellikler
- Görüntüler artık yalnızca tanınmıyor, aynı zamanda akıl yürütmenin bir parçası olarak kullanılabiliyor
- Kullanıcılar beyaz tahta fotoğrafları, kitaplardaki şemalar, el çizimleri gibi içerikler yükleyebiliyor
- Model, bulanık veya bozulmuş görüntüleri de tanıyıp analiz edebiliyor
- Döndürme, yakınlaştırma, dönüştürme gibi görüntü işlemleri de araçlar üzerinden otomatik olarak yapılabiliyor
- Metin ve görsel bilgiyi birleştiren bileşik problem çözme yeteneği geliştirildi
Araç kullanım merkezli akıl yürütme yaklaşımı
- o3 ve o4-mini, ChatGPT'nin tüm araçlarına erişebiliyor
- Kullanıcı soru sorduğunda gerekli araçları (web araması, dosya analizi, kod çalıştırma vb.) otomatik olarak belirleyip kullanıyor
- Örnek: "Kaliforniya yaz elektrik kullanımını tahmin et" isteğinde, web araması → Python kodu oluşturma → grafik çizme adımlarını art arda gerçekleştirebiliyor
- Gerçek zamanlı bilgi kullanımı, çok adımlı akıl yürütme, modaliteleri birleştiren yanıtlar mümkün
Verimli akıl yürütme performansı
Maliyete karşı performans karşılaştırması
- o3, o1'e göre; o4-mini ise o3-mini'ye göre çok büyük bir maliyet verimliliği iyileşmesi sağladı
- AIME 2025 matematik yarışması sonuçlarına göre hem o3 hem de o4-mini, önceki sürümlerden daha ucuz ve daha akıllı
- Gerçek kullanım ortamlarında da daha akıllı ve daha ucuz bir seçenek olmaları bekleniyor
Güvenlik iyileştirmeleri
- Biyolojik tehditler, kötü amaçlı yazılım ve jailbreak prompt'larını reddetme yeteneği için yeni eğitim verileriyle yeniden eğitildi
- Model yanıtlarının riskini otomatik tespit eden LLM tabanlı güvenlik izleme sistemi devreye alındı
- İç test sonuçlarına göre, riskli konuşmaların %99'undan fazlası başarıyla tespit edildi
- Biyo/kimya, siber güvenlik, yapay zekanın kendi kendini geliştirmesi gibi risk alanlarında yüksek risk seviyesinin altında değerlendirildi
- En güncel Preparedness Framework ölçütlerine göre güvenlik doğrulaması tamamlandı
Codex CLI: Terminalde kullanılan gelişmiş akıl yürütme ajanı
- o3 ve o4-mini'nin akıl yürütme yeteneklerini terminalde de kullanılabilir hale getiren araç
- Kullanıcılar kod, görüntü, ekran görüntüsü gibi içerikleri CLI üzerinden doğrudan modele verebiliyor
- Model, yerel ortamdaki kodla entegre çalışarak çok modlu akıl yürütme gerçekleştirebiliyor
- Açık kaynak olarak yayımlandı: github.com/openai/codex
- OpenAI ayrıca Codex CLI tabanlı projeler için 1 milyon dolarlık destek programı da başlattı
Erişim yöntemi
- ChatGPT Plus, Pro ve Team kullanıcıları: o3, o4-mini, o4-mini-high modellerine hemen erişebilir
- Enterprise ve Education kullanıcıları: 1 hafta sonra erişebilecek
- Ücretsiz kullanıcılar da 'Think' seçeneğini seçerek o4-mini'yi kullanabilecek
- API kullanıcıları da bugünden itibaren kullanabilir (kurum doğrulaması gerekebilir)
- Responses API'de akıl yürütme özeti, function calling çevresindeki akıl yürütmeyi koruma, web arama aracı gibi çeşitli özellikler sunulacak
Gelecek yönelim
- o serisinin uzman akıl yürütme yeteneği ile GPT serisinin doğal konuşma yeteneğinin birleştirilmesi planlanıyor
- Gelecekte, araçları proaktif biçimde kullanırken doğal sohbeti sürdürebilen modeller yönünde gelişim hedefleniyor
1 yorum
Hacker News yorumları
Final Fantasy VII tersine mühendisliği hakkında teknik bir soru soruldu, ancak yapay zeka yanlış bilgi verdi
NixOS'ta en güncel WebStorm kurulumunu yapmak için o3 kullanıldı; NixOS VM çalıştırıp paketi indirerek kurulum talimatları verdi
Claude 3.7, SWE-bench'te hâlâ en iyi performansı gösteriyor
C# içinde base 62 dönüştürücü yazmaya yönelik basit bir "Turing testi", o4-mini-high ile başarıyla gerçekleştirildi
2025 Ağustos'taki yeni ay tarihi çeşitli yapay zekalara soruldu, ancak çoğundan yanlış yanıt alındı
o3 ve o4, web arama aracı olmadığında bunun farkına varıp yanıt vermeyi reddediyor
Codex CLI açık kaynak olarak sunuldu
Sonnet 3.7 veya Gemini Pro 2.5 ile karşılaştırma yoktu
Büyük ölçekli reinforcement learning, daha fazla hesaplama kaynağı kullandıkça performansın artma eğiliminde olduğunu gösteriyor
Tüketici açısından hangi modeli kullanmak gerektiğini takip etmek yorucu