OpenAI, o3 ve o4-mini modellerini tanıttı

(openai.com)

5 puan yazan GN⁺ 2025-04-17 | 1 yorum | WhatsApp'ta paylaş

o3 ve o4-mini modelleri, ChatGPT'nin akıl yürütme yeteneklerini büyük ölçüde geliştiriyor
Bu iki model, basit soru-cevapların ötesine geçerek araçları birleştirerek kullanma, görsel materyal analizi, görüntü oluşturma, Python kodu çalıştırma gibi karmaşık görevleri de yerine getirebiliyor
Özellikle kullanıcı soru sorduğunda, hangi aracı ne zaman kullanacağına kendisi karar verip uygulayabilme yeteneğine sahip
Karmaşık problem çözme, görsel akıl yürütme, çok adımlı analiz gibi alanlarda güçlüler ve daha insansı bir konuşma tarzını hedefliyorlar
o3 karmaşık problem çözme için, o4-mini ise hızlı ve verimli akıl yürütme için optimize edilmiş bir model olarak, sırasıyla yüksek performans ve yüksek verimliliği birlikte hedefliyor
Görüntü ve metin üzerinde birlikte düşünebilen çok modlu akıl yürütme yeteneğine ve gelişmiş ajan tarzı araç kullanma yeteneğine sahipler

Temel özellik değişiklikleri

OpenAI o3

Şimdiye kadarki en güçlü akıl yürütme odaklı model
Kodlama, matematik, bilim, görsel analiz gibi çeşitli alanlarda son teknoloji performansa ulaşıyor
Codeforces, SWE-bench, MMMU gibi benchmark'larda en yüksek performansı kaydetti
Dış uzman değerlendirmelerine göre, o1'e kıyasla %20 daha düşük ciddi hata oranına sahip
Programlama, danışmanlık, biyoloji, mühendislik gibi alanlarda fikir üretme ve eleştirel değerlendirmede üstün

OpenAI o4-mini

Hız ve maliyet verimliliği için optimize edilmiş küçük model
Özellikle matematik, kodlama, görsel problem çözme yeteneği çok güçlü
AIME 2024 ve 2025 benchmark'larında sınıfının en iyi performansını gösterdi
o3-mini'ye kıyasla STEM dışındaki alanlarda da üstün performans sunuyor
Yüksek kullanım ve hızlı yanıt gerektiren ortamlar için uygun

Her iki model de komut anlama, yanıtların faydalılığı ve güvenilirlik açısından önceki modellere göre geliştirildi
Konuşma hafızası ve kişiselleştirilmiş yanıt sunma yetenekleri de güçlendirildi

Çok modlu özellikler

Görüntüler artık yalnızca tanınmıyor, aynı zamanda akıl yürütmenin bir parçası olarak kullanılabiliyor
Kullanıcılar beyaz tahta fotoğrafları, kitaplardaki şemalar, el çizimleri gibi içerikler yükleyebiliyor
Model, bulanık veya bozulmuş görüntüleri de tanıyıp analiz edebiliyor
Döndürme, yakınlaştırma, dönüştürme gibi görüntü işlemleri de araçlar üzerinden otomatik olarak yapılabiliyor
Metin ve görsel bilgiyi birleştiren bileşik problem çözme yeteneği geliştirildi

Araç kullanım merkezli akıl yürütme yaklaşımı

o3 ve o4-mini, ChatGPT'nin tüm araçlarına erişebiliyor
Kullanıcı soru sorduğunda gerekli araçları (web araması, dosya analizi, kod çalıştırma vb.) otomatik olarak belirleyip kullanıyor
Örnek: "Kaliforniya yaz elektrik kullanımını tahmin et" isteğinde, web araması → Python kodu oluşturma → grafik çizme adımlarını art arda gerçekleştirebiliyor
Gerçek zamanlı bilgi kullanımı, çok adımlı akıl yürütme, modaliteleri birleştiren yanıtlar mümkün

Verimli akıl yürütme performansı

Maliyete karşı performans karşılaştırması

o3, o1'e göre; o4-mini ise o3-mini'ye göre çok büyük bir maliyet verimliliği iyileşmesi sağladı
AIME 2025 matematik yarışması sonuçlarına göre hem o3 hem de o4-mini, önceki sürümlerden daha ucuz ve daha akıllı
Gerçek kullanım ortamlarında da daha akıllı ve daha ucuz bir seçenek olmaları bekleniyor

Güvenlik iyileştirmeleri

Biyolojik tehditler, kötü amaçlı yazılım ve jailbreak prompt'larını reddetme yeteneği için yeni eğitim verileriyle yeniden eğitildi
Model yanıtlarının riskini otomatik tespit eden LLM tabanlı güvenlik izleme sistemi devreye alındı
İç test sonuçlarına göre, riskli konuşmaların %99'undan fazlası başarıyla tespit edildi
Biyo/kimya, siber güvenlik, yapay zekanın kendi kendini geliştirmesi gibi risk alanlarında yüksek risk seviyesinin altında değerlendirildi
En güncel Preparedness Framework ölçütlerine göre güvenlik doğrulaması tamamlandı

Codex CLI: Terminalde kullanılan gelişmiş akıl yürütme ajanı

o3 ve o4-mini'nin akıl yürütme yeteneklerini terminalde de kullanılabilir hale getiren araç
Kullanıcılar kod, görüntü, ekran görüntüsü gibi içerikleri CLI üzerinden doğrudan modele verebiliyor
Model, yerel ortamdaki kodla entegre çalışarak çok modlu akıl yürütme gerçekleştirebiliyor
Açık kaynak olarak yayımlandı: github.com/openai/codex
OpenAI ayrıca Codex CLI tabanlı projeler için 1 milyon dolarlık destek programı da başlattı

Erişim yöntemi

ChatGPT Plus, Pro ve Team kullanıcıları: o3, o4-mini, o4-mini-high modellerine hemen erişebilir
Enterprise ve Education kullanıcıları: 1 hafta sonra erişebilecek
Ücretsiz kullanıcılar da 'Think' seçeneğini seçerek o4-mini'yi kullanabilecek
API kullanıcıları da bugünden itibaren kullanabilir (kurum doğrulaması gerekebilir)
Responses API'de akıl yürütme özeti, function calling çevresindeki akıl yürütmeyi koruma, web arama aracı gibi çeşitli özellikler sunulacak

Gelecek yönelim

o serisinin uzman akıl yürütme yeteneği ile GPT serisinin doğal konuşma yeteneğinin birleştirilmesi planlanıyor
Gelecekte, araçları proaktif biçimde kullanırken doğal sohbeti sürdürebilen modeller yönünde gelişim hedefleniyor

1 yorum

GN⁺ 2025-04-17

Hacker News yorumları

Final Fantasy VII tersine mühendisliği hakkında teknik bir soru soruldu, ancak yapay zeka yanlış bilgi verdi
- Yapay zeka forumlarda ve sitelerde bilgi buldu, ancak yanlış ayrıntılar uydurduğu için sonuç hatalıydı
- Yapay zeka cevabı bilmediğinin farkındaydı, ancak kendinden emin şekilde yanlış değerler sundu
- Cevabı bulamıyorsa bunu dürüstçe söylemesi bekleniyor
NixOS'ta en güncel WebStorm kurulumunu yapmak için o3 kullanıldı; NixOS VM çalıştırıp paketi indirerek kurulum talimatları verdi
- Görünüşe göre GUI testi bile yaptı; bu oldukça etkileyici
Claude 3.7, SWE-bench'te hâlâ en iyi performansı gösteriyor
- OpenAI modellerinin de benzer performans göstermesi mümkün
C# içinde base 62 dönüştürücü yazmaya yönelik basit bir "Turing testi", o4-mini-high ile başarıyla gerçekleştirildi
2025 Ağustos'taki yeni ay tarihi çeşitli yapay zekalara soruldu, ancak çoğundan yanlış yanıt alındı
- Claude, belirli bir arama motorunu engelleme yöntemi hakkında yanıt vermeyi reddetti
o3 ve o4, web arama aracı olmadığında bunun farkına varıp yanıt vermeyi reddediyor
- 4o ve 4.1 ise yanlış bilgi veriyor
- Yeni web arama özelliği faydalı; gereksiz Python betiklerini silmeyi mümkün kılıyor
Codex CLI açık kaynak olarak sunuldu
Sonnet 3.7 veya Gemini Pro 2.5 ile karşılaştırma yoktu
Büyük ölçekli reinforcement learning, daha fazla hesaplama kaynağı kullandıkça performansın artma eğiliminde olduğunu gösteriyor
- Bu eğilimin ne kadar süreceği merak konusu
Tüketici açısından hangi modeli kullanmak gerektiğini takip etmek yorucu

OpenAI, o3 ve o4-mini modellerini tanıttı

Temel özellik değişiklikleri

OpenAI o3

OpenAI o4-mini

Çok modlu özellikler

Araç kullanım merkezli akıl yürütme yaklaşımı

Verimli akıl yürütme performansı

Maliyete karşı performans karşılaştırması

Güvenlik iyileştirmeleri

Codex CLI: Terminalde kullanılan gelişmiş akıl yürütme ajanı

Erişim yöntemi

Gelecek yönelim

İlgili okumalar

1 yorum

Hacker News yorumları