5 puan yazan GN⁺ 2025-04-17 | 1 yorum | WhatsApp'ta paylaş
  • o3 ve o4-mini modelleri, ChatGPT'nin akıl yürütme yeteneklerini büyük ölçüde geliştiriyor
  • Bu iki model, basit soru-cevapların ötesine geçerek araçları birleştirerek kullanma, görsel materyal analizi, görüntü oluşturma, Python kodu çalıştırma gibi karmaşık görevleri de yerine getirebiliyor
  • Özellikle kullanıcı soru sorduğunda, hangi aracı ne zaman kullanacağına kendisi karar verip uygulayabilme yeteneğine sahip
  • Karmaşık problem çözme, görsel akıl yürütme, çok adımlı analiz gibi alanlarda güçlüler ve daha insansı bir konuşma tarzını hedefliyorlar
  • o3 karmaşık problem çözme için, o4-mini ise hızlı ve verimli akıl yürütme için optimize edilmiş bir model olarak, sırasıyla yüksek performans ve yüksek verimliliği birlikte hedefliyor
  • Görüntü ve metin üzerinde birlikte düşünebilen çok modlu akıl yürütme yeteneğine ve gelişmiş ajan tarzı araç kullanma yeteneğine sahipler

Temel özellik değişiklikleri

OpenAI o3

  • Şimdiye kadarki en güçlü akıl yürütme odaklı model
  • Kodlama, matematik, bilim, görsel analiz gibi çeşitli alanlarda son teknoloji performansa ulaşıyor
  • Codeforces, SWE-bench, MMMU gibi benchmark'larda en yüksek performansı kaydetti
  • Dış uzman değerlendirmelerine göre, o1'e kıyasla %20 daha düşük ciddi hata oranına sahip
  • Programlama, danışmanlık, biyoloji, mühendislik gibi alanlarda fikir üretme ve eleştirel değerlendirmede üstün

OpenAI o4-mini

  • Hız ve maliyet verimliliği için optimize edilmiş küçük model
  • Özellikle matematik, kodlama, görsel problem çözme yeteneği çok güçlü
  • AIME 2024 ve 2025 benchmark'larında sınıfının en iyi performansını gösterdi
  • o3-mini'ye kıyasla STEM dışındaki alanlarda da üstün performans sunuyor
  • Yüksek kullanım ve hızlı yanıt gerektiren ortamlar için uygun
  • Her iki model de komut anlama, yanıtların faydalılığı ve güvenilirlik açısından önceki modellere göre geliştirildi
  • Konuşma hafızası ve kişiselleştirilmiş yanıt sunma yetenekleri de güçlendirildi

Çok modlu özellikler

  • Görüntüler artık yalnızca tanınmıyor, aynı zamanda akıl yürütmenin bir parçası olarak kullanılabiliyor
  • Kullanıcılar beyaz tahta fotoğrafları, kitaplardaki şemalar, el çizimleri gibi içerikler yükleyebiliyor
  • Model, bulanık veya bozulmuş görüntüleri de tanıyıp analiz edebiliyor
  • Döndürme, yakınlaştırma, dönüştürme gibi görüntü işlemleri de araçlar üzerinden otomatik olarak yapılabiliyor
  • Metin ve görsel bilgiyi birleştiren bileşik problem çözme yeteneği geliştirildi

Araç kullanım merkezli akıl yürütme yaklaşımı

  • o3 ve o4-mini, ChatGPT'nin tüm araçlarına erişebiliyor
  • Kullanıcı soru sorduğunda gerekli araçları (web araması, dosya analizi, kod çalıştırma vb.) otomatik olarak belirleyip kullanıyor
  • Örnek: "Kaliforniya yaz elektrik kullanımını tahmin et" isteğinde, web araması → Python kodu oluşturma → grafik çizme adımlarını art arda gerçekleştirebiliyor
  • Gerçek zamanlı bilgi kullanımı, çok adımlı akıl yürütme, modaliteleri birleştiren yanıtlar mümkün

Verimli akıl yürütme performansı

Maliyete karşı performans karşılaştırması

  • o3, o1'e göre; o4-mini ise o3-mini'ye göre çok büyük bir maliyet verimliliği iyileşmesi sağladı
  • AIME 2025 matematik yarışması sonuçlarına göre hem o3 hem de o4-mini, önceki sürümlerden daha ucuz ve daha akıllı
  • Gerçek kullanım ortamlarında da daha akıllı ve daha ucuz bir seçenek olmaları bekleniyor

Güvenlik iyileştirmeleri

  • Biyolojik tehditler, kötü amaçlı yazılım ve jailbreak prompt'larını reddetme yeteneği için yeni eğitim verileriyle yeniden eğitildi
  • Model yanıtlarının riskini otomatik tespit eden LLM tabanlı güvenlik izleme sistemi devreye alındı
  • İç test sonuçlarına göre, riskli konuşmaların %99'undan fazlası başarıyla tespit edildi
  • Biyo/kimya, siber güvenlik, yapay zekanın kendi kendini geliştirmesi gibi risk alanlarında yüksek risk seviyesinin altında değerlendirildi
  • En güncel Preparedness Framework ölçütlerine göre güvenlik doğrulaması tamamlandı

Codex CLI: Terminalde kullanılan gelişmiş akıl yürütme ajanı

  • o3 ve o4-mini'nin akıl yürütme yeteneklerini terminalde de kullanılabilir hale getiren araç
  • Kullanıcılar kod, görüntü, ekran görüntüsü gibi içerikleri CLI üzerinden doğrudan modele verebiliyor
  • Model, yerel ortamdaki kodla entegre çalışarak çok modlu akıl yürütme gerçekleştirebiliyor
  • Açık kaynak olarak yayımlandı: github.com/openai/codex
  • OpenAI ayrıca Codex CLI tabanlı projeler için 1 milyon dolarlık destek programı da başlattı

Erişim yöntemi

  • ChatGPT Plus, Pro ve Team kullanıcıları: o3, o4-mini, o4-mini-high modellerine hemen erişebilir
  • Enterprise ve Education kullanıcıları: 1 hafta sonra erişebilecek
  • Ücretsiz kullanıcılar da 'Think' seçeneğini seçerek o4-mini'yi kullanabilecek
  • API kullanıcıları da bugünden itibaren kullanabilir (kurum doğrulaması gerekebilir)
  • Responses API'de akıl yürütme özeti, function calling çevresindeki akıl yürütmeyi koruma, web arama aracı gibi çeşitli özellikler sunulacak

Gelecek yönelim

  • o serisinin uzman akıl yürütme yeteneği ile GPT serisinin doğal konuşma yeteneğinin birleştirilmesi planlanıyor
  • Gelecekte, araçları proaktif biçimde kullanırken doğal sohbeti sürdürebilen modeller yönünde gelişim hedefleniyor

1 yorum

 
GN⁺ 2025-04-17
Hacker News yorumları
  • Final Fantasy VII tersine mühendisliği hakkında teknik bir soru soruldu, ancak yapay zeka yanlış bilgi verdi

    • Yapay zeka forumlarda ve sitelerde bilgi buldu, ancak yanlış ayrıntılar uydurduğu için sonuç hatalıydı
    • Yapay zeka cevabı bilmediğinin farkındaydı, ancak kendinden emin şekilde yanlış değerler sundu
    • Cevabı bulamıyorsa bunu dürüstçe söylemesi bekleniyor
  • NixOS'ta en güncel WebStorm kurulumunu yapmak için o3 kullanıldı; NixOS VM çalıştırıp paketi indirerek kurulum talimatları verdi

    • Görünüşe göre GUI testi bile yaptı; bu oldukça etkileyici
  • Claude 3.7, SWE-bench'te hâlâ en iyi performansı gösteriyor

    • OpenAI modellerinin de benzer performans göstermesi mümkün
  • C# içinde base 62 dönüştürücü yazmaya yönelik basit bir "Turing testi", o4-mini-high ile başarıyla gerçekleştirildi

  • 2025 Ağustos'taki yeni ay tarihi çeşitli yapay zekalara soruldu, ancak çoğundan yanlış yanıt alındı

    • Claude, belirli bir arama motorunu engelleme yöntemi hakkında yanıt vermeyi reddetti
  • o3 ve o4, web arama aracı olmadığında bunun farkına varıp yanıt vermeyi reddediyor

    • 4o ve 4.1 ise yanlış bilgi veriyor
    • Yeni web arama özelliği faydalı; gereksiz Python betiklerini silmeyi mümkün kılıyor
  • Codex CLI açık kaynak olarak sunuldu

  • Sonnet 3.7 veya Gemini Pro 2.5 ile karşılaştırma yoktu

  • Büyük ölçekli reinforcement learning, daha fazla hesaplama kaynağı kullandıkça performansın artma eğiliminde olduğunu gösteriyor

    • Bu eğilimin ne kadar süreceği merak konusu
  • Tüketici açısından hangi modeli kullanmak gerektiğini takip etmek yorucu