11 puan yazan GN⁺ 2026-03-06 | 2 yorum | WhatsApp'ta paylaş
  • ChatGPT, API ve Codex genelinde kullanılan en yeni frontier model olarak; muhakeme, kodlama ve ajan iş akışı performansını bir araya getiriyor
  • Yerel computer-use özelliğini dahili olarak sunarak, ajanların web sitelerini ve yazılımları doğrudan kontrol edip karmaşık iş akışlarını yürütebilmesini sağlıyor
  • En fazla 1M token context window desteğiyle, araç arama ve verimli token kullanımı sayesinde hız ve maliyet tasarrufu sağlıyor
  • ChatGPT'nin Thinking modunda yanıt sırasında düşünme süreci ayarlanabiliyor; derin web araştırması ve bağlamı koruma yetenekleri geliştirildi
  • GPT-5.3-Codex'in kodlama performansını devralırken, hesap tablosu, sunum ve doküman çalışmaları doğruluğu ile verimliliğini önemli ölçüde iyileştiriyor

GPT‑5.4 genel bakış

  • GPT‑5.4, ChatGPT (Thinking modu), API ve Codex'e aynı anda dağıtılan en güçlü ve en verimli model
    • GPT‑5.4 Pro sürümü, karmaşık görevlerde en yüksek performansı sunuyor
  • GPT‑5.3‑Codex'in kodlama yeteneklerini entegre ediyor ve hesap tablosu, sunum, doküman işleri gibi profesyonel iş ortamlarında doğruluk ve verimliliği artırıyor
  • Araçlar ve yazılım ortamları arasındaki entegrasyon geliştirildiği için, gerçek iş akışlarında ileri geri yapılan konuşmalar azalıyor

ChatGPT'nin Thinking modu iyileştirmeleri

  • GPT-5.4 Thinking, görevin başında düşünme süreci için bir ön plan (preamble) sunarak, kullanıcının yanıt oluşturulurken yönü ortada değiştirebilmesini sağlıyor
  • Ek tura gerek kalmadan son çıktının kullanıcı niyetine daha doğru uyması için tasarlandı
  • Derin web araştırması performansı artırıldı; özellikle çok spesifik sorgularda etkili
  • Uzun düşünme gerektiren sorularda önceki bağlamı koruma yeteneği iyileştirildi; böylece daha yüksek kaliteli yanıtlar daha hızlı veriliyor
  • chatgpt.com ve Android uygulamasında hemen kullanılabiliyor; iOS uygulaması desteği daha sonra gelecek

Bilgisayar kullanımı ve görsel yetenekler

  • GPT-5.4, genel amaçlı modeller arasında ilk kez yerel computer-use özelliği ile gelen model
  • Playwright gibi kütüphaneler üzerinden kod tabanlı bilgisayar kontrolünü ve ekran görüntüsüne dayalı fare-klavye komutlarını birlikte destekliyor
  • Geliştirici mesajlarıyla davranış ayarlanabiliyor; özel onay politikası (confirmation policy) ile risk toleransı ayrı ayrı belirlenebiliyor
  • OSWorld-Verified'da %75.0 elde ederek insan performansı olan %72.4'ü aşıyor ve GPT-5.2'nin %47.3 sonucuna göre büyük sıçrama gösteriyor
  • WebArena-Verified'da DOM + ekran görüntüsü tabanlı etkileşimle %67.3 elde etti (GPT-5.2: %65.4)
  • Online-Mind2Web'de yalnızca ekran görüntüsü tabanlı gözlemle %92.8 elde etti (ChatGPT Atlas Agent Mode: %70.9)

Görsel algı ve doküman ayrıştırma iyileştirmeleri

  • Geliştirilmiş genel görsel algı yetenekleri, bilgisayar kullanım özelliğinin temelini oluşturuyor
  • MMMU-Pro'da araç kullanmadan %81.2 (GPT-5.2: %79.5), araç kullanırken %82.1 (GPT-5.2: %80.4)
  • OmniDocBench'te muhakeme olmadan ortalama hata (normalize edilmiş düzenleme mesafesi) 0.109'a indi (GPT-5.2: 0.140)
  • Yeni original görüntü giriş ayrıntı seviyesi eklendi: en fazla 10.24M piksel veya 6000px maksimum boyuta kadar tam doğrulukta algılama desteği
    • high seviyesi en fazla 2.56M piksel veya 2048px maksimum boyuta genişletildi
    • İlk API kullanıcı testlerinde konum belirleme, görüntü anlama ve tıklama doğruluğunda güçlü iyileşmeler görüldü

Kodlama performansı

  • GPT-5.3-Codex'in kodlama güçlü yönlerini profesyonel iş ve bilgisayar kullanım yetenekleriyle birleştiriyor
  • SWE-Bench Pro'da %57.7 elde etti (GPT-5.3-Codex: %56.8, GPT-5.2: %55.6)
  • Tüm muhakeme seviyelerinde GPT-5.3-Codex'e göre daha düşük gecikme sunuyor
  • Codex'te /fast modu etkinleştirildiğinde, aynı model ve aynı zeka düzeyini koruyarak token hızında 1.5 kata kadar artış sağlıyor
    • API'de aynı yüksek hız performansına Priority Processing ile erişilebiliyor
  • Karmaşık frontend işlerinde önceki modellere göre belirgin biçimde daha estetik ve işlevsel sonuçlar üretiyor
  • Deneysel Codex yeteneği "Playwright (Interactive)" duyuruldu: web ve Electron uygulamalarında görsel hata ayıklamayı destekliyor, geliştirilmekte olan uygulamaları gerçek zamanlı test etmeyi mümkün kılıyor

Tool Search özelliği

  • Daha önce tüm araç tanımları prompt içine önceden eklenerek binlerce ila on binlerce token harcanıyordu; Tool Search ile yalnızca hafif bir araç listesi veriliyor ve gerektiğinde tanımlar dinamik olarak çağrılıyor
  • Araç yoğun iş akışlarında token kullanımını dramatik biçimde azaltıyor ve önbelleği koruyarak hem hız hem maliyeti iyileştiriyor
  • Özellikle on binlerce token büyüklüğündeki MCP sunucu araç tanımlarında verimlilik artışı yüksek
  • Scale'in MCP Atlas benchmark'ında 250 görev baz alındığında, 36 MCP sunucusunun tamamı Tool Search'e geçirildiğinde toplam token kullanımı %47 azaldı, doğruluk ise aynı kaldı

Araç çağırma ve ajan performansı

  • GPT-5.4, muhakeme sırasında araçların ne zaman ve nasıl kullanılacağı konusunda doğruluk ve verimliliği iyileştiriyor
  • Toolathlon'da %54.6 elde etti (GPT-5.2: %45.7); daha az turla daha yüksek doğruluk sağladı
    • E-posta okuma, ödev eklerini çıkarma, yükleme, not verme, sonuçları hesap tablosuna kaydetme gibi çok adımlı gerçek araç kullanımı görevleri değerlendiriliyor
  • Muhakemesiz düşük gecikmeli senaryolarda da τ2-bench Telecom'da %64.3 elde etti (GPT-5.2: %57.2, GPT-4.1: %43.6)
  • BrowseComp'ta %82.7, GPT-5.4 Pro ile %89.3 elde ederek yeni en yüksek performansa ulaştı (GPT-5.2: %65.8)
    • "Samanlıkta iğne arama" türü zor bilgi aramalarında, birden çok tur boyunca sürekli arama yapabilme yeteneği gelişti

Profesyonel iş ve bilgi çalışması performansı

  • GDPval'de ABD GSYH'sinin en büyük 9 sektöründe ve 44 meslekteki gerçek iş çıktıları (satış sunumları, muhasebe hesap tabloları, acil servis çizelgeleri, üretim diyagramları, kısa videolar vb.) değerlendirildi
    • GPT-5.4: uzman düzeyine %83.0 oranında eşit ya da daha iyi sonuç verdi (GPT-5.2: %70.9)
  • Kurum içi yatırım bankacılığı hesap tablosu modelleme benchmark'ında ortalama %87.3 elde etti (GPT-5.2: %68.4)
  • Sunum değerlendirmelerinde insan değerlendiriciler GPT-5.4 çıktısını %68.0 oranında tercih etti (estetik bütünlük, görsel çeşitlilik ve görüntü üretimi kullanımında güçlü)
  • Halüsinasyon ve hata azalması: kullanıcıların olgusal hata bildirdiği prompt'lar temel alındığında, tekil iddiaların yanlış olma olasılığı %33 azaldı, tüm yanıtın hata içermesi olasılığı ise %18 düştü (GPT-5.2'ye kıyasla)

1M context window ve uzun bağlam performansı

  • En fazla 1M token context desteğiyle ajanların geniş kapsamlı görevleri planlayıp yürütmesi ve doğrulaması mümkün oluyor
  • Codex'te deneysel olarak 1M context window desteği sunuluyor; model_context_window ve model_auto_compact_token_limit ayarlarıyla yapılandırılabiliyor
    • Standart 272K context window'u aşan istekler 2 kat ücret ile fiyatlandırılıyor
  • Graphwalks BFS 0K–128K: %93.0, 256K–1M: %21.4
  • OpenAI MRCR v2 8-needle: 4K–8K'de %97.3, 128K–256K'de %79.3, 512K–1M'de %36.6

Soyut muhakeme ve akademik benchmark'lar

  • ARC-AGI-1 (Verified): %93.7 (GPT-5.2: %86.2), ARC-AGI-2 (Verified): %73.3 (GPT-5.2: %52.9)
  • GPT-5.4 Pro, ARC-AGI-2'de %83.3 elde etti
  • Frontier Science Research: %33.0 (GPT-5.2: %25.2), FrontierMath Tier 1–3: %47.6 (GPT-5.2: %40.7)
  • FrontierMath Tier 4: %27.1 (GPT-5.2: %18.8), GPT-5.4 Pro ise %38.0
  • GPQA Diamond: %92.8 (GPT-5.2: %92.4)
  • Humanity's Last Exam: araç kullanmadan %39.8, araç kullanırken %52.1 (GPT-5.2: sırasıyla %34.5 ve %45.5)
    • GPT-5.4 Pro, araç kullanımıyla %58.7 elde etti

Güvenlik ve emniyet

  • GPT-5.3-Codex ile sunulan korumaları sürekli geliştiriyor ve Preparedness Framework kapsamında yüksek siber yetenek düzeyinde sınıflandırılıyor
  • Genişletilmiş siber güvenlik yığını: izleme sistemleri, güvene dayalı erişim kontrolü ve Zero Data Retention (ZDR) yüzeylerinde asenkron engelleme dahil
  • Siber güvenlik yeteneklerinin çift kullanımlı doğası dikkate alınarak önleyici dağıtım yaklaşımı benimseniyor; sınıflandırıcı doğruluğu iyileştirilirken bazı yanlış pozitifler (false positive) görülebilir
  • Gereksiz retleri ve aşırı ipucu veren yanıtları azaltırken, kötüye kullanımı önleyici korumaları sürdürmeyi hedefliyor
  • Chain-of-Thought (CoT) izleme araştırmaları devam ediyor: yeni açık kaynak değerlendirme aracı CoT controllability yayımlandı
    • GPT-5.4 Thinking'in CoT kontrol edilebilirliği düşük olduğundan, modelin muhakemesini gizlemesi daha zor; bu da güvenlik açısından olumlu görülüyor

Fiyatlandırma ve çıkış bilgileri

  • API model adı: gpt-5.4, Pro sürümü: gpt-5.4-pro
  • API fiyatları (M token başına):
    • gpt-5.4: giriş $2.50, önbellekli giriş $0.25, çıkış $15
    • gpt-5.4-pro: giriş $30, çıkış $180
    • gpt-5.2: giriş $1.75, önbellekli giriş $0.175, çıkış $14
  • GPT-5.2'ye göre token başına fiyat daha yüksek olsa da, token verimliliğindeki artış sayesinde görev başına toplam token kullanımı azalıyor
  • Batch ve Flex fiyatlandırması standart ücretin yarısı, Priority Processing ise standart ücretin 2 katı
  • ChatGPT'de GPT-5.4 Thinking, Plus, Team, Pro kullanıcılarına hemen sunuluyor ve GPT-5.2 Thinking'in yerini alıyor
    • GPT-5.2 Thinking, ücretli kullanıcılar için Legacy Models bölümünde 3 ay daha kalacak ve 5 Haziran 2026'da sona erecek
    • Enterprise ve Edu planlarında erken erişim yönetici ayarlarından etkinleştirilebiliyor
    • GPT-5.4 Pro, Pro ve Enterprise planlarında sunuluyor
  • GPT-5.4, GPT-5.3-Codex'in frontier kodlama yeteneklerini birleştiren ilk ana hat muhakeme modeli; Instant modeli ile Thinking modeli gelecekte farklı hızlarda evrilecek

2 yorum

 
helio 2026-03-06

Codex'te /fast modu etkinleştirildiğinde, maksimum 1.5 kat daha hızlı token hızı sağlanırken aynı model ve aynı zeka seviyesi korunuyor. API'de ise Priority Processing kullanılıyor.
Priority Processing, standart ücretin 2 katı fiyatlandırılıyor
Standart 272K bağlam penceresini aşan istekler, 2 kat ücretle faturalandırılıyor

 
GN⁺ 2026-03-06
Hacker News yorumları
  • Blog yazısının altındaki “Ask ChatGPT” kutusu komikti
    Yazının içeriğini özetlemesini isteyince yeni bir pencere açılıyor ama sadece “harici URL’lere erişemem” yanıtı dönüyor
    OpenAI’ın bu özelliğin gerçekten çalışmadığını bilip bilmediğini merak ediyorum

    • Sanırım sadece giriş yapmamış kullanıcılarda çalışmıyor
      Giriş yapmış durumdayken düzgün çalıştı ve ekibe bir bug report gönderdim
    • Ben denediğimde düzgün şekilde özetledi
      paylaşılan örnek bağlantıya bakabilirsiniz
      Ben de giriş yapmış durumdaydım
    • Bende de giriş yapmışken özetleme gayet iyi çalıştı
      Muhtemelen harici URL erişim izni giriş durumuna göre değişiyor
    • Uzun zaman sonra yine Claude kullandım, UX epey iyileşmişti
      Anthropic bu tür ince UX detaylarına daha çok dikkat ediyor gibi görünüyor
    • Acaba o mesaj telif hakkı sorunu yüzünden mi çıkıyordu diye merak ettim
  • OpenAI’ın model serisi fazla karmaşık hale gelmiş gibi hissettiriyor
    GPT‑5.1, 5.2, 5.4 ile Codex 5.3 ve Instant 5.3 birbirine karışmış durumda
    Buna karşılık Anthropic yalnızca üç modeli net biçimde ayırıyor, Google’da ise hâlâ sadece Preview modelleri var
    Geliştirici olarak kararlı bir sürüm kullanmak zor diye şikâyet ediliyor

    • Google’ın eski araçları vs yeni beta araçları memi aklıma geliyor
      Sürekli ikisinden sadece birini seçmek zorunda kalınan bir durum tekrar ediyor
    • Sürüm numaralandırmasının kafa karıştırıcı olduğunu söylemek fazla ince eleyip sık dokumak gibi geliyor
      Bir mühendisseniz 5.4 > 5.2 > 5.1 gibi şeyleri rahatça anlarsınız
    • Google, 2.5 modelini yakında kullanımdan kaldıracağını (deprecate) bildirdi
      3.x ise hâlâ Preview olduğu için kafa karıştırıyor
    • Anthropic’in sürüm sistemi de dağınık
      Opus, Sonnet ve Haiku arasındaki sürümler birbirinden kopuk, fiyat yapısı da karmaşık
      Sonuçta tüm şirketler benzer sorunlar yaşıyor
    • Her ay daha iyi bir model çıkıyorken aynı modele inatla bağlı kalmak için bir neden yok
      Sadece API’yi değiştirerek kolayca geçiş yapılabilen bir dönemdeyiz
  • GPT‑5.4’ün asıl öne çıkan tarafı 1M token context window
    resmî fiyatlandırmaya göre 200k üzeri için ek ücret yok
    Opus 4.6’dan çok daha ucuz ama 1M context’in pratikte gerçekten anlamlı bir fayda sağlayıp sağlamayacağı tartışmalı
    güncellenmiş belgelere göre GPT‑5.3‑Codex’in yerini alıyor

    • model belgelerine göre
      272K token aşıldığında giriş için 2 kat, çıkış için 1.5 kat ücret uygulanıyor
    • Uzun context vs compaction her zaman bir ikilem
      Token sayısı arttıkça maliyet ve gecikme de artıyor
      OpenAI’ın dahili testlerinde kısa context çoğu durumda daha verimliydi
      (çalışan yorumu)
    • Claude aynı iş için daha az token gerektirdiğinden
      kıyaslama iş başı maliyet üzerinden yapılmalı
      Gerçekte GPT‑5.x ile Opus’un maliyeti benzer seviyede
      Benchmark’lardan çok gerçek iş sonuçları önemli
    • Çoğu kişi sadece resmî fiyatlandırmaya bakıyor
      ama aslında geliştirici belgeleri daha doğru
      Temel fiyat sadece 272k altına kadar geçerli
    • Context rot sorunu hâlâ var
      ama Anthropic bunu uzun görevler için RL ile hafifletmeyi planlıyor
  • GPT‑5.4’ü birkaç kez kullandım, yazının açıklığı ve analiz gücü etkileyiciydi
    5.3‑Codex’ten çok daha doğal ve insani bir üslup kullanıyor
    Bunun nedeni AGENTS.md dosyamın sade bir dil istemesi de olabilir

    • Ama benim kod tabanımda kritik bir veri kaybı bug’ını kaçırdı
    • Her yeni model çıktığında “önceki model ilkeldi” tarzı yazılar çıkıyor
      Sanki aynı döngü tekrar ediyor
    • Ben de Opus’tan Codex’e geçtim, muhakeme daha yavaş ama doğruluk arttı
      Claude kıyasla biraz daha gevşek hissettiriyor
    • Aynı AGENTS.md dosyası kullanılırsa aynı sonucun çıkıp çıkmayacağını merak ediyorum
    • Son araştırmalara göre AGENTS.md eklemek hatta performansı düşürüyor olabilir
  • OpenAI, 8 ay boyunca sürüm numarası karmaşasından kaçındıktan sonra sonunda yeniden karmaşık hale geldi
    GPT‑5.3 Instant, GPT‑5.4 Thinking gibi isimler birbirine girmiş durumda

    • GPT‑5.3 Instant ile gpt‑5.3‑chat arasındaki fark kafa karıştırıyor
    • Aslında 5.3 Codex de vardı
    • Instant modeller özetleme ya da arama için iyi ama karmaşık konuşmalarda bağlamı kolay kaybedebiliyor
      Amaca göre kullanmak gerekiyor
  • Blogdaki RPG oyun demosu etkileyiciydi
    “Battle Brothers” ayarında, otonom mühendisliğe iyi bir örnek gibiydi

    • Yapay zekanın tek seferde bir RollerCoaster Tycoon klonu yapması şaşırtıcı
      Böyle bir hızda giderse low-code araç pazarı tehdit altına girebilir
    • Ama gerçekte oldukça basit bir demo gibi görünüyordu
    • Muhtemelen Playwright entegrasyonu sayesinde
      Codex artık web uygulamalarını görsel olarak debug edip test edebiliyor
  • Bu model muhtemelen askerî ve güvenlik alanlarında da kullanılacak

    • Şiddetle ilgili güvenlik puanı %91’den %83’e düşmüş deniyor
    • Acaba askerî benchmark’ların (ArtificialSuperSoldier vb.) sonuçlarını da paylaştılar mı diye merak ediyorum
    • Claude modellerindeki gibi Anthropic tarzında da kullanılabilir mi diye düşünüyorum
    • Reklam sektörü de muhtemelen bu teknolojiye iştahla yaklaşacaktır
    • Askeriyede hâlâ 4.1 sürümü kullanıldığı için yükseltme biraz zaman alabilir
  • GPT‑5.4, tarayıcı ekran görüntülerini yorumlayıp Gmail arayüzünde tıklayarak e-posta gönderme yeteneğini gösterdi
    Ama bana göre böyle yapmak yerine Gmail API kullanmak daha verimli

    • Çoğu web sitesinin ya API’si yok ya da dokümantasyonu zayıf
      Ekran görüntüsü aynı anda belge, API ve gezinme aracı işlevi görüyor
    • İnsan eli için yapılmış araçları kullanabilmek adına insansı robot yapmak gibi bir his veriyor
      Başarılırsa çok daha genel amaçlı olur ama API tabanlı yaklaşım da hâlâ geçerli
    • Birçok servis API sunmaya istekli değil
      Bu yaklaşım böyle kısıtları aşabilir
    • Bilgisayar kullanma becerisi kazanmış bir model her yerde işe yarar
      ama sadece API kullanan bir model bunu yapamaz
      Ekonomik yayılım açısından ilki daha değerli
    • Wikipedia’nın API yerine daha çok web scraping ile kullanılmasına benziyor
      Sonuçta öncelik her zaman kullanım kolaylığı oluyor
  • Günlük kodlama işlerimde ilk 3 coding agent bana yetiyor
    SWE‑bench Verified’e göre GPT‑5.2 Codex 72.8 puan alırken GPT‑5.4 yaklaşık 2 puan daha yüksek
    Büyük bir sıçrama değil ama yine de gelişme var
    SWE‑bench verilerine göre Claude 4.6 Opus hâlâ 75.6 puanla önde
    Yine de Codex CLI’ın ajan özellikleri çok gelişmiş ve Claude Code seviyesine yaklaşmış durumda

  • OpenAI modelleri birleştirdikten sonra yeniden daha parçalı sürümler çıkarması kafa karıştırıcı
    GPT‑5.1, 5.2 Thinking, 5.3 Codex, 5.3 Instant, 5.4 Thinking, 5.4 Pro derken sayı fazla arttı
    Yine de 1M context window desteği sevindirici

    • Ben bu kadar seçenek olmasını seviyorum
      İhtiyaca göre seçim yapılabiliyor, genel kullanıcı ise hâlâ Auto modunu kullanabilir
    • Auto seçeneği hâlâ mevcut olduğu için çok büyük bir sorun değil
    • Muhtemelen arka planda GPT‑5’in birden fazla modeli otomatik yönlendirdiği bir yapı var