- ChatGPT, API ve Codex genelinde kullanılan en yeni frontier model olarak; muhakeme, kodlama ve ajan iş akışı performansını bir araya getiriyor
- Yerel computer-use özelliğini dahili olarak sunarak, ajanların web sitelerini ve yazılımları doğrudan kontrol edip karmaşık iş akışlarını yürütebilmesini sağlıyor
- En fazla 1M token context window desteğiyle, araç arama ve verimli token kullanımı sayesinde hız ve maliyet tasarrufu sağlıyor
- ChatGPT'nin Thinking modunda yanıt sırasında düşünme süreci ayarlanabiliyor; derin web araştırması ve bağlamı koruma yetenekleri geliştirildi
- GPT-5.3-Codex'in kodlama performansını devralırken, hesap tablosu, sunum ve doküman çalışmaları doğruluğu ile verimliliğini önemli ölçüde iyileştiriyor
GPT‑5.4 genel bakış
- GPT‑5.4, ChatGPT (Thinking modu), API ve Codex'e aynı anda dağıtılan en güçlü ve en verimli model
- GPT‑5.4 Pro sürümü, karmaşık görevlerde en yüksek performansı sunuyor
- GPT‑5.3‑Codex'in kodlama yeteneklerini entegre ediyor ve hesap tablosu, sunum, doküman işleri gibi profesyonel iş ortamlarında doğruluk ve verimliliği artırıyor
- Araçlar ve yazılım ortamları arasındaki entegrasyon geliştirildiği için, gerçek iş akışlarında ileri geri yapılan konuşmalar azalıyor
ChatGPT'nin Thinking modu iyileştirmeleri
- GPT-5.4 Thinking, görevin başında düşünme süreci için bir ön plan (preamble) sunarak, kullanıcının yanıt oluşturulurken yönü ortada değiştirebilmesini sağlıyor
- Ek tura gerek kalmadan son çıktının kullanıcı niyetine daha doğru uyması için tasarlandı
- Derin web araştırması performansı artırıldı; özellikle çok spesifik sorgularda etkili
- Uzun düşünme gerektiren sorularda önceki bağlamı koruma yeteneği iyileştirildi; böylece daha yüksek kaliteli yanıtlar daha hızlı veriliyor
- chatgpt.com ve Android uygulamasında hemen kullanılabiliyor; iOS uygulaması desteği daha sonra gelecek
Bilgisayar kullanımı ve görsel yetenekler
- GPT-5.4, genel amaçlı modeller arasında ilk kez yerel computer-use özelliği ile gelen model
- Playwright gibi kütüphaneler üzerinden kod tabanlı bilgisayar kontrolünü ve ekran görüntüsüne dayalı fare-klavye komutlarını birlikte destekliyor
- Geliştirici mesajlarıyla davranış ayarlanabiliyor; özel onay politikası (confirmation policy) ile risk toleransı ayrı ayrı belirlenebiliyor
- OSWorld-Verified'da %75.0 elde ederek insan performansı olan %72.4'ü aşıyor ve GPT-5.2'nin %47.3 sonucuna göre büyük sıçrama gösteriyor
- WebArena-Verified'da DOM + ekran görüntüsü tabanlı etkileşimle %67.3 elde etti (GPT-5.2: %65.4)
- Online-Mind2Web'de yalnızca ekran görüntüsü tabanlı gözlemle %92.8 elde etti (ChatGPT Atlas Agent Mode: %70.9)
Görsel algı ve doküman ayrıştırma iyileştirmeleri
- Geliştirilmiş genel görsel algı yetenekleri, bilgisayar kullanım özelliğinin temelini oluşturuyor
- MMMU-Pro'da araç kullanmadan %81.2 (GPT-5.2: %79.5), araç kullanırken %82.1 (GPT-5.2: %80.4)
- OmniDocBench'te muhakeme olmadan ortalama hata (normalize edilmiş düzenleme mesafesi) 0.109'a indi (GPT-5.2: 0.140)
- Yeni
original görüntü giriş ayrıntı seviyesi eklendi: en fazla 10.24M piksel veya 6000px maksimum boyuta kadar tam doğrulukta algılama desteği
high seviyesi en fazla 2.56M piksel veya 2048px maksimum boyuta genişletildi
- İlk API kullanıcı testlerinde konum belirleme, görüntü anlama ve tıklama doğruluğunda güçlü iyileşmeler görüldü
Kodlama performansı
- GPT-5.3-Codex'in kodlama güçlü yönlerini profesyonel iş ve bilgisayar kullanım yetenekleriyle birleştiriyor
- SWE-Bench Pro'da %57.7 elde etti (GPT-5.3-Codex: %56.8, GPT-5.2: %55.6)
- Tüm muhakeme seviyelerinde GPT-5.3-Codex'e göre daha düşük gecikme sunuyor
- Codex'te /fast modu etkinleştirildiğinde, aynı model ve aynı zeka düzeyini koruyarak token hızında 1.5 kata kadar artış sağlıyor
- API'de aynı yüksek hız performansına Priority Processing ile erişilebiliyor
- Karmaşık frontend işlerinde önceki modellere göre belirgin biçimde daha estetik ve işlevsel sonuçlar üretiyor
- Deneysel Codex yeteneği "Playwright (Interactive)" duyuruldu: web ve Electron uygulamalarında görsel hata ayıklamayı destekliyor, geliştirilmekte olan uygulamaları gerçek zamanlı test etmeyi mümkün kılıyor
Tool Search özelliği
- Daha önce tüm araç tanımları prompt içine önceden eklenerek binlerce ila on binlerce token harcanıyordu; Tool Search ile yalnızca hafif bir araç listesi veriliyor ve gerektiğinde tanımlar dinamik olarak çağrılıyor
- Araç yoğun iş akışlarında token kullanımını dramatik biçimde azaltıyor ve önbelleği koruyarak hem hız hem maliyeti iyileştiriyor
- Özellikle on binlerce token büyüklüğündeki MCP sunucu araç tanımlarında verimlilik artışı yüksek
- Scale'in MCP Atlas benchmark'ında 250 görev baz alındığında, 36 MCP sunucusunun tamamı Tool Search'e geçirildiğinde toplam token kullanımı %47 azaldı, doğruluk ise aynı kaldı
Araç çağırma ve ajan performansı
- GPT-5.4, muhakeme sırasında araçların ne zaman ve nasıl kullanılacağı konusunda doğruluk ve verimliliği iyileştiriyor
- Toolathlon'da %54.6 elde etti (GPT-5.2: %45.7); daha az turla daha yüksek doğruluk sağladı
- E-posta okuma, ödev eklerini çıkarma, yükleme, not verme, sonuçları hesap tablosuna kaydetme gibi çok adımlı gerçek araç kullanımı görevleri değerlendiriliyor
- Muhakemesiz düşük gecikmeli senaryolarda da τ2-bench Telecom'da %64.3 elde etti (GPT-5.2: %57.2, GPT-4.1: %43.6)
- BrowseComp'ta %82.7, GPT-5.4 Pro ile %89.3 elde ederek yeni en yüksek performansa ulaştı (GPT-5.2: %65.8)
- "Samanlıkta iğne arama" türü zor bilgi aramalarında, birden çok tur boyunca sürekli arama yapabilme yeteneği gelişti
Profesyonel iş ve bilgi çalışması performansı
- GDPval'de ABD GSYH'sinin en büyük 9 sektöründe ve 44 meslekteki gerçek iş çıktıları (satış sunumları, muhasebe hesap tabloları, acil servis çizelgeleri, üretim diyagramları, kısa videolar vb.) değerlendirildi
- GPT-5.4: uzman düzeyine %83.0 oranında eşit ya da daha iyi sonuç verdi (GPT-5.2: %70.9)
- Kurum içi yatırım bankacılığı hesap tablosu modelleme benchmark'ında ortalama %87.3 elde etti (GPT-5.2: %68.4)
- Sunum değerlendirmelerinde insan değerlendiriciler GPT-5.4 çıktısını %68.0 oranında tercih etti (estetik bütünlük, görsel çeşitlilik ve görüntü üretimi kullanımında güçlü)
- Halüsinasyon ve hata azalması: kullanıcıların olgusal hata bildirdiği prompt'lar temel alındığında, tekil iddiaların yanlış olma olasılığı %33 azaldı, tüm yanıtın hata içermesi olasılığı ise %18 düştü (GPT-5.2'ye kıyasla)
1M context window ve uzun bağlam performansı
- En fazla 1M token context desteğiyle ajanların geniş kapsamlı görevleri planlayıp yürütmesi ve doğrulaması mümkün oluyor
- Codex'te deneysel olarak 1M context window desteği sunuluyor;
model_context_window ve model_auto_compact_token_limit ayarlarıyla yapılandırılabiliyor
- Standart 272K context window'u aşan istekler 2 kat ücret ile fiyatlandırılıyor
- Graphwalks BFS 0K–128K: %93.0, 256K–1M: %21.4
- OpenAI MRCR v2 8-needle: 4K–8K'de %97.3, 128K–256K'de %79.3, 512K–1M'de %36.6
Soyut muhakeme ve akademik benchmark'lar
- ARC-AGI-1 (Verified): %93.7 (GPT-5.2: %86.2), ARC-AGI-2 (Verified): %73.3 (GPT-5.2: %52.9)
- GPT-5.4 Pro, ARC-AGI-2'de %83.3 elde etti
- Frontier Science Research: %33.0 (GPT-5.2: %25.2), FrontierMath Tier 1–3: %47.6 (GPT-5.2: %40.7)
- FrontierMath Tier 4: %27.1 (GPT-5.2: %18.8), GPT-5.4 Pro ise %38.0
- GPQA Diamond: %92.8 (GPT-5.2: %92.4)
- Humanity's Last Exam: araç kullanmadan %39.8, araç kullanırken %52.1 (GPT-5.2: sırasıyla %34.5 ve %45.5)
- GPT-5.4 Pro, araç kullanımıyla %58.7 elde etti
Güvenlik ve emniyet
- GPT-5.3-Codex ile sunulan korumaları sürekli geliştiriyor ve Preparedness Framework kapsamında yüksek siber yetenek düzeyinde sınıflandırılıyor
- Genişletilmiş siber güvenlik yığını: izleme sistemleri, güvene dayalı erişim kontrolü ve Zero Data Retention (ZDR) yüzeylerinde asenkron engelleme dahil
- Siber güvenlik yeteneklerinin çift kullanımlı doğası dikkate alınarak önleyici dağıtım yaklaşımı benimseniyor; sınıflandırıcı doğruluğu iyileştirilirken bazı yanlış pozitifler (false positive) görülebilir
- Gereksiz retleri ve aşırı ipucu veren yanıtları azaltırken, kötüye kullanımı önleyici korumaları sürdürmeyi hedefliyor
- Chain-of-Thought (CoT) izleme araştırmaları devam ediyor: yeni açık kaynak değerlendirme aracı CoT controllability yayımlandı
- GPT-5.4 Thinking'in CoT kontrol edilebilirliği düşük olduğundan, modelin muhakemesini gizlemesi daha zor; bu da güvenlik açısından olumlu görülüyor
Fiyatlandırma ve çıkış bilgileri
- API model adı:
gpt-5.4, Pro sürümü: gpt-5.4-pro
- API fiyatları (M token başına):
- gpt-5.4: giriş $2.50, önbellekli giriş $0.25, çıkış $15
- gpt-5.4-pro: giriş $30, çıkış $180
- gpt-5.2: giriş $1.75, önbellekli giriş $0.175, çıkış $14
- GPT-5.2'ye göre token başına fiyat daha yüksek olsa da, token verimliliğindeki artış sayesinde görev başına toplam token kullanımı azalıyor
- Batch ve Flex fiyatlandırması standart ücretin yarısı, Priority Processing ise standart ücretin 2 katı
- ChatGPT'de GPT-5.4 Thinking, Plus, Team, Pro kullanıcılarına hemen sunuluyor ve GPT-5.2 Thinking'in yerini alıyor
- GPT-5.2 Thinking, ücretli kullanıcılar için Legacy Models bölümünde 3 ay daha kalacak ve 5 Haziran 2026'da sona erecek
- Enterprise ve Edu planlarında erken erişim yönetici ayarlarından etkinleştirilebiliyor
- GPT-5.4 Pro, Pro ve Enterprise planlarında sunuluyor
- GPT-5.4, GPT-5.3-Codex'in frontier kodlama yeteneklerini birleştiren ilk ana hat muhakeme modeli; Instant modeli ile Thinking modeli gelecekte farklı hızlarda evrilecek
2 yorum
Hacker News yorumları
Blog yazısının altındaki “Ask ChatGPT” kutusu komikti
Yazının içeriğini özetlemesini isteyince yeni bir pencere açılıyor ama sadece “harici URL’lere erişemem” yanıtı dönüyor
OpenAI’ın bu özelliğin gerçekten çalışmadığını bilip bilmediğini merak ediyorum
Giriş yapmış durumdayken düzgün çalıştı ve ekibe bir bug report gönderdim
paylaşılan örnek bağlantıya bakabilirsiniz
Ben de giriş yapmış durumdaydım
Muhtemelen harici URL erişim izni giriş durumuna göre değişiyor
Anthropic bu tür ince UX detaylarına daha çok dikkat ediyor gibi görünüyor
OpenAI’ın model serisi fazla karmaşık hale gelmiş gibi hissettiriyor
GPT‑5.1, 5.2, 5.4 ile Codex 5.3 ve Instant 5.3 birbirine karışmış durumda
Buna karşılık Anthropic yalnızca üç modeli net biçimde ayırıyor, Google’da ise hâlâ sadece Preview modelleri var
Geliştirici olarak kararlı bir sürüm kullanmak zor diye şikâyet ediliyor
Sürekli ikisinden sadece birini seçmek zorunda kalınan bir durum tekrar ediyor
Bir mühendisseniz 5.4 > 5.2 > 5.1 gibi şeyleri rahatça anlarsınız
3.x ise hâlâ Preview olduğu için kafa karıştırıyor
Opus, Sonnet ve Haiku arasındaki sürümler birbirinden kopuk, fiyat yapısı da karmaşık
Sonuçta tüm şirketler benzer sorunlar yaşıyor
Sadece API’yi değiştirerek kolayca geçiş yapılabilen bir dönemdeyiz
GPT‑5.4’ün asıl öne çıkan tarafı 1M token context window
resmî fiyatlandırmaya göre 200k üzeri için ek ücret yok
Opus 4.6’dan çok daha ucuz ama 1M context’in pratikte gerçekten anlamlı bir fayda sağlayıp sağlamayacağı tartışmalı
güncellenmiş belgelere göre GPT‑5.3‑Codex’in yerini alıyor
272K token aşıldığında giriş için 2 kat, çıkış için 1.5 kat ücret uygulanıyor
Token sayısı arttıkça maliyet ve gecikme de artıyor
OpenAI’ın dahili testlerinde kısa context çoğu durumda daha verimliydi
(çalışan yorumu)
kıyaslama iş başı maliyet üzerinden yapılmalı
Gerçekte GPT‑5.x ile Opus’un maliyeti benzer seviyede
Benchmark’lardan çok gerçek iş sonuçları önemli
ama aslında geliştirici belgeleri daha doğru
Temel fiyat sadece 272k altına kadar geçerli
ama Anthropic bunu uzun görevler için RL ile hafifletmeyi planlıyor
GPT‑5.4’ü birkaç kez kullandım, yazının açıklığı ve analiz gücü etkileyiciydi
5.3‑Codex’ten çok daha doğal ve insani bir üslup kullanıyor
Bunun nedeni AGENTS.md dosyamın sade bir dil istemesi de olabilir
Sanki aynı döngü tekrar ediyor
Claude kıyasla biraz daha gevşek hissettiriyor
OpenAI, 8 ay boyunca sürüm numarası karmaşasından kaçındıktan sonra sonunda yeniden karmaşık hale geldi
GPT‑5.3 Instant, GPT‑5.4 Thinking gibi isimler birbirine girmiş durumda
Amaca göre kullanmak gerekiyor
Blogdaki RPG oyun demosu etkileyiciydi
“Battle Brothers” ayarında, otonom mühendisliğe iyi bir örnek gibiydi
Böyle bir hızda giderse low-code araç pazarı tehdit altına girebilir
Codex artık web uygulamalarını görsel olarak debug edip test edebiliyor
Bu model muhtemelen askerî ve güvenlik alanlarında da kullanılacak
GPT‑5.4, tarayıcı ekran görüntülerini yorumlayıp Gmail arayüzünde tıklayarak e-posta gönderme yeteneğini gösterdi
Ama bana göre böyle yapmak yerine Gmail API kullanmak daha verimli
Ekran görüntüsü aynı anda belge, API ve gezinme aracı işlevi görüyor
Başarılırsa çok daha genel amaçlı olur ama API tabanlı yaklaşım da hâlâ geçerli
Bu yaklaşım böyle kısıtları aşabilir
ama sadece API kullanan bir model bunu yapamaz
Ekonomik yayılım açısından ilki daha değerli
Sonuçta öncelik her zaman kullanım kolaylığı oluyor
Günlük kodlama işlerimde ilk 3 coding agent bana yetiyor
SWE‑bench Verified’e göre GPT‑5.2 Codex 72.8 puan alırken GPT‑5.4 yaklaşık 2 puan daha yüksek
Büyük bir sıçrama değil ama yine de gelişme var
SWE‑bench verilerine göre Claude 4.6 Opus hâlâ 75.6 puanla önde
Yine de Codex CLI’ın ajan özellikleri çok gelişmiş ve Claude Code seviyesine yaklaşmış durumda
OpenAI modelleri birleştirdikten sonra yeniden daha parçalı sürümler çıkarması kafa karıştırıcı
GPT‑5.1, 5.2 Thinking, 5.3 Codex, 5.3 Instant, 5.4 Thinking, 5.4 Pro derken sayı fazla arttı
Yine de 1M context window desteği sevindirici
İhtiyaca göre seçim yapılabiliyor, genel kullanıcı ise hâlâ Auto modunu kullanabilir