GPT‑5.4 tanıtıldı

(openai.com)

11 puan yazan GN⁺ 2026-03-06 | 2 yorum | WhatsApp'ta paylaş

ChatGPT, API ve Codex genelinde kullanılan en yeni frontier model olarak; muhakeme, kodlama ve ajan iş akışı performansını bir araya getiriyor
Yerel computer-use özelliğini dahili olarak sunarak, ajanların web sitelerini ve yazılımları doğrudan kontrol edip karmaşık iş akışlarını yürütebilmesini sağlıyor
En fazla 1M token context window desteğiyle, araç arama ve verimli token kullanımı sayesinde hız ve maliyet tasarrufu sağlıyor
ChatGPT'nin Thinking modunda yanıt sırasında düşünme süreci ayarlanabiliyor; derin web araştırması ve bağlamı koruma yetenekleri geliştirildi
GPT-5.3-Codex'in kodlama performansını devralırken, hesap tablosu, sunum ve doküman çalışmaları doğruluğu ile verimliliğini önemli ölçüde iyileştiriyor

GPT‑5.4 genel bakış

GPT‑5.4, ChatGPT (Thinking modu), API ve Codex'e aynı anda dağıtılan en güçlü ve en verimli model
- GPT‑5.4 Pro sürümü, karmaşık görevlerde en yüksek performansı sunuyor
GPT‑5.3‑Codex'in kodlama yeteneklerini entegre ediyor ve hesap tablosu, sunum, doküman işleri gibi profesyonel iş ortamlarında doğruluk ve verimliliği artırıyor
Araçlar ve yazılım ortamları arasındaki entegrasyon geliştirildiği için, gerçek iş akışlarında ileri geri yapılan konuşmalar azalıyor

ChatGPT'nin Thinking modu iyileştirmeleri

GPT-5.4 Thinking, görevin başında düşünme süreci için bir ön plan (preamble) sunarak, kullanıcının yanıt oluşturulurken yönü ortada değiştirebilmesini sağlıyor
Ek tura gerek kalmadan son çıktının kullanıcı niyetine daha doğru uyması için tasarlandı
Derin web araştırması performansı artırıldı; özellikle çok spesifik sorgularda etkili
Uzun düşünme gerektiren sorularda önceki bağlamı koruma yeteneği iyileştirildi; böylece daha yüksek kaliteli yanıtlar daha hızlı veriliyor
chatgpt.com ve Android uygulamasında hemen kullanılabiliyor; iOS uygulaması desteği daha sonra gelecek

Bilgisayar kullanımı ve görsel yetenekler

GPT-5.4, genel amaçlı modeller arasında ilk kez yerel computer-use özelliği ile gelen model
Playwright gibi kütüphaneler üzerinden kod tabanlı bilgisayar kontrolünü ve ekran görüntüsüne dayalı fare-klavye komutlarını birlikte destekliyor
Geliştirici mesajlarıyla davranış ayarlanabiliyor; özel onay politikası (confirmation policy) ile risk toleransı ayrı ayrı belirlenebiliyor
OSWorld-Verified'da %75.0 elde ederek insan performansı olan %72.4'ü aşıyor ve GPT-5.2'nin %47.3 sonucuna göre büyük sıçrama gösteriyor
WebArena-Verified'da DOM + ekran görüntüsü tabanlı etkileşimle %67.3 elde etti (GPT-5.2: %65.4)
Online-Mind2Web'de yalnızca ekran görüntüsü tabanlı gözlemle %92.8 elde etti (ChatGPT Atlas Agent Mode: %70.9)

Görsel algı ve doküman ayrıştırma iyileştirmeleri

Geliştirilmiş genel görsel algı yetenekleri, bilgisayar kullanım özelliğinin temelini oluşturuyor
MMMU-Pro'da araç kullanmadan %81.2 (GPT-5.2: %79.5), araç kullanırken %82.1 (GPT-5.2: %80.4)
OmniDocBench'te muhakeme olmadan ortalama hata (normalize edilmiş düzenleme mesafesi) 0.109'a indi (GPT-5.2: 0.140)
Yeni original görüntü giriş ayrıntı seviyesi eklendi: en fazla 10.24M piksel veya 6000px maksimum boyuta kadar tam doğrulukta algılama desteği
- high seviyesi en fazla 2.56M piksel veya 2048px maksimum boyuta genişletildi
- İlk API kullanıcı testlerinde konum belirleme, görüntü anlama ve tıklama doğruluğunda güçlü iyileşmeler görüldü
Reklam

Kodlama performansı

GPT-5.3-Codex'in kodlama güçlü yönlerini profesyonel iş ve bilgisayar kullanım yetenekleriyle birleştiriyor
SWE-Bench Pro'da %57.7 elde etti (GPT-5.3-Codex: %56.8, GPT-5.2: %55.6)
Tüm muhakeme seviyelerinde GPT-5.3-Codex'e göre daha düşük gecikme sunuyor
Codex'te /fast modu etkinleştirildiğinde, aynı model ve aynı zeka düzeyini koruyarak token hızında 1.5 kata kadar artış sağlıyor
- API'de aynı yüksek hız performansına Priority Processing ile erişilebiliyor
Karmaşık frontend işlerinde önceki modellere göre belirgin biçimde daha estetik ve işlevsel sonuçlar üretiyor
Deneysel Codex yeteneği "Playwright (Interactive)" duyuruldu: web ve Electron uygulamalarında görsel hata ayıklamayı destekliyor, geliştirilmekte olan uygulamaları gerçek zamanlı test etmeyi mümkün kılıyor

Tool Search özelliği

Daha önce tüm araç tanımları prompt içine önceden eklenerek binlerce ila on binlerce token harcanıyordu; Tool Search ile yalnızca hafif bir araç listesi veriliyor ve gerektiğinde tanımlar dinamik olarak çağrılıyor
Araç yoğun iş akışlarında token kullanımını dramatik biçimde azaltıyor ve önbelleği koruyarak hem hız hem maliyeti iyileştiriyor
Özellikle on binlerce token büyüklüğündeki MCP sunucu araç tanımlarında verimlilik artışı yüksek
Scale'in MCP Atlas benchmark'ında 250 görev baz alındığında, 36 MCP sunucusunun tamamı Tool Search'e geçirildiğinde toplam token kullanımı %47 azaldı, doğruluk ise aynı kaldı

Araç çağırma ve ajan performansı

GPT-5.4, muhakeme sırasında araçların ne zaman ve nasıl kullanılacağı konusunda doğruluk ve verimliliği iyileştiriyor
Toolathlon'da %54.6 elde etti (GPT-5.2: %45.7); daha az turla daha yüksek doğruluk sağladı
- E-posta okuma, ödev eklerini çıkarma, yükleme, not verme, sonuçları hesap tablosuna kaydetme gibi çok adımlı gerçek araç kullanımı görevleri değerlendiriliyor
Muhakemesiz düşük gecikmeli senaryolarda da τ2-bench Telecom'da %64.3 elde etti (GPT-5.2: %57.2, GPT-4.1: %43.6)
BrowseComp'ta %82.7, GPT-5.4 Pro ile %89.3 elde ederek yeni en yüksek performansa ulaştı (GPT-5.2: %65.8)
- "Samanlıkta iğne arama" türü zor bilgi aramalarında, birden çok tur boyunca sürekli arama yapabilme yeteneği gelişti
Reklam

Profesyonel iş ve bilgi çalışması performansı

GDPval'de ABD GSYH'sinin en büyük 9 sektöründe ve 44 meslekteki gerçek iş çıktıları (satış sunumları, muhasebe hesap tabloları, acil servis çizelgeleri, üretim diyagramları, kısa videolar vb.) değerlendirildi
- GPT-5.4: uzman düzeyine %83.0 oranında eşit ya da daha iyi sonuç verdi (GPT-5.2: %70.9)
Kurum içi yatırım bankacılığı hesap tablosu modelleme benchmark'ında ortalama %87.3 elde etti (GPT-5.2: %68.4)
Sunum değerlendirmelerinde insan değerlendiriciler GPT-5.4 çıktısını %68.0 oranında tercih etti (estetik bütünlük, görsel çeşitlilik ve görüntü üretimi kullanımında güçlü)
Halüsinasyon ve hata azalması: kullanıcıların olgusal hata bildirdiği prompt'lar temel alındığında, tekil iddiaların yanlış olma olasılığı %33 azaldı, tüm yanıtın hata içermesi olasılığı ise %18 düştü (GPT-5.2'ye kıyasla)

1M context window ve uzun bağlam performansı

En fazla 1M token context desteğiyle ajanların geniş kapsamlı görevleri planlayıp yürütmesi ve doğrulaması mümkün oluyor
Codex'te deneysel olarak 1M context window desteği sunuluyor; model_context_window ve model_auto_compact_token_limit ayarlarıyla yapılandırılabiliyor
- Standart 272K context window'u aşan istekler 2 kat ücret ile fiyatlandırılıyor
Graphwalks BFS 0K–128K: %93.0, 256K–1M: %21.4
OpenAI MRCR v2 8-needle: 4K–8K'de %97.3, 128K–256K'de %79.3, 512K–1M'de %36.6

Soyut muhakeme ve akademik benchmark'lar

ARC-AGI-1 (Verified): %93.7 (GPT-5.2: %86.2), ARC-AGI-2 (Verified): %73.3 (GPT-5.2: %52.9)
GPT-5.4 Pro, ARC-AGI-2'de %83.3 elde etti
Frontier Science Research: %33.0 (GPT-5.2: %25.2), FrontierMath Tier 1–3: %47.6 (GPT-5.2: %40.7)
FrontierMath Tier 4: %27.1 (GPT-5.2: %18.8), GPT-5.4 Pro ise %38.0
GPQA Diamond: %92.8 (GPT-5.2: %92.4)
Humanity's Last Exam: araç kullanmadan %39.8, araç kullanırken %52.1 (GPT-5.2: sırasıyla %34.5 ve %45.5)
- GPT-5.4 Pro, araç kullanımıyla %58.7 elde etti
Reklam

Güvenlik ve emniyet

GPT-5.3-Codex ile sunulan korumaları sürekli geliştiriyor ve Preparedness Framework kapsamında yüksek siber yetenek düzeyinde sınıflandırılıyor
Genişletilmiş siber güvenlik yığını: izleme sistemleri, güvene dayalı erişim kontrolü ve Zero Data Retention (ZDR) yüzeylerinde asenkron engelleme dahil
Siber güvenlik yeteneklerinin çift kullanımlı doğası dikkate alınarak önleyici dağıtım yaklaşımı benimseniyor; sınıflandırıcı doğruluğu iyileştirilirken bazı yanlış pozitifler (false positive) görülebilir
Gereksiz retleri ve aşırı ipucu veren yanıtları azaltırken, kötüye kullanımı önleyici korumaları sürdürmeyi hedefliyor
Chain-of-Thought (CoT) izleme araştırmaları devam ediyor: yeni açık kaynak değerlendirme aracı CoT controllability yayımlandı
- GPT-5.4 Thinking'in CoT kontrol edilebilirliği düşük olduğundan, modelin muhakemesini gizlemesi daha zor; bu da güvenlik açısından olumlu görülüyor

Fiyatlandırma ve çıkış bilgileri

API model adı: gpt-5.4, Pro sürümü: gpt-5.4-pro
API fiyatları (M token başına):
- gpt-5.4: giriş $2.50, önbellekli giriş $0.25, çıkış $15
- gpt-5.4-pro: giriş $30, çıkış $180
- gpt-5.2: giriş $1.75, önbellekli giriş $0.175, çıkış $14
GPT-5.2'ye göre token başına fiyat daha yüksek olsa da, token verimliliğindeki artış sayesinde görev başına toplam token kullanımı azalıyor
Batch ve Flex fiyatlandırması standart ücretin yarısı, Priority Processing ise standart ücretin 2 katı
ChatGPT'de GPT-5.4 Thinking, Plus, Team, Pro kullanıcılarına hemen sunuluyor ve GPT-5.2 Thinking'in yerini alıyor
- GPT-5.2 Thinking, ücretli kullanıcılar için Legacy Models bölümünde 3 ay daha kalacak ve 5 Haziran 2026'da sona erecek
- Enterprise ve Edu planlarında erken erişim yönetici ayarlarından etkinleştirilebiliyor
- GPT-5.4 Pro, Pro ve Enterprise planlarında sunuluyor
GPT-5.4, GPT-5.3-Codex'in frontier kodlama yeteneklerini birleştiren ilk ana hat muhakeme modeli; Instant modeli ile Thinking modeli gelecekte farklı hızlarda evrilecek

2 yorum

helio 2026-03-06

Codex'te /fast modu etkinleştirildiğinde, maksimum 1.5 kat daha hızlı token hızı sağlanırken aynı model ve aynı zeka seviyesi korunuyor. API'de ise Priority Processing kullanılıyor.
Priority Processing, standart ücretin 2 katı fiyatlandırılıyor
Standart 272K bağlam penceresini aşan istekler, 2 kat ücretle faturalandırılıyor

GN⁺ 2026-03-06

Hacker News yorumları

Blog yazısının altındaki “Ask ChatGPT” kutusu komikti
Yazının içeriğini özetlemesini isteyince yeni bir pencere açılıyor ama sadece “harici URL’lere erişemem” yanıtı dönüyor
OpenAI’ın bu özelliğin gerçekten çalışmadığını bilip bilmediğini merak ediyorum
- Sanırım sadece giriş yapmamış kullanıcılarda çalışmıyor
  Giriş yapmış durumdayken düzgün çalıştı ve ekibe bir bug report gönderdim
- Ben denediğimde düzgün şekilde özetledi
  paylaşılan örnek bağlantıya bakabilirsiniz
  Ben de giriş yapmış durumdaydım
- Bende de giriş yapmışken özetleme gayet iyi çalıştı
  Muhtemelen harici URL erişim izni giriş durumuna göre değişiyor
- Uzun zaman sonra yine Claude kullandım, UX epey iyileşmişti
  Anthropic bu tür ince UX detaylarına daha çok dikkat ediyor gibi görünüyor
- Acaba o mesaj telif hakkı sorunu yüzünden mi çıkıyordu diye merak ettim
OpenAI’ın model serisi fazla karmaşık hale gelmiş gibi hissettiriyor
GPT‑5.1, 5.2, 5.4 ile Codex 5.3 ve Instant 5.3 birbirine karışmış durumda
Buna karşılık Anthropic yalnızca üç modeli net biçimde ayırıyor, Google’da ise hâlâ sadece Preview modelleri var
Geliştirici olarak kararlı bir sürüm kullanmak zor diye şikâyet ediliyor
- Google’ın eski araçları vs yeni beta araçları memi aklıma geliyor
  Sürekli ikisinden sadece birini seçmek zorunda kalınan bir durum tekrar ediyor
- Sürüm numaralandırmasının kafa karıştırıcı olduğunu söylemek fazla ince eleyip sık dokumak gibi geliyor
  Bir mühendisseniz 5.4 > 5.2 > 5.1 gibi şeyleri rahatça anlarsınız
- Google, 2.5 modelini yakında kullanımdan kaldıracağını (deprecate) bildirdi
  3.x ise hâlâ Preview olduğu için kafa karıştırıyor
- Anthropic’in sürüm sistemi de dağınık
  Opus, Sonnet ve Haiku arasındaki sürümler birbirinden kopuk, fiyat yapısı da karmaşık
  Sonuçta tüm şirketler benzer sorunlar yaşıyor
- Her ay daha iyi bir model çıkıyorken aynı modele inatla bağlı kalmak için bir neden yok
  Sadece API’yi değiştirerek kolayca geçiş yapılabilen bir dönemdeyiz
GPT‑5.4’ün asıl öne çıkan tarafı 1M token context window
resmî fiyatlandırmaya göre 200k üzeri için ek ücret yok
Opus 4.6’dan çok daha ucuz ama 1M context’in pratikte gerçekten anlamlı bir fayda sağlayıp sağlamayacağı tartışmalı
güncellenmiş belgelere göre GPT‑5.3‑Codex’in yerini alıyor
- model belgelerine göre
  272K token aşıldığında giriş için 2 kat, çıkış için 1.5 kat ücret uygulanıyor
- Uzun context vs compaction her zaman bir ikilem
  Token sayısı arttıkça maliyet ve gecikme de artıyor
  OpenAI’ın dahili testlerinde kısa context çoğu durumda daha verimliydi
  (çalışan yorumu)
- Claude aynı iş için daha az token gerektirdiğinden
  kıyaslama iş başı maliyet üzerinden yapılmalı
  Gerçekte GPT‑5.x ile Opus’un maliyeti benzer seviyede
  Benchmark’lardan çok gerçek iş sonuçları önemli
- Çoğu kişi sadece resmî fiyatlandırmaya bakıyor
  ama aslında geliştirici belgeleri daha doğru
  Temel fiyat sadece 272k altına kadar geçerli
- Context rot sorunu hâlâ var
  ama Anthropic bunu uzun görevler için RL ile hafifletmeyi planlıyor
GPT‑5.4’ü birkaç kez kullandım, yazının açıklığı ve analiz gücü etkileyiciydi
5.3‑Codex’ten çok daha doğal ve insani bir üslup kullanıyor
Bunun nedeni AGENTS.md dosyamın sade bir dil istemesi de olabilir
- Ama benim kod tabanımda kritik bir veri kaybı bug’ını kaçırdı
- Her yeni model çıktığında “önceki model ilkeldi” tarzı yazılar çıkıyor
  Sanki aynı döngü tekrar ediyor
- Ben de Opus’tan Codex’e geçtim, muhakeme daha yavaş ama doğruluk arttı
  Claude kıyasla biraz daha gevşek hissettiriyor
- Aynı AGENTS.md dosyası kullanılırsa aynı sonucun çıkıp çıkmayacağını merak ediyorum
- Son araştırmalara göre AGENTS.md eklemek hatta performansı düşürüyor olabilir
OpenAI, 8 ay boyunca sürüm numarası karmaşasından kaçındıktan sonra sonunda yeniden karmaşık hale geldi
GPT‑5.3 Instant, GPT‑5.4 Thinking gibi isimler birbirine girmiş durumda
- GPT‑5.3 Instant ile gpt‑5.3‑chat arasındaki fark kafa karıştırıyor
- Aslında 5.3 Codex de vardı
- Instant modeller özetleme ya da arama için iyi ama karmaşık konuşmalarda bağlamı kolay kaybedebiliyor
  Amaca göre kullanmak gerekiyor
Blogdaki RPG oyun demosu etkileyiciydi
“Battle Brothers” ayarında, otonom mühendisliğe iyi bir örnek gibiydi
- Yapay zekanın tek seferde bir RollerCoaster Tycoon klonu yapması şaşırtıcı
  Böyle bir hızda giderse low-code araç pazarı tehdit altına girebilir
- Ama gerçekte oldukça basit bir demo gibi görünüyordu
- Muhtemelen Playwright entegrasyonu sayesinde
  Codex artık web uygulamalarını görsel olarak debug edip test edebiliyor
Bu model muhtemelen askerî ve güvenlik alanlarında da kullanılacak
- Şiddetle ilgili güvenlik puanı %91’den %83’e düşmüş deniyor
- Acaba askerî benchmark’ların (ArtificialSuperSoldier vb.) sonuçlarını da paylaştılar mı diye merak ediyorum
- Claude modellerindeki gibi Anthropic tarzında da kullanılabilir mi diye düşünüyorum
- Reklam sektörü de muhtemelen bu teknolojiye iştahla yaklaşacaktır
- Askeriyede hâlâ 4.1 sürümü kullanıldığı için yükseltme biraz zaman alabilir
GPT‑5.4, tarayıcı ekran görüntülerini yorumlayıp Gmail arayüzünde tıklayarak e-posta gönderme yeteneğini gösterdi
Ama bana göre böyle yapmak yerine Gmail API kullanmak daha verimli
- Çoğu web sitesinin ya API’si yok ya da dokümantasyonu zayıf
  Ekran görüntüsü aynı anda belge, API ve gezinme aracı işlevi görüyor
- İnsan eli için yapılmış araçları kullanabilmek adına insansı robot yapmak gibi bir his veriyor
  Başarılırsa çok daha genel amaçlı olur ama API tabanlı yaklaşım da hâlâ geçerli
- Birçok servis API sunmaya istekli değil
  Bu yaklaşım böyle kısıtları aşabilir
- Bilgisayar kullanma becerisi kazanmış bir model her yerde işe yarar
  ama sadece API kullanan bir model bunu yapamaz
  Ekonomik yayılım açısından ilki daha değerli
- Wikipedia’nın API yerine daha çok web scraping ile kullanılmasına benziyor
  Sonuçta öncelik her zaman kullanım kolaylığı oluyor
Günlük kodlama işlerimde ilk 3 coding agent bana yetiyor
SWE‑bench Verified’e göre GPT‑5.2 Codex 72.8 puan alırken GPT‑5.4 yaklaşık 2 puan daha yüksek
Büyük bir sıçrama değil ama yine de gelişme var
SWE‑bench verilerine göre Claude 4.6 Opus hâlâ 75.6 puanla önde
Yine de Codex CLI’ın ajan özellikleri çok gelişmiş ve Claude Code seviyesine yaklaşmış durumda
OpenAI modelleri birleştirdikten sonra yeniden daha parçalı sürümler çıkarması kafa karıştırıcı
GPT‑5.1, 5.2 Thinking, 5.3 Codex, 5.3 Instant, 5.4 Thinking, 5.4 Pro derken sayı fazla arttı
Yine de 1M context window desteği sevindirici
- Ben bu kadar seçenek olmasını seviyorum
  İhtiyaca göre seçim yapılabiliyor, genel kullanıcı ise hâlâ Auto modunu kullanabilir
- Auto seçeneği hâlâ mevcut olduğu için çok büyük bir sorun değil
- Muhtemelen arka planda GPT‑5’in birden fazla modeli otomatik yönlendirdiği bir yapı var

GPT‑5.4 tanıtıldı

GPT‑5.4 genel bakış

ChatGPT'nin Thinking modu iyileştirmeleri

Bilgisayar kullanımı ve görsel yetenekler

Görsel algı ve doküman ayrıştırma iyileştirmeleri

Kodlama performansı

Tool Search özelliği

Araç çağırma ve ajan performansı

Profesyonel iş ve bilgi çalışması performansı

1M context window ve uzun bağlam performansı

Soyut muhakeme ve akademik benchmark'lar

Güvenlik ve emniyet

Fiyatlandırma ve çıkış bilgileri

İlgili okumalar

2 yorum

Hacker News yorumları