- GPT-5.2-Codex'in kodlama performansı ile GPT-5.2'nin akıl yürütme ve uzmanlık bilgisi tek bir modelde birleştirildi; %25 daha yüksek hız sunuluyor
- Codex'in ajantik görev kapsamı uzun süreli çalışan görevlere kadar genişletildi ve görev sırasında yön değiştirme ile geri bildirimi yansıtabilen gerçek zamanlı etkileşimli iş birliği Codex uygulamasına entegre edildi
- Kendi eğitim sürecinin hata ayıklaması, dağıtım yönetimi ve değerlendirme tanılamasında ilk sürümünün doğrudan kullanıldığı ilk kendi geliştirimine katılan model
- SWE-Bench Pro, Terminal-Bench 2.0, OSWorld gibi başlıca benchmark'larda sektör lideri performans gösterirken önceki modellere göre daha az token ile çalışıyor
- Kod yazmanın ötesinde sunum, elektronik tablo, veri analizi gibi yazılım yaşam döngüsünün tamamındaki bilgi işlerini destekliyor
Genel bakış
- GPT-5.3-Codex, "en yüksek yetenekli ajantik kodlama modeli" olarak tanımlanıyor
- GPT-5.2-Codex'in frontier düzeyindeki kodlama performansı ile GPT-5.2'nin akıl yürütme ve uzmanlık bilgisi yetenekleri tek bir modelde birleştirildi; hız %25 artırıldı
- Araştırma, araç kullanımı ve karmaşık yürütmeyi içeren uzun süreli görevleri yerine getirmek üzere tasarlandı; görev sırasında da bağlamı kaybetmeden uyum sağlayabiliyor
- İlk sürümü kullanılarak kendi eğitimi, dağıtımı ve değerlendirme tanılamasında görev aldı ve "kendi gelişimini hızlandıran" ilk model oldu
- Codex'in rolü "kod yazma ve inceleme"den "geliştiricilerin ve uzmanların bilgisayarda yaptığı neredeyse tüm işler"e genişletiliyor
Frontier ajantik yetenekler
-
Kodlama performansı
- SWE-Bench Pro'da (gerçek yazılım mühendisliği değerlendirmesi) en yüksek performansa ulaştı. Bu benchmark, yalnızca Python'u test eden SWE-Bench Verified'dan farklı olarak 4 dili kapsıyor; kontaminasyona karşı daha dayanıklı ve endüstriyle daha ilgili
- Terminal-Bench 2.0'da da önceki en iyi performansı açık farkla geçti; bu benchmark kodlama ajanları için gerekli terminal becerilerini ölçüyor
- Önceki modellere kıyasla aynı işleri daha az token ile yapabiliyor
-
Web geliştirme
- Frontier kodlama yetenekleri, gelişmiş estetik anlayış ve sıkıştırma tekniklerinin birleşimi sayesinde karmaşık oyunlar ve uygulamalar günler boyunca sıfırdan inşa edilebiliyor
- Web geliştirme ve uzun süreli ajantik yetenek testi için iki oyun üretildi: bir yarış oyunu ve bir dalış oyunu
- Yarış oyunu: farklı yarışçılar, 8 harita ve boşluk tuşuyla kullanılan öğeler içeriyor
- Dalış oyunu: farklı mercan resiflerini keşfetme, balık kataloğu toplama, oksijen, su basıncı ve tehlike unsurlarını yönetme
- "develop web game" becerisi ile "fix the bug" ve "improve the game" gibi ön tanımlı genel takip istemleri kullanılarak milyonlarca token boyunca otonom biçimde yinelemeli iyileştirme yapıldı
- Gündelik web sitesi üretiminde GPT-5.2-Codex'e göre kullanıcı niyetini daha iyi anlıyor; basit ya da yetersiz istemlerde bile daha fazla özellik ve makul varsayılanları otomatik uyguluyor
- Landing page karşılaştırma örneğinde GPT-5.3-Codex, yıllık planı indirimli aylık fiyatla otomatik gösteriyor ve 3 kullanıcı alıntısı içeren otomatik dönüşümlü öneri karuseli oluşturarak daha tamamlanmış bir sonuç veriyor
-
Kodlama dışı yetenekler
- Yazılım mühendisleri, tasarımcılar, ürün yöneticileri ve veri bilimcilerin yaptığı hata ayıklama, dağıtım, izleme, PRD yazımı, metin düzenleme, kullanıcı araştırması, test ve metrik analizi gibi yazılım yaşam döngüsünün tamamını destekliyor
- Slayt destesi hazırlama ve sheet verisi analizi gibi yazılım dışındaki alanlara da genişliyor
- GDPval'da (44 meslek grubundaki iyi tanımlanmış bilgi işi görevlerini ölçen değerlendirme) GPT-5.2 ile aynı olan %70,9'a ulaştı
- Sunumlar, elektronik tablolar gibi gerçek iş çıktıları da buna dahil
- Finansal danışmanlık slaytları, perakende eğitim dokümanları, NPV analiz elektronik tabloları ve moda sunumu PDF'leri gibi çeşitli çıktı örnekleri gösterildi
- OSWorld-Verified'da (görsel masaüstü ortamında üretkenlik görevleri yapan ajantik bilgisayar kullanım benchmark'ı) %64,7'ye ulaştı; önceki GPT modellerine (%38,2) göre büyük artış gösterdi
Etkileşimli iş birlikçisi
- Model yetenekleri arttıkça temel mesele, ajanların ne yapabildiğinden çok insanların paralel çalışan çok sayıda ajanı ne kadar kolay yönlendirip denetleyebildiğine kayıyor
- Codex uygulaması ajan yönetimini ve talimat vermeyi kolaylaştırıyor; GPT-5.3-Codex ile daha yüksek etkileşim sunuluyor
- Görev sırasında önemli kararlar ve ilerleme hakkında sık güncellemeler yaparak kullanıcının nihai sonucu beklemeden gerçek zamanlı soru sormasına, yaklaşımı tartışmasına ve yön ayarlamasına imkân veriyor
- Ne yaptığını açıklıyor, geri bildirime yanıt veriyor ve kullanıcıyı baştan sona sürecin içinde tutuyor
- Ayar yolu: Settings > General > Follow-up behavior bölümünde model çalışırken yönlendirmeyi etkinleştirme
Codex kullanılarak GPT-5.3-Codex'in eğitimi ve dağıtımı
- Codex'teki son hızlı iyileştirmeler, OpenAI genelinde aylar ve yıllar süren araştırma projelerinin üzerine inşa edildi
- OpenAI'deki birçok araştırmacı ve mühendis, mevcut çalışma biçimlerinin 2 ay öncesine göre temelden farklı olduğunu söylüyor
- GPT-5.3-Codex'in ilk sürümü de kayda değer yetenek gösterdiği için ekip bu ilk sürümü sonraki sürümlerin eğitim iyileştirmesi ve dağıtımını desteklemek için kullandı
-
Araştırma ekibinin kullanım örnekleri
- Bu sürümün eğitim çalıştırmalarının izlenmesi ve hata ayıklanmasında Codex kullanıldı
- Altyapı sorunlarını ayıklamanın ötesinde, eğitim süreci boyunca örüntü takibi, etkileşim kalitesinin derin analizi, düzeltme önerileri ve önceki modellerle davranış farklarını hassas biçimde anlamak için zengin uygulamalar geliştirildi
-
Mühendislik ekibinin kullanım örnekleri
- GPT-5.3-Codex için harness optimizasyonu ve uyarlamasında Codex kullanıldı
- Kullanıcıları etkileyen tuhaf edge case'ler ortaya çıktığında Codex ile bağlam işleme hataları belirlendi ve düşük cache hit rate'in kök nedenleri analiz edildi
- Lansman dönemindeki trafik artışına yanıt olarak GPU cluster'ın dinamik ölçeklendirilmesi ve gecikmenin dengelenmesinde sürekli kullanıldı
-
Alfa testindeki kullanım örnekleri
- Bir araştırmacı, GPT-5.3-Codex'in tur başına ne kadar ek iş yaptığını ve üretkenlik farkını anlamak istedi
- GPT-5.3-Codex, açıklayıcı soru sorma sıklığını, olumlu-olumsuz yanıtları ve görev ilerlemesini tahmin eden basit regex sınıflandırıcıları tasarladı; bunları tüm oturum günlüklerinde geniş ölçekte çalıştırıp sonuç raporu üretti
- Codex ile inşa eden kişilerin memnuniyeti daha yüksekti; ajan niyeti daha iyi anladı, tur başına daha fazla ilerleme gösterdi ve açıklayıcı soru sayısı azaldı
-
Veri hattı kurma
- Alfa test verisi önceki modellerden çok farklı olduğu için anormal ve sezgiye aykırı sonuçlar sıkça ortaya çıktı
- Veri bilimciler GPT-5.3-Codex ile birlikte yeni veri hatları kurdu ve standart dashboard araçlarına göre çok daha zengin görselleştirmeler yaptı
- Sonuçlar Codex ile birlikte analiz edilerek binlerce veri noktasından çıkan temel içgörüler 3 dakika içinde özetlendi
Siber güvenlikte frontier düzeyi güvence
- Son aylarda siber güvenlik görevlerindeki model performansı anlamlı biçimde yükseldi; bu hem geliştiricilere hem güvenlik uzmanlarına fayda sağlıyor
- Buna paralel olarak savunma amaçlı kullanımı ve ekosistemin geniş çaplı dayanıklılığını desteklemek için güçlendirilmiş siber güvenlik emniyet önlemleri hazırlandı
- Preparedness Framework kapsamında siber güvenlik görevleri için High derecesi verilen ilk model ve yazılım açıklarını tespit etmek üzere doğrudan eğitilen ilk model oldu
- Uçtan uca siber saldırı otomasyonunun mümkün olduğuna dair kesin kanıt yok; ancak önleyici bir yaklaşım benimsenerek bugüne kadarki en kapsamlı siber güvenlik güvenlik katmanı devreye alındı
- Güvenlik eğitimi, otomatik izleme, gelişmiş özellikler için güven temelli erişim ve tehdit istihbaratı içeren yaptırım hattı
- Siber güvenliğin doğasındaki çift kullanımlı karakter göz önünde bulundurularak, savunmacıların açık bulma ve düzeltme yeteneğini hızlandırırken kötüye kullanımı geciktirmeyi amaçlayan kanıta dayalı, yinelemeli bir yaklaşım benimsendi
-
Savunma araştırması ve ekosistem koruma programı
- Siber savunma araştırmasını hızlandırmak amacıyla Trusted Access for Cyber pilot programı başlatıldı
- Güvenlik araştırma ajanı Aardvark için kapalı beta genişletildi; bu, Codex Security ürün ailesinin ilk sunumu
- Açık kaynak maintainers ile iş birliği yapılarak yaygın kullanılan projelere (ör. Next.js) ücretsiz kod tabanı taraması sağlanıyor
- Güvenlik araştırmacıları Codex kullanarak geçen hafta açıklanan açıkları (CVE-2025-59471, CVE-2025-59472) buldu
- 2023'te başlatılan 1 milyon dolarlık siber güvenlik hibe programı temel alınarak, en güçlü modellerle siber savunmayı hızlandırmak için 10 milyon dolarlık API kredisi ek yatırımı yapıldı
- Özellikle açık kaynak yazılım ve kritik altyapı sistemleri için
- İyi niyetli güvenlik araştırmasına katılan kuruluşlar Cybersecurity Grant Program üzerinden API kredisi ve destek başvurusunda bulunabiliyor
Kullanılabilirlik ve ayrıntılar
- GPT-5.3-Codex, ücretli ChatGPT planlarında kullanılabiliyor ve Codex'in desteklendiği her yerde (uygulama, CLI, IDE uzantısı, web) erişilebilir
- API erişimi güvenli biçimde etkinleştirilmek üzere hazırlanıyor
- Altyapı ve çıkarım yığını iyileştirmeleri sayesinde Codex kullanıcıları için %25 daha hızlı çalışıyor; daha hızlı etkileşim ve sonuç sağlıyor
- NVIDIA GB200 NVL72 sistemleri üzerinde ortak tasarım, eğitim ve servis sunumu gerçekleştirildi
Gelecek yönelim
- Codex, kod yazmanın ötesine geçerek kodu bir araç olarak kullanıp bilgisayarı yönetme ve görevleri baştan sona tamamlama yönüne ilerliyor
- Kodlama ajanlarının frontier sınırını genişleterek yalnızca yazılım kurma ve dağıtımını değil; araştırma, analiz ve karmaşık görev yürütme gibi daha geniş bilgi işi alanlarını da mümkün kılıyor
- En iyi kodlama ajanından başlayıp bilgisayar üzerindeki genel amaçlı bir iş birlikçisine dönüşerek hem nelerin inşa edilebileceğini hem de kimlerin inşa edebileceğini genişletiyor
Ek: benchmark sayıları
- Tüm değerlendirmeler xhigh reasoning effort ile çalıştırıldı
- SWE-Bench Pro(Public): GPT-5.3-Codex %56,8 / GPT-5.2-Codex %56,4 / GPT-5.2 %55,6
- Terminal-Bench 2.0: GPT-5.3-Codex %77,3 / GPT-5.2-Codex %64,0 / GPT-5.2 %62,2
- OSWorld-Verified: GPT-5.3-Codex %64,7 / GPT-5.2-Codex %38,2 / GPT-5.2 %37,9
- GDPval(kazanım veya beraberlik): GPT-5.3-Codex %70,9 / GPT-5.2 %70,9 (high)
- Cybersecurity Capture The Flag Challenges: GPT-5.3-Codex %77,6 / GPT-5.2-Codex %67,4 / GPT-5.2 %67,7
- SWE-Lancer IC Diamond: GPT-5.3-Codex %81,4 / GPT-5.2-Codex %76,0 / GPT-5.2 %74,6
2 yorum
Eskiden Claude tarafını tercih ederdim ama son zamanlarda Codex daha çok hoşuma gidiyor. iOS ve AOS gibi birbirini tamamlayacak şekilde gelişmelerini umuyorum.
Hacker News yorumları
GPT‑5.3 Codex ile Opus 4.6'nın felsefi olarak farklı yönlerde gelişiyor olması ilginç
Codex, insanın araya girip birlikte çalıştığı etkileşimli bir işbirlikçi olarak tasarlanmışken, Opus daha otonom ve planlı bir sistem olarak insan müdahalesini en aza indiriyor
Bu da gerçek geliştiricilerin LLM tabanlı kodlamaya bakışındaki iki yaklaşımı — insan merkezli kontrol ve tam yetki devri — yansıtıyor gibi görünüyor
Modellerin gelecekte bu tür felsefi ayrışmalara göre optimize edilip edilmeyeceğini ya da yeni yaklaşımların ortaya çıkıp çıkmayacağını merak ediyorum
Codex, yanıt vermeden önce çok daha uzun düşünme eğilimi gösteriyor
İnsan döngünün içinde olduğunda LLM'lerin çoğu sorunundan kaçınılabiliyor ve küçük kod parçalarını inceleme yaklaşımı verimli oluyor
Codex tekrar eden işleri üstlenirse geliştirici çekirdek mantığa odaklanabilir
Tam otonom yaklaşım, kod kalitesini uzun vadede düşürdüğü için büyük ölçekli kod tabanları için uygun değil
İstek gönderiliyor, container ortamında otomatik çalıştırılıyor, sonrasında ise yalnızca sohbet üzerinden takip işlemleri yapılabiliyordu
Codex giderek daha otonom hale geliyor, Opus ise daha işbirlikçi oluyor gibi
Sonuçta duruma göre iki yaklaşımın da faydalı biçimde kullanılma ihtimali yüksek
Bu yüzden 5.2 sürümü Opus 4.5'ten daha stabildi
Anthropic sanki GPT‑5.3‑Codex ile karşılaştırılmaktan kaçınmak için aceleyle Opus 4.6'yı duyurdu
Terminal‑Bench 2.0 puanı Opus 4.6 için 65.4, GPT‑5.3‑Codex için ise 77.3
Yine de Codex 5.2 karmaşık görevlerde en iyisiydi ve 5.3'ü bekliyorum
GPT‑5.2 Codex yaklaşık $3244, Claude Opus 4.5 ise $1485 seviyesindeydi
ARC AGI 2 sonuçlarına bakınca genelleme yeteneği yetersiz görünüyor
Claude'un kodlamada üstün olduğu iddiasına şüpheyle yaklaşıyorum
GPT‑5.3‑Codex'in kendi kendisini geliştirmede kullanılmış ilk model olması etkileyici
Codex ekibinin erken sürümlerden biriyle kendi eğitim pipeline'ını debug ettiği söyleniyor
Claude Code'un büyümesinin nedeni de bence bu tür bir dogfooding kültürü
Bu da artık 'kademeli gelişim (soft take‑off)' fikrini yeniden düşünmeme neden oluyor
GPT‑5.3‑Codex, siber güvenlikle ilgili görevlerde yüksek yetenekli (high capability) bir model olarak sınıflandırılıyor
Güvenlik açığı tespitini doğrudan öğrenmiş, ancak tam saldırı otomasyonuna dair henüz kanıt yok
Yine de güvenlik çerçevesinin eski kaldığını düşünüyorum
İleride Codex'in yazdığı kodun kendisi, güvenlik tehdidinin yeni saldırı yüzeyi haline gelebilir
Codex temelde güvenli kod üretecek şekilde tasarlanmalı
İlgili haber: NBC News haberi
Anthropic'te olduğu gibi, 'güvenlik araştırması' ambalajı altında teknik gücünü sergiliyor hissi veriyor
Bu tür hataların sürüp sürmeyeceğini merak ediyorum
Eskiden AI laboratuvarları eşzamanlı duyurulardan kaçınmak için koordinasyon sağlardı,
şimdi ise 30 dakika arayla rekabetçi biçimde duyuru yapıyorlar
Demis siyasî çekişmelerde zayıf olabilir ama performansla yarışacak gibi görünüyor
Elon, Sam ve Dario ise zaten politik manevralarda usta
2026'nın AI sektörü için dramatik bir yıl olacağını düşünüyorum
OpenAI'ın 10'daki duyurusuna karşı Anthropic ve Google da karşı hamle lansmanları yapmıştı
GPT‑5.3‑Codex'in web oyununu otonom biçimde geliştirdiği sunumu ilgimi çekti
Ancak karşılaştırma deneyinde kullanılan prompt sayısı ya da token miktarı açıklanmadığı için bu eksik hissettirdi
Eskiden yaptığım Factorio web klonuyla kıyaslamak isterdim
Modelin bu şekilde kullanılabildiğini bilmiyordum
Yıllardır “AI ile 100 kat üretkenlik artışı” söylemini duyuyorum
Ama gerçekten LLM'nin başlıca rol oynayarak yaptığı, yeni ve güvenilir bir program olup olmadığını merak ediyorum
LLM'ler de mevcut sorunları sadece daha hızlı çözmemizi sağlıyor, tamamen yeni sorunları çözmüyor
Örneğin UI kart dizilimi probleminde Gemini'nin kutupsal koordinat tabanlı yaklaşım önermesi bana çok yardımcı olmuştu
100 kat değil belki ama 2 kat üretkenlik artışını hissediyorum
İlgili başlık: vibe coding örneği
Bu yüzden “zaten çözülmüş sorunlar” eleştirisinin çok anlamlı olduğunu düşünmüyorum
üstelik üç kez var olmayan bir flag'i halüsinasyonla uydurdu
ChatGPT 5.2 de ffmpeg script'i hazırlarken birkaç kez düzeltme gerektirdi
Windows'ta satır sonlarını düzgün işlediği gün belki de o gün AGI gelmiş olur
Sırf kod tabanının büyük olması geçici bir sınırdan ibaret
Bu bana sadece ilerlemeyi sevmeyen insanların yakınması gibi geliyor
Terminal Bench 2.0 sonuçları
Puanlardan çok gerçek kodlama deneyiminin ‘hissi’ daha önemli
Geliştiricilerin bu değişim karşısında tehdit hissedip hissetmediğini merak ediyorum
Ben açıkçası hissediyorum
Yarışmacı programcılar için tehdit olabilir ama genel geliştiriciler için daha az öyle
AGI gelmeden önce tam otomasyonun mümkün olmadığını düşünüyorum
Çevremde Claude kullananlar Codex kullananlardan çok daha fazla
Ama Codex, kullanım limiti ve fiyatlandırma açısından çok daha cömert
Aylarca $20'lık planda kullansan bile limite neredeyse hiç yaklaşmıyorsun
Bu tür pratik farkların kodlama kalitesinden daha önemli olduğunu düşünüyorum
Eskiden GH Copilot içinde Claude daha iyiydi ama,
Codex'in otonomi seviyesi daha yüksek olduğu için vibe‑coding için daha uygun ve
Twitter, LinkedIn gibi yerlerdeki tanıtım etkisiyle kullanıcı tabanı büyümüş gibi görünüyor
Kalite farkını anlayamıyorsan doğal olarak daha ucuz olanı seçersin
Plan değiştirmek de esnek, bu yüzden kullanım deneyiminden çok memnunum