- Karmaşık gerçek dünya geliştirme işlerini hedefleyen ajan tabanlı kodlama modeli olarak Codex ortamına uygun şekilde optimize edildi
- Uzun süreli çalışmalarda bağlam sıkıştırma ile bağlamı koruyarak refaktöring ve migrasyon gibi büyük değişikliklerde daha güçlü hale geldi
- Yerel Windows ortamında genel performans iyileştirmeleri ile birlikte ekran görüntüsü, teknik çizim, grafik ve UI yorumlamasını destekleyen görsel yetenekler güçlendirildi
- SWE-Bench Pro ve Terminal-Bench 2.0'da en üst düzey performans elde etti
- Savunma amaçlı siber güvenlik yeteneklerini büyük ölçüde artırırken kötüye kullanım olasılığını dikkate alarak ücretli kullanıcılara öncelik ve güvene dayalı erişimi birlikte kullanan bir dağıtım yaklaşımı benimsendi
Genel Bakış
- GPT-5.2-Codex yeni tanıtıldı. Karmaşık gerçek dünya yazılım mühendisliği görevleri hedeflenerek tasarlanmış bir model
- GPT-5.2 temel alınarak Codex ortamında ajan tabanlı kodlama işleri için optimize edildi
- Bağlam sıkıştırma sayesinde uzun süre devam eden işlerde istikrarlı performans sunuyor ve büyük ölçekli kod değişikliklerindeki yetkinliği güçlendirildi
- Windows ortamında genel performans iyileştirmeleri yapıldı ve siber güvenlik yetenekleri de geliştirildi
Yazılım mühendisliğinin sınırlarını genişletmek
- GPT-5.2'nin uzmanlık bilgisine dayalı iş gücü ile GPT-5.1-Codex-Max'in ajan tabanlı kodlama ve terminal kullanım performansı temel alınarak geliştirilen bir model
- Uzun bağlamı anlama, araç çağırma kararlılığı, doğruluk iyileştirmeleri ve yerel sıkıştırma temeliyle uzun süreli kodlama işlerinde güvenilir bir partner olarak çalışması hedefleniyor
- Akıl yürütme sürecinde token verimliliğini koruma yönü de buna dahil
- Görsel yeteneklerin güçlendirilmesiyle kodlama oturumları sırasında paylaşılan ekran görüntüleri, teknik çizimler, grafikler ve UI ekranlarının yorumlanma doğruluğu artırıldı
- GPT-5.1-Codex-Max'te sunulan özellikler temel alınarak yerel Windows'ta da ajan tabanlı kodlama daha etkili ve daha kararlı biçimde gerçekleştiriliyor
Benchmark performansı
- SWE-Bench Pro ve Terminal-Bench 2.0'da en üst düzey performans elde etti
- SWE-Bench Pro, kod deposu verilerek gerçekçi yazılım mühendisliği görevlerini çözen yamalar üretmeyi değerlendiren bir ölçüm
- Terminal-Bench 2.0, gerçek terminal ortamında AI ajanlarının performansını test ediyor; buna kod derleme, model eğitimi ve sunucu yapılandırma işleri dahil
Gerçek dünyanın siber güvenliği
- Modern toplumun temel sistemlerini ve hassas verilerini korumak için güçlü siber güvenlik şart
- Açıklar uzun süre ortaya çıkmayabilir ve bunların keşif, doğrulama ve düzeltme süreçleri büyük ölçüde araçlara sahip mühendisler ile bağımsız güvenlik araştırmacıları topluluğuna dayanıyor
- 11 Aralık 2025'te React ekibinin React Server Components tabanlı uygulamaları etkileyen 3 güvenlik açığını duyurduğu örnekte, yalnızca açıkların kendisi değil keşif süreci de dikkat çekti
-
React açığı keşif örneği
- Stripe iştiraki Privy'de güvenlik araştırmacısı Andrew MacPherson, Codex CLI içinde GPT-5.1-Codex-Max kullanarak React2Shell analizini yürüttü
- Yerel test ortamı kurulumu, saldırı yüzeyi analizi ve olağandışı girdilere dayalı fuzzing gibi standart güvenlik iş akışlarında Codex kullanıldı
- React2Shell yeniden üretim sürecinde beklenmeyen bir davranış tespit edildi ve bu, bir hafta içinde daha önce bilinmeyen 3 açığın keşfedilmesine yol açtı
- Keşfedilen açıklar sorumlu açıklama ilkelerine uygun şekilde React ekibiyle paylaşıldı
- Güvenlik araştırmacısının açık doğrulama sürecinin ne kadar kısalabileceğini gösteren bir örnek olarak Codex oturum paylaşımı da yer aldı
Sürekli gelişen siber güvenlik yetenekleri
- GPT-5-Codex'ten itibaren siber güvenlik yetenekleri belirgin biçimde gelişmeye başladı; GPT-5.1-Codex-Max'te büyük bir sıçrama yaşandı ve GPT-5.2-Codex'te de açık iyileşmeler görüldü
- Gelecek modellerin de aynı çizgiyi sürdüreceği öngörülüyor; hazırlık değerlendirme çerçevesinde siber güvenlik yeteneklerinde 'yüksek' seviyeye ulaşma olasılığı varsayılarak planlama ve değerlendirme yapılıyor
- GPT-5.2-Codex henüz 'yüksek' seviyeye ulaşmış değil, ancak gelecekte bu eşiği aşacak modeller de hesaba katılarak hazırlıklar sürdürülüyor
Sonuç
- GPT-5.2-Codex, yazılım mühendisliği ve siber güvenlik alanlarında gelişmiş yapay zekanın katkı biçiminin genişlediğini gösteriyor
- Geliştiriciler ve güvenlik sorumlularının karmaşık ve uzun vadeli görevleri çözmesine destek olurken, sorumlu güvenlik araştırması araçlarını da daha ileri taşıyor
1 yorum
Hacker News görüşleri
Eğer bunu OpenAI’dan biri görüyorsa, lütfen akıl yürütme yeteneğini (reasoning) bozmayın
Codex, kodda ya da matematikte bug ve tutarsızlıkları bulmada gerçekten olağanüstü
Claude Code “kod üretimi”nde güçlüyse, Codex/GPT5.x problem tespitinde ezici derecede üstün
Bence hızdan çok kalite önemli
Başta Codex’ten şüphe duymuştum ama artık tüm kodlama işlerine Codex’le başlıyorum
Kusursuz değil ama refactoring, yeni bir projeye başlama ya da yabancı teknolojilerle çalışma gibi konularda şaşırtıcı sonuçlar veriyor
Özellikle erteleme alışkanlığını (procrastination) azaltıyor. Göz korkutan büyük bir işi bile Codex’e atınca iyi bir başlangıç noktası çıkarıyor
Codex 5.2’nin kalitesi ciddi biçimde artmış, artık doğrudan kod yazma işini ona bırakıyorum
Planlama ve tasarım tartışmalarını da onunla yapınca, kodu bizzat yazmak için neredeyse bir neden kalmıyor
Sonuçta nesnel performans değerlendirmesinin zor olması ilginç
Ama kilit nokta geri bildirim döngüsünün hızı. Build ve test ne kadar hızlıysa, ajan tipi kodlama araçları o kadar verimli oluyor
Agents.md gibi net yönergeler yardımcı oluyor
Claude Code’dan Codex CLI’a geçtikten sonra, konteyner tabanlı bir Codex çalışma ortamı kurdum
Zamanlayıcı, dosya tetikleyici, API çağrısı, CLI modu gibi farklı yollarla çalıştırılabiliyor
codex-container içinde 300’den fazla MCP aracı var
Crawling, Google arama, Gmail/GCal/GDrive, Slack, embedding, transkripsiyon gibi çeşitli özellikleri destekliyor
Güvenlik açısından riskli işleri konteyner izolasyonu ile güvenli biçimde test ediyorum
gnosis-crawl ile headless browser crawling de mümkün
Benim deneyimimde GPT modelleri backend geliştirme için Claude’dan çok daha uygun
Daha yavaş ama mantığı daha net ve bakım yapılabilirliği daha yüksek
Ben Claude ile plan yapıp, Codex ile uygulayıp, sonra yine Claude ile kod incelemesi yapıyorum
Codex CLI’ın npm ile aynı anda homebrew üzerinden de güncellenmesi güzel olurdu
Claude hâlâ çok fazla gereksiz süs (fluff) içeriyor ve aşırı tasarım yapıyor
Claude önemsiz şeyleri işaret ediyor ama Codex gerçekten önemli sorunları buluyor
Güvenlik açısından bakınca, OpenAI modellerinin saldırgan nitelikteki (offensive) işleri fazla kısıtlaması biraz üzücü
Savunma için belli bir seviyede saldırgan simülasyona ihtiyaç olduğunu düşünüyorum
Yalnızca güvenilir uzmanlara erişim vermek bana makul bir yaklaşım gibi geliyor
“Siber güvenlik”in öne çıkarılması ilginç
Zaten güvenlik analizi otomasyonu eşik noktasını geçti ve bence model ilerlemesinden çok tekrarlı işlerin otomasyonu daha önemli
Zafiyet analizinin büyük kısmı otomatikleştirilebilir basit işlerden oluşuyor; bunlar ortadan kalkınca insanlar yaratıcı analize odaklanabiliyor
Benim için Codex her zaman temel modelden daha düşük performans veriyor
CLI’da fazla aceleci biçimde kod yazmaya çalışıyor
Ben sadece soru sormuşken dosya değiştirmeye kalkması rahatsız edici
Şimdilik yalnızca .md dosyalarını düzenlemesini isterseniz bir miktar kontrol sağlanabiliyor
Davet usulüyle güvenlik araştırması için model erişimi verilmesi politikasını makul buluyorum
“Güvenlik hizalaması” aşırıya kaçarsa güvenlik analizi yeteneği düşebilir
Yalnızca KYC sürecinden geçilirse, olumlu araştırma çıktıları üretilirken risk maruziyeti de azaltılabilir
“Çift kullanımlı (dual-use)” risk, yeni saldırı tekniklerinden çok uygulama eşiğini düşürmek anlamına geliyor
Aynı yetenek savunmacılar için zafiyet analizine yardımcı olurken, saldırganlar için otomatik saldırı aracına dönüşebilir
Bu yüzden dağıtım kontrolü ve loglama önemli
GPT‑5.1’i VSCode’daki Codex eklentisiyle kullandım; gerçekten büyülü bir deneyimdi
5.2’de henüz büyük bir fark hissetmedim ama özellikleri Cursor ya da Kilo Code seviyesine genişlerse daha da iyi olabilir
Eskiden OpenAI’ın geride kaldığını düşünüyordum ama 5.1, Gemini’den çok daha iyi