GPT-5.2-Codex tanıtıldı

(openai.com)

7 puan yazan GN⁺ 2025-12-19 | 1 yorum | WhatsApp'ta paylaş

Karmaşık gerçek dünya geliştirme işlerini hedefleyen ajan tabanlı kodlama modeli olarak Codex ortamına uygun şekilde optimize edildi
Uzun süreli çalışmalarda bağlam sıkıştırma ile bağlamı koruyarak refaktöring ve migrasyon gibi büyük değişikliklerde daha güçlü hale geldi
Yerel Windows ortamında genel performans iyileştirmeleri ile birlikte ekran görüntüsü, teknik çizim, grafik ve UI yorumlamasını destekleyen görsel yetenekler güçlendirildi
SWE-Bench Pro ve Terminal-Bench 2.0'da en üst düzey performans elde etti
Savunma amaçlı siber güvenlik yeteneklerini büyük ölçüde artırırken kötüye kullanım olasılığını dikkate alarak ücretli kullanıcılara öncelik ve güvene dayalı erişimi birlikte kullanan bir dağıtım yaklaşımı benimsendi

Genel Bakış

GPT-5.2-Codex yeni tanıtıldı. Karmaşık gerçek dünya yazılım mühendisliği görevleri hedeflenerek tasarlanmış bir model
GPT-5.2 temel alınarak Codex ortamında ajan tabanlı kodlama işleri için optimize edildi
Bağlam sıkıştırma sayesinde uzun süre devam eden işlerde istikrarlı performans sunuyor ve büyük ölçekli kod değişikliklerindeki yetkinliği güçlendirildi
Windows ortamında genel performans iyileştirmeleri yapıldı ve siber güvenlik yetenekleri de geliştirildi

Yazılım mühendisliğinin sınırlarını genişletmek

GPT-5.2'nin uzmanlık bilgisine dayalı iş gücü ile GPT-5.1-Codex-Max'in ajan tabanlı kodlama ve terminal kullanım performansı temel alınarak geliştirilen bir model
Uzun bağlamı anlama, araç çağırma kararlılığı, doğruluk iyileştirmeleri ve yerel sıkıştırma temeliyle uzun süreli kodlama işlerinde güvenilir bir partner olarak çalışması hedefleniyor
Akıl yürütme sürecinde token verimliliğini koruma yönü de buna dahil
Görsel yeteneklerin güçlendirilmesiyle kodlama oturumları sırasında paylaşılan ekran görüntüleri, teknik çizimler, grafikler ve UI ekranlarının yorumlanma doğruluğu artırıldı
GPT-5.1-Codex-Max'te sunulan özellikler temel alınarak yerel Windows'ta da ajan tabanlı kodlama daha etkili ve daha kararlı biçimde gerçekleştiriliyor

Benchmark performansı

SWE-Bench Pro ve Terminal-Bench 2.0'da en üst düzey performans elde etti
- SWE-Bench Pro, kod deposu verilerek gerçekçi yazılım mühendisliği görevlerini çözen yamalar üretmeyi değerlendiren bir ölçüm
- Terminal-Bench 2.0, gerçek terminal ortamında AI ajanlarının performansını test ediyor; buna kod derleme, model eğitimi ve sunucu yapılandırma işleri dahil

Gerçek dünyanın siber güvenliği

Modern toplumun temel sistemlerini ve hassas verilerini korumak için güçlü siber güvenlik şart
Açıklar uzun süre ortaya çıkmayabilir ve bunların keşif, doğrulama ve düzeltme süreçleri büyük ölçüde araçlara sahip mühendisler ile bağımsız güvenlik araştırmacıları topluluğuna dayanıyor
11 Aralık 2025'te React ekibinin React Server Components tabanlı uygulamaları etkileyen 3 güvenlik açığını duyurduğu örnekte, yalnızca açıkların kendisi değil keşif süreci de dikkat çekti
React açığı keşif örneği
- Stripe iştiraki Privy'de güvenlik araştırmacısı Andrew MacPherson, Codex CLI içinde GPT-5.1-Codex-Max kullanarak React2Shell analizini yürüttü
- Yerel test ortamı kurulumu, saldırı yüzeyi analizi ve olağandışı girdilere dayalı fuzzing gibi standart güvenlik iş akışlarında Codex kullanıldı
- React2Shell yeniden üretim sürecinde beklenmeyen bir davranış tespit edildi ve bu, bir hafta içinde daha önce bilinmeyen 3 açığın keşfedilmesine yol açtı
- Keşfedilen açıklar sorumlu açıklama ilkelerine uygun şekilde React ekibiyle paylaşıldı
- Güvenlik araştırmacısının açık doğrulama sürecinin ne kadar kısalabileceğini gösteren bir örnek olarak Codex oturum paylaşımı da yer aldı

Sürekli gelişen siber güvenlik yetenekleri

GPT-5-Codex'ten itibaren siber güvenlik yetenekleri belirgin biçimde gelişmeye başladı; GPT-5.1-Codex-Max'te büyük bir sıçrama yaşandı ve GPT-5.2-Codex'te de açık iyileşmeler görüldü
Gelecek modellerin de aynı çizgiyi sürdüreceği öngörülüyor; hazırlık değerlendirme çerçevesinde siber güvenlik yeteneklerinde 'yüksek' seviyeye ulaşma olasılığı varsayılarak planlama ve değerlendirme yapılıyor
GPT-5.2-Codex henüz 'yüksek' seviyeye ulaşmış değil, ancak gelecekte bu eşiği aşacak modeller de hesaba katılarak hazırlıklar sürdürülüyor

Sonuç

GPT-5.2-Codex, yazılım mühendisliği ve siber güvenlik alanlarında gelişmiş yapay zekanın katkı biçiminin genişlediğini gösteriyor
Geliştiriciler ve güvenlik sorumlularının karmaşık ve uzun vadeli görevleri çözmesine destek olurken, sorumlu güvenlik araştırması araçlarını da daha ileri taşıyor

1 yorum

GN⁺ 2025-12-19

Hacker News görüşleri

Eğer bunu OpenAI’dan biri görüyorsa, lütfen akıl yürütme yeteneğini (reasoning) bozmayın
Codex, kodda ya da matematikte bug ve tutarsızlıkları bulmada gerçekten olağanüstü
Claude Code “kod üretimi”nde güçlüyse, Codex/GPT5.x problem tespitinde ezici derecede üstün
Bence hızdan çok kalite önemli
- Günde sadece birkaç kez böyle hassas problem tespiti gerekiyorsa, aylık 20 dolarlık plan yeterli mi, yoksa 200 dolarlık plan mı gerekiyor diye merak ediyorum
- Sorunun, “önce kalite” yaklaşımının eninde sonunda “daha yüksek maliyet” anlamına gelmesi ve bu ek maliyeti müşteriye yansıtmanın zor olması olduğunu düşünüyorum
- Ben de çoğunlukla Claude Code kullanıyorum ama kod incelemesi için Codex açtığımda akış analizi ve ince bug tespitinde gerçekten ezici geliyor
- “Gelişmiş akıl yürütme modu”nun koddaki ince bug’ları yakaladığını görmek şaşırtıcı
- Sorun şu ki Codex o kadar isabetli ki, benim düzeltmem gereken bellek hatalarını sürekli işaret ediyor. Bu da işleri yavaşlatıyor
Başta Codex’ten şüphe duymuştum ama artık tüm kodlama işlerine Codex’le başlıyorum
Kusursuz değil ama refactoring, yeni bir projeye başlama ya da yabancı teknolojilerle çalışma gibi konularda şaşırtıcı sonuçlar veriyor
Özellikle erteleme alışkanlığını (procrastination) azaltıyor. Göz korkutan büyük bir işi bile Codex’e atınca iyi bir başlangıç noktası çıkarıyor
- Buna tamamen katılıyorum. Ben de başta şüpheliydim ama Opus 4.5’i kullanınca sarsıldım
  Codex 5.2’nin kalitesi ciddi biçimde artmış, artık doğrudan kod yazma işini ona bırakıyorum
  Planlama ve tasarım tartışmalarını da onunla yapınca, kodu bizzat yazmak için neredeyse bir neden kalmıyor
- Yukarıdaki başlıkta Codex’in debug konusunda zayıf olduğu söyleniyor ama başka başlıklarda bunun tam tersi görüşler var
  Sonuçta nesnel performans değerlendirmesinin zor olması ilginç
- Codex’in ertelemeyi azaltması konusuna katılıyorum
  Ama kilit nokta geri bildirim döngüsünün hızı. Build ve test ne kadar hızlıysa, ajan tipi kodlama araçları o kadar verimli oluyor
  Agents.md gibi net yönergeler yardımcı oluyor
- Model performansını karşılaştırırken prompt, iş türü, model sürümü gibi çok fazla değişken olduğu için nitel değerlendirme yapmanın zor olduğunu düşünüyorum
- Ben de Claude Code kullandım; Codex’le kıyaslayanların deneyimini merak ediyorum
Claude Code’dan Codex CLI’a geçtikten sonra, konteyner tabanlı bir Codex çalışma ortamı kurdum
Zamanlayıcı, dosya tetikleyici, API çağrısı, CLI modu gibi farklı yollarla çalıştırılabiliyor
codex-container içinde 300’den fazla MCP aracı var
Crawling, Google arama, Gmail/GCal/GDrive, Slack, embedding, transkripsiyon gibi çeşitli özellikleri destekliyor
Güvenlik açısından riskli işleri konteyner izolasyonu ile güvenli biçimde test ediyorum
gnosis-crawl ile headless browser crawling de mümkün
- İyi görünüyor ama bağımlılık olarak PowerShell kurmak gerekiyorsa muhtemelen kullanmam
- MCP araçlarının hepsi bir anda mı çalışıyor, yoksa kütüphane biçiminde olup yalnızca gerekenleri mi kullanıyorsunuz, bunu merak ediyorum
Benim deneyimimde GPT modelleri backend geliştirme için Claude’dan çok daha uygun
Daha yavaş ama mantığı daha net ve bakım yapılabilirliği daha yüksek
Ben Claude ile plan yapıp, Codex ile uygulayıp, sonra yine Claude ile kod incelemesi yapıyorum
Codex CLI’ın npm ile aynı anda homebrew üzerinden de güncellenmesi güzel olurdu
- GPT‑5 ilk kez düzeltme gerektirmeden doğrudan deploy edilebilir kod üretti
  Claude hâlâ çok fazla gereksiz süs (fluff) içeriyor ve aşırı tasarım yapıyor
- Benim deneyimimde Codex’in kod inceleme kalitesi Claude’dan çok daha iyi
  Claude önemsiz şeyleri işaret ediyor ama Codex gerçekten önemli sorunları buluyor
- Opus 4.5’ten sonra Claude da epey iyileşmiş gibi görünüyor
Güvenlik açısından bakınca, OpenAI modellerinin saldırgan nitelikteki (offensive) işleri fazla kısıtlaması biraz üzücü
Savunma için belli bir seviyede saldırgan simülasyona ihtiyaç olduğunu düşünüyorum
- Ben GPT‑5’i backend olarak kullanan bir çok ajanlı yapı içinde saldırı testleri yapıyorum ve kısıtlama olmadan gayet iyi çalışıyor
- Hem ChatGPT hem de Codex saldırgan güvenlik testlerinde iyi iş birliği yapıyor
- Yazıya göre daha izin verici (permissive) modeller davet usulüyle sunulacakmış
  Yalnızca güvenilir uzmanlara erişim vermek bana makul bir yaklaşım gibi geliyor
- Black-hat yeteneklerini artırmanın güvenliğe yardımcı olup olmadığı sorusuna karşı, bence burada denge gerekiyor
- Ben de her gün OpenAI modelleriyle saldırgan testler yapıyorum ama hiç sorun yaşamadım
“Siber güvenlik”in öne çıkarılması ilginç
Zaten güvenlik analizi otomasyonu eşik noktasını geçti ve bence model ilerlemesinden çok tekrarlı işlerin otomasyonu daha önemli
Zafiyet analizinin büyük kısmı otomatikleştirilebilir basit işlerden oluşuyor; bunlar ortadan kalkınca insanlar yaratıcı analize odaklanabiliyor
Benim için Codex her zaman temel modelden daha düşük performans veriyor
CLI’da fazla aceleci biçimde kod yazmaya çalışıyor
Ben sadece soru sormuşken dosya değiştirmeye kalkması rahatsız edici
- “Henüz kod yazma, sadece konuşalım” diye açıkça belirtince iyi çalışıyor
- Araştırma ve planlama aşamasında Codex olmayan modelleri, uygulama aşamasında ise Codex’i kullanmak verimli oluyor
- Ben de aynı şeyi yaşadım. Codex işlevsel olarak doğru ama ürettiği kod garip ya da dağınık oluyor
- Şu anda plan modu geliştiriliyor, bunun bu sorunu hafifletmesi bekleniyor
  Şimdilik yalnızca .md dosyalarını düzenlemesini isterseniz bir miktar kontrol sağlanabiliyor
- CodexTheModel hızlı ama ben önce kalite dediğim için temel modeli tercih ediyorum
Davet usulüyle güvenlik araştırması için model erişimi verilmesi politikasını makul buluyorum
“Güvenlik hizalaması” aşırıya kaçarsa güvenlik analizi yeteneği düşebilir
Yalnızca KYC sürecinden geçilirse, olumlu araştırma çıktıları üretilirken risk maruziyeti de azaltılabilir
“Çift kullanımlı (dual-use)” risk, yeni saldırı tekniklerinden çok uygulama eşiğini düşürmek anlamına geliyor
Aynı yetenek savunmacılar için zafiyet analizine yardımcı olurken, saldırganlar için otomatik saldırı aracına dönüşebilir
Bu yüzden dağıtım kontrolü ve loglama önemli
- “Güvenlik açığı incelemesi” talebinin bakımcıdan mı yoksa saldırgandan mı geldiğine göre sonuç tamamen değişir
- Bir zafiyeti bulup patch’leyebilmek, aynı zamanda istismar edilebilirlik ihtimalinin de yükseldiği anlamına gelir
- Sonuçta bu modelin hem red team hem blue team için yararlı olduğu anlamına geliyor
- Güvenlik açığı tespitinde çok iyi olması, aynı zamanda saldırı otomasyonunda da kullanılabileceği anlamına gelir
GPT‑5.1’i VSCode’daki Codex eklentisiyle kullandım; gerçekten büyülü bir deneyimdi
5.2’de henüz büyük bir fark hissetmedim ama özellikleri Cursor ya da Kilo Code seviyesine genişlerse daha da iyi olabilir
Eskiden OpenAI’ın geride kaldığını düşünüyordum ama 5.1, Gemini’den çok daha iyi

GPT-5.2-Codex tanıtıldı

Genel Bakış

Yazılım mühendisliğinin sınırlarını genişletmek

Benchmark performansı

Gerçek dünyanın siber güvenliği

React açığı keşif örneği

Sürekli gelişen siber güvenlik yetenekleri

Sonuç

İlgili okumalar

1 yorum

Hacker News görüşleri