7 puan yazan GN⁺ 2025-12-19 | 1 yorum | WhatsApp'ta paylaş
  • Karmaşık gerçek dünya geliştirme işlerini hedefleyen ajan tabanlı kodlama modeli olarak Codex ortamına uygun şekilde optimize edildi
  • Uzun süreli çalışmalarda bağlam sıkıştırma ile bağlamı koruyarak refaktöring ve migrasyon gibi büyük değişikliklerde daha güçlü hale geldi
  • Yerel Windows ortamında genel performans iyileştirmeleri ile birlikte ekran görüntüsü, teknik çizim, grafik ve UI yorumlamasını destekleyen görsel yetenekler güçlendirildi
  • SWE-Bench Pro ve Terminal-Bench 2.0'da en üst düzey performans elde etti
  • Savunma amaçlı siber güvenlik yeteneklerini büyük ölçüde artırırken kötüye kullanım olasılığını dikkate alarak ücretli kullanıcılara öncelik ve güvene dayalı erişimi birlikte kullanan bir dağıtım yaklaşımı benimsendi

Genel Bakış

  • GPT-5.2-Codex yeni tanıtıldı. Karmaşık gerçek dünya yazılım mühendisliği görevleri hedeflenerek tasarlanmış bir model
  • GPT-5.2 temel alınarak Codex ortamında ajan tabanlı kodlama işleri için optimize edildi
  • Bağlam sıkıştırma sayesinde uzun süre devam eden işlerde istikrarlı performans sunuyor ve büyük ölçekli kod değişikliklerindeki yetkinliği güçlendirildi
  • Windows ortamında genel performans iyileştirmeleri yapıldı ve siber güvenlik yetenekleri de geliştirildi

Yazılım mühendisliğinin sınırlarını genişletmek

  • GPT-5.2'nin uzmanlık bilgisine dayalı iş gücü ile GPT-5.1-Codex-Max'in ajan tabanlı kodlama ve terminal kullanım performansı temel alınarak geliştirilen bir model
  • Uzun bağlamı anlama, araç çağırma kararlılığı, doğruluk iyileştirmeleri ve yerel sıkıştırma temeliyle uzun süreli kodlama işlerinde güvenilir bir partner olarak çalışması hedefleniyor
  • Akıl yürütme sürecinde token verimliliğini koruma yönü de buna dahil
  • Görsel yeteneklerin güçlendirilmesiyle kodlama oturumları sırasında paylaşılan ekran görüntüleri, teknik çizimler, grafikler ve UI ekranlarının yorumlanma doğruluğu artırıldı
  • GPT-5.1-Codex-Max'te sunulan özellikler temel alınarak yerel Windows'ta da ajan tabanlı kodlama daha etkili ve daha kararlı biçimde gerçekleştiriliyor

Benchmark performansı

  • SWE-Bench Pro ve Terminal-Bench 2.0'da en üst düzey performans elde etti
    • SWE-Bench Pro, kod deposu verilerek gerçekçi yazılım mühendisliği görevlerini çözen yamalar üretmeyi değerlendiren bir ölçüm
    • Terminal-Bench 2.0, gerçek terminal ortamında AI ajanlarının performansını test ediyor; buna kod derleme, model eğitimi ve sunucu yapılandırma işleri dahil

Gerçek dünyanın siber güvenliği

  • Modern toplumun temel sistemlerini ve hassas verilerini korumak için güçlü siber güvenlik şart
  • Açıklar uzun süre ortaya çıkmayabilir ve bunların keşif, doğrulama ve düzeltme süreçleri büyük ölçüde araçlara sahip mühendisler ile bağımsız güvenlik araştırmacıları topluluğuna dayanıyor
  • 11 Aralık 2025'te React ekibinin React Server Components tabanlı uygulamaları etkileyen 3 güvenlik açığını duyurduğu örnekte, yalnızca açıkların kendisi değil keşif süreci de dikkat çekti
  • React açığı keşif örneği

    • Stripe iştiraki Privy'de güvenlik araştırmacısı Andrew MacPherson, Codex CLI içinde GPT-5.1-Codex-Max kullanarak React2Shell analizini yürüttü
    • Yerel test ortamı kurulumu, saldırı yüzeyi analizi ve olağandışı girdilere dayalı fuzzing gibi standart güvenlik iş akışlarında Codex kullanıldı
    • React2Shell yeniden üretim sürecinde beklenmeyen bir davranış tespit edildi ve bu, bir hafta içinde daha önce bilinmeyen 3 açığın keşfedilmesine yol açtı
    • Keşfedilen açıklar sorumlu açıklama ilkelerine uygun şekilde React ekibiyle paylaşıldı
    • Güvenlik araştırmacısının açık doğrulama sürecinin ne kadar kısalabileceğini gösteren bir örnek olarak Codex oturum paylaşımı da yer aldı

Sürekli gelişen siber güvenlik yetenekleri

  • GPT-5-Codex'ten itibaren siber güvenlik yetenekleri belirgin biçimde gelişmeye başladı; GPT-5.1-Codex-Max'te büyük bir sıçrama yaşandı ve GPT-5.2-Codex'te de açık iyileşmeler görüldü
  • Gelecek modellerin de aynı çizgiyi sürdüreceği öngörülüyor; hazırlık değerlendirme çerçevesinde siber güvenlik yeteneklerinde 'yüksek' seviyeye ulaşma olasılığı varsayılarak planlama ve değerlendirme yapılıyor
  • GPT-5.2-Codex henüz 'yüksek' seviyeye ulaşmış değil, ancak gelecekte bu eşiği aşacak modeller de hesaba katılarak hazırlıklar sürdürülüyor

Sonuç

  • GPT-5.2-Codex, yazılım mühendisliği ve siber güvenlik alanlarında gelişmiş yapay zekanın katkı biçiminin genişlediğini gösteriyor
  • Geliştiriciler ve güvenlik sorumlularının karmaşık ve uzun vadeli görevleri çözmesine destek olurken, sorumlu güvenlik araştırması araçlarını da daha ileri taşıyor

1 yorum

 
GN⁺ 2025-12-19
Hacker News görüşleri
  • Eğer bunu OpenAI’dan biri görüyorsa, lütfen akıl yürütme yeteneğini (reasoning) bozmayın
    Codex, kodda ya da matematikte bug ve tutarsızlıkları bulmada gerçekten olağanüstü
    Claude Code “kod üretimi”nde güçlüyse, Codex/GPT5.x problem tespitinde ezici derecede üstün
    Bence hızdan çok kalite önemli

    • Günde sadece birkaç kez böyle hassas problem tespiti gerekiyorsa, aylık 20 dolarlık plan yeterli mi, yoksa 200 dolarlık plan mı gerekiyor diye merak ediyorum
    • Sorunun, “önce kalite” yaklaşımının eninde sonunda “daha yüksek maliyet” anlamına gelmesi ve bu ek maliyeti müşteriye yansıtmanın zor olması olduğunu düşünüyorum
    • Ben de çoğunlukla Claude Code kullanıyorum ama kod incelemesi için Codex açtığımda akış analizi ve ince bug tespitinde gerçekten ezici geliyor
    • “Gelişmiş akıl yürütme modu”nun koddaki ince bug’ları yakaladığını görmek şaşırtıcı
    • Sorun şu ki Codex o kadar isabetli ki, benim düzeltmem gereken bellek hatalarını sürekli işaret ediyor. Bu da işleri yavaşlatıyor
  • Başta Codex’ten şüphe duymuştum ama artık tüm kodlama işlerine Codex’le başlıyorum
    Kusursuz değil ama refactoring, yeni bir projeye başlama ya da yabancı teknolojilerle çalışma gibi konularda şaşırtıcı sonuçlar veriyor
    Özellikle erteleme alışkanlığını (procrastination) azaltıyor. Göz korkutan büyük bir işi bile Codex’e atınca iyi bir başlangıç noktası çıkarıyor

    • Buna tamamen katılıyorum. Ben de başta şüpheliydim ama Opus 4.5’i kullanınca sarsıldım
      Codex 5.2’nin kalitesi ciddi biçimde artmış, artık doğrudan kod yazma işini ona bırakıyorum
      Planlama ve tasarım tartışmalarını da onunla yapınca, kodu bizzat yazmak için neredeyse bir neden kalmıyor
    • Yukarıdaki başlıkta Codex’in debug konusunda zayıf olduğu söyleniyor ama başka başlıklarda bunun tam tersi görüşler var
      Sonuçta nesnel performans değerlendirmesinin zor olması ilginç
    • Codex’in ertelemeyi azaltması konusuna katılıyorum
      Ama kilit nokta geri bildirim döngüsünün hızı. Build ve test ne kadar hızlıysa, ajan tipi kodlama araçları o kadar verimli oluyor
      Agents.md gibi net yönergeler yardımcı oluyor
    • Model performansını karşılaştırırken prompt, iş türü, model sürümü gibi çok fazla değişken olduğu için nitel değerlendirme yapmanın zor olduğunu düşünüyorum
    • Ben de Claude Code kullandım; Codex’le kıyaslayanların deneyimini merak ediyorum
  • Claude Code’dan Codex CLI’a geçtikten sonra, konteyner tabanlı bir Codex çalışma ortamı kurdum
    Zamanlayıcı, dosya tetikleyici, API çağrısı, CLI modu gibi farklı yollarla çalıştırılabiliyor
    codex-container içinde 300’den fazla MCP aracı var
    Crawling, Google arama, Gmail/GCal/GDrive, Slack, embedding, transkripsiyon gibi çeşitli özellikleri destekliyor
    Güvenlik açısından riskli işleri konteyner izolasyonu ile güvenli biçimde test ediyorum
    gnosis-crawl ile headless browser crawling de mümkün

    • İyi görünüyor ama bağımlılık olarak PowerShell kurmak gerekiyorsa muhtemelen kullanmam
    • MCP araçlarının hepsi bir anda mı çalışıyor, yoksa kütüphane biçiminde olup yalnızca gerekenleri mi kullanıyorsunuz, bunu merak ediyorum
  • Benim deneyimimde GPT modelleri backend geliştirme için Claude’dan çok daha uygun
    Daha yavaş ama mantığı daha net ve bakım yapılabilirliği daha yüksek
    Ben Claude ile plan yapıp, Codex ile uygulayıp, sonra yine Claude ile kod incelemesi yapıyorum
    Codex CLI’ın npm ile aynı anda homebrew üzerinden de güncellenmesi güzel olurdu

    • GPT‑5 ilk kez düzeltme gerektirmeden doğrudan deploy edilebilir kod üretti
      Claude hâlâ çok fazla gereksiz süs (fluff) içeriyor ve aşırı tasarım yapıyor
    • Benim deneyimimde Codex’in kod inceleme kalitesi Claude’dan çok daha iyi
      Claude önemsiz şeyleri işaret ediyor ama Codex gerçekten önemli sorunları buluyor
    • Opus 4.5’ten sonra Claude da epey iyileşmiş gibi görünüyor
  • Güvenlik açısından bakınca, OpenAI modellerinin saldırgan nitelikteki (offensive) işleri fazla kısıtlaması biraz üzücü
    Savunma için belli bir seviyede saldırgan simülasyona ihtiyaç olduğunu düşünüyorum

    • Ben GPT‑5’i backend olarak kullanan bir çok ajanlı yapı içinde saldırı testleri yapıyorum ve kısıtlama olmadan gayet iyi çalışıyor
    • Hem ChatGPT hem de Codex saldırgan güvenlik testlerinde iyi iş birliği yapıyor
    • Yazıya göre daha izin verici (permissive) modeller davet usulüyle sunulacakmış
      Yalnızca güvenilir uzmanlara erişim vermek bana makul bir yaklaşım gibi geliyor
    • Black-hat yeteneklerini artırmanın güvenliğe yardımcı olup olmadığı sorusuna karşı, bence burada denge gerekiyor
    • Ben de her gün OpenAI modelleriyle saldırgan testler yapıyorum ama hiç sorun yaşamadım
  • “Siber güvenlik”in öne çıkarılması ilginç
    Zaten güvenlik analizi otomasyonu eşik noktasını geçti ve bence model ilerlemesinden çok tekrarlı işlerin otomasyonu daha önemli
    Zafiyet analizinin büyük kısmı otomatikleştirilebilir basit işlerden oluşuyor; bunlar ortadan kalkınca insanlar yaratıcı analize odaklanabiliyor

  • Benim için Codex her zaman temel modelden daha düşük performans veriyor
    CLI’da fazla aceleci biçimde kod yazmaya çalışıyor
    Ben sadece soru sormuşken dosya değiştirmeye kalkması rahatsız edici

    • “Henüz kod yazma, sadece konuşalım” diye açıkça belirtince iyi çalışıyor
    • Araştırma ve planlama aşamasında Codex olmayan modelleri, uygulama aşamasında ise Codex’i kullanmak verimli oluyor
    • Ben de aynı şeyi yaşadım. Codex işlevsel olarak doğru ama ürettiği kod garip ya da dağınık oluyor
    • Şu anda plan modu geliştiriliyor, bunun bu sorunu hafifletmesi bekleniyor
      Şimdilik yalnızca .md dosyalarını düzenlemesini isterseniz bir miktar kontrol sağlanabiliyor
    • CodexTheModel hızlı ama ben önce kalite dediğim için temel modeli tercih ediyorum
  • Davet usulüyle güvenlik araştırması için model erişimi verilmesi politikasını makul buluyorum
    “Güvenlik hizalaması” aşırıya kaçarsa güvenlik analizi yeteneği düşebilir
    Yalnızca KYC sürecinden geçilirse, olumlu araştırma çıktıları üretilirken risk maruziyeti de azaltılabilir

  • “Çift kullanımlı (dual-use)” risk, yeni saldırı tekniklerinden çok uygulama eşiğini düşürmek anlamına geliyor
    Aynı yetenek savunmacılar için zafiyet analizine yardımcı olurken, saldırganlar için otomatik saldırı aracına dönüşebilir
    Bu yüzden dağıtım kontrolü ve loglama önemli

    • “Güvenlik açığı incelemesi” talebinin bakımcıdan mı yoksa saldırgandan mı geldiğine göre sonuç tamamen değişir
    • Bir zafiyeti bulup patch’leyebilmek, aynı zamanda istismar edilebilirlik ihtimalinin de yükseldiği anlamına gelir
    • Sonuçta bu modelin hem red team hem blue team için yararlı olduğu anlamına geliyor
    • Güvenlik açığı tespitinde çok iyi olması, aynı zamanda saldırı otomasyonunda da kullanılabileceği anlamına gelir
  • GPT‑5.1’i VSCode’daki Codex eklentisiyle kullandım; gerçekten büyülü bir deneyimdi
    5.2’de henüz büyük bir fark hissetmedim ama özellikleri Cursor ya da Kilo Code seviyesine genişlerse daha da iyi olabilir
    Eskiden OpenAI’ın geride kaldığını düşünüyordum ama 5.1, Gemini’den çok daha iyi