5 puan yazan GN⁺ 2025-11-20 | 2 yorum | WhatsApp'ta paylaş
  • OpenAI’nin yeni duyurduğu GPT‑5.1‑Codex‑Max, uzun soluklu ve karmaşık geliştirme işlerini yürütmek için tasarlanmış en yeni ajan tabanlı kodlama modeli ve Codex ortamında kullanılabiliyor
  • Yeni ‘compaction’ teknolojisi sayesinde birden fazla bağlam penceresi arasında geçiş yaparak milyonlarca token ölçeğindeki projeleri tutarlı biçimde işleyebiliyor
  • Token verimliliği artırıldı; aynı akıl yürütme düzeyinde %30 daha az token kullanarak daha iyi performans sunuyor ve maliyetleri düşürmesi bekleniyor
  • Uzun süre bağımsız çalışarak 24 saatten uzun süren refactoring ve debugging görevlerini yerine getirebiliyor
  • Güvenlik sandbox’ı ve siber güvenlik izleme sistemi güçlendirilerek daha güvenli bir yapay zeka kodlama partnerine dönüşüyor

GPT‑5.1‑Codex‑Max’e Giriş

  • GPT‑5.1‑Codex‑Max, OpenAI’nin yeni ajan tabanlı kodlama modeli; yazılım mühendisliği, matematik, araştırma ve başka alanlardaki işleri öğrenmiş akıl yürütme temelli modelin güncellenmiş sürümü
    • Codex CLI, IDE eklentisi, bulut ve kod inceleme ortamlarında hemen kullanılabiliyor
    • API erişimi yakında sunulacak
  • Model; hız, zeka ve token verimliliği açısından geliştirilerek tüm geliştirme döngüsü boyunca daha güvenilir bir kodlama partneri olmayı hedefliyor
  • Compaction süreci sayesinde birden fazla bağlam penceresi arasında geçiş yapıp milyonlarca token ölçeğindeki işleri tutarlı biçimde işleyebiliyor

Frontier kodlama performansı

  • Gerçek yazılım mühendisliği işleri (PR oluşturma, kod inceleme, frontend kodlama, S&C) ile eğitildi ve önceki modele kıyasla birçok değerlendirmede daha iyi performans gösteriyor
  • Windows ortamında çalışan ilk Codex modeli ve Codex CLI ile iş birliği performansını artırmaya yönelik çalışmalar da içeriyor
  • Yalnızca benchmark iyileştirmeleri değil, gerçek kullanım kolaylığında da ilerleme sağlandığı görüldü

Hız ve maliyet verimliliği

  • SWE‑bench Verified ölçütüne göre, aynı akıl yürütme seviyesinde GPT‑5.1‑Codex’e kıyasla %30 daha az token kullanarak daha yüksek performans elde ediyor
  • ‘xhigh’ akıl yürütme modu, daha uzun düşünme süresiyle kaliteyi artırıyor; genel işler içinse ‘medium’ modu öneriliyor
  • Token verimliliğindeki artışın geliştirici maliyetlerini düşürmesi bekleniyor
    • Örnek: GPT‑5.1‑Codex‑Max, benzer işlev ve estetiğe sahip frontend tasarımlarını çok daha düşük maliyetle üretebiliyor

Uzun süre çalışan görevler

  • Compaction özelliği, bağlam sınırlarını aşan karmaşık refactoring işlemlerini ve uzun ajan döngülerini mümkün kılıyor
    • Oturum sınıra ulaştığında otomatik olarak sıkıştırma (compact) yaparak devam eden işi koruyor ve yeni bağlam alanı açıyor
  • İç değerlendirmelerde 24 saatten uzun süren çalışma örnekleri doğrulandı
    • Başarısız testlerin düzeltilmesi ve yinelemeli uygulama yoluyla sonunda başarılı sonuçlar elde edildi
  • Uzun vadeli tutarlılığı koruma yeteneği, genel amaçlı ve güvenilir yapay zeka sistemlerine giden yolda temel bir yapı taşı

Güvenli ve güvenilir yapay zeka ajanları oluşturmak

  • Uzun süreli akıl yürütme değerlendirmelerinde performans belirgin biçimde arttı; siber güvenlik ve uzun kodlama görevlerinde daha iyi sonuçlar sunuyor
  • Cybersecurity Preparedness Framework ölçütlerine göre ‘High’ seviyesine ulaşmasa da, şimdiye kadar dağıtılan modeller arasında en güçlü siber güvenlik performansına sahip
    • Aardvark programı gibi girişimlerle savunma amaçlı kullanım güçlendiriliyor
  • Siber güvenliğe özel izleme, kötüye kullanım girişimlerini tespit edip engelliyor; şüpheli etkinlikler politika inceleme sistemine aktarılıyor
  • Codex varsayılan olarak güvenlik sandbox’ında çalışıyor; dosya erişimi ve ağ kullanımı sınırlandırılıyor
    • İnternet erişimi olduğunda prompt injection riski bulunuyor
  • Geliştiricilerin dağıtımdan önce ajanın yaptığı işi gözden geçirmesi gerekiyor
    • Codex; terminal log’larını, araç çağrılarını ve test sonuçlarını kaydediyor; insan incelemesinin yerini almıyor, destekleyici rol oynuyor
  • Siber güvenlik yetenekleri hem savunma hem saldırı için kullanılabildiğinden, kademeli dağıtım ve daha güçlü koruma önlemleri birlikte yürütülüyor

Erişim ve dağıtım

  • GPT‑5.1‑Codex‑Max, ChatGPT Plus, Pro, Business, Edu, Enterprise planlarının Codex bölümünde kullanılabiliyor
  • Codex CLI’yi API anahtarıyla kullanan geliştiricilere de yakında sunulacak
  • Bugünden itibaren Codex içinde varsayılan model olarak GPT‑5.1‑Codex‑Max, GPT‑5.1‑Codex’in yerini alıyor
    • GPT‑5.1 genel amaçlı modelken, Codex‑Max özellikle ajan tabanlı kodlama işleri için öneriliyor

Sonuç

  • GPT‑5.1‑Codex‑Max, uzun süreli kodlama görevlerinin sürdürülebilirliği, karmaşık iş akışlarının yönetimi ve yüksek kaliteli uygulama açısından büyük bir ilerleme anlamına geliyor
  • CLI, IDE eklentileri, bulut entegrasyonu ve kod inceleme araçlarındaki gelişmelerle birleşince mühendislik verimliliğinde %70 artış sağlıyor
    • OpenAI içindeki mühendislerin %95’i Codex’i haftalık olarak kullanıyor
  • Ajan yetenekleri genişledikçe, geliştirici verimliliğinde yeni bir aşamaya geçiliyor

Ek: Model değerlendirme sonuçları

  • SWE‑bench Verified (n=500) : GPT‑5.1‑Codex 73.7% → GPT‑5.1‑Codex‑Max 77.9%
  • SWE‑Lancer IC SWE: 66.3% → 79.9%
  • Terminal‑Bench 2.0: 52.8% → 58.1%

2 yorum

 
kaydash 2025-11-27

Codex, MS AOIA'da buluşalım 😊

 
GN⁺ 2025-11-20
Hacker News yorumu
  • Son zamanlarda Claude ve Codex'i çok kullandım
    Claude talimatları (ör. CLAUDE.md) neredeyse yok sayarken, Codex sanki tek bir harfi bile kaçırmak istemiyormuş gibi aşırı sadakatle takip ediyor
    Örneğin, test kodundaki bir yazım hatasını Claude "bu belli ki yazım hatası" diyerek düzeltirken, Codex neredeyse V8 motorunu baştan yazıp aritmetiği bozacak kadar ileri gidiyor
    Bu yüzden Claude'un hızlı yinelemeli işler için, Codex'in ise doğruluğun önemli olduğu uzun soluklu işler için daha uygun olduğunu düşünüyorum

    • Ben de Codex'ten çok etkilendim. 6 aydır süren uçuş simülatörü projesinde koordinat sistemini ECEF'e çevirmem gerekiyordu ve tüm fizik motoru ile grafik sistemini yeniden yazmak zorunda kaldım
      Sadece bir paragraf uzunluğunda talimat verdim, 45 dakika içinde neredeyse kusursuz tamamladı. Özet rapor çıkarmasını isteyince de gerçekten tüm talimatları tek bir harfini bile atlamadan izlediğini gördüm
    • Bir arkadaşım Claude'a kendisine her zaman “Mr Tinkleberry” diye hitap etmesini söylemiş; Claude bunu unuttuğunda talimatı görmezden gelip gelmediğini anlayabildiğini söylüyor
    • Codex adeta “dünyadaki son programcı” gibi davranıyor. Ne olursa olsun hedefi tamamlamaya çalışıyor
      Bu tavır ona kara kutu gibi yaklaşanlar için iyi olabilir ama ben sağduyulu bir iş ortağı istiyorum
      Bu, OpenAI ile Anthropic'in yapay zekanın geleceğine nasıl baktığı arasındaki farkı gösteriyor gibi
    • “1+1===3 testi düzeltme” benzetmesi gerçekten mükemmel. Bu tek satır, GPT ailesi ile Claude ailesi arasındaki temel farkı açıklayabiliyor
      GPT modelleri doğaçlama kodlamada zayıf ama gereksinimleri net işler söz konusu olduğunda çok başarılı
    • Codex'in kod silmeyi hiç becerememesi ve kod tabanını sürekli gereksiz yere büyütmesi beni sinirlendirdi
      Hem Python hem de TypeScript'te .getattr(), typeof gibi savunmacı kodlar çok fazlaydı
  • Modelleri eğitmekte iyiyiz ama isim koymakta kötüyüz 😄
    Yeni sürüm SWE-Bench-Verified'da %77,9, SWE-Lancer'da %79,9, TerminalBench 2.0'da %58,1 ile SOTA elde etti
    Birden fazla bağlam penceresini sıkıştırarak (compaction) uzun süreli çalışmayı mümkün kılıyor ve token verimliliğini %30 artırıyor
    Görüşleri duymak isterim

    • Şu anda GPT‑5.1‑Codex‑High kullanıyorum; Max sürümünün maliyet ve kredi limiti açısından farkı ne, merak ediyorum
      “Token tasarrufu” deniyorsa ucuz olması gerekir gibi geliyor ama “Max” adı pahalıymış hissi veriyor
    • Codex harika bir ürün, bu yüzden kademeli yükseltmeler de memnuniyet verici. Yakında deneyeceğim
    • Issue #6426'yı çözüp çözmediklerini merak ediyorum.
      5.1 token'ı çok fazla harcadığı için 5.0'a geri dönmüştüm
    • Bu modeli Chat arayüzünde de kullanabilmek güzel olurdu
    • Claude Code'un subagent özelliğini seviyorum. Karmaşık kod tabanlarında bağlam yönetimi için faydalı
      Örnek ajanlara baktım; Codex CLI'da da böyle bir özellik olsa güzel olurdu
  • Bugün GPT‑5.1‑Codex‑Max ile Gemini 3 Pro'yu CLI'da karşılaştırdım
    Gemini bir iş ortağı olarak yönetmesi zor. Soru sorunca niyeti tahmin edip önce kod yazmaya başlıyor
    Buna karşılık Codex soruya doğrudan cevap veriyor
    Kod kalitesi açısından Gemini daha insanın okumasına uygun bir stile sahipti ama planlama ve uygulama doğruluğunda Codex çok daha üstündü
    Gemini'de DB sütun adı halüsinasyonu, eksik özellikler ve entegrasyon yetersizliği gibi sorunlar vardı
    Genel olarak Codex açık ara kazandı

    • Google, Gemini 3'ün tüm benchmark'larda en iyi olduğunu övünerek anlattı ama bunun gerçekte doğru olmadığını gösteriyor
    • Gemini kullanırken temperature ayarını varsayılan 1.0'da tutmak gerekiyor. Düşürülürse döngüler veya performans düşüşü yaşanıyor
      Resmi belgelere bakabilirsiniz
    • Ben de Gemini'ye “kod yazma” desem bile sürekli yeniden kod yazdığını gördüm
  • OpenAI sık sık rakip duyurularından hemen önce kendi modelini yayımlıyor
    GPT‑4o da Google I/O'dan bir gün önce duyurulmuştu. Bu Codex güncellemesi de muhtemelen kademeli bir güncelleme

    • GPT‑5.1 / Codex zaten benchmark'larda Gemini 3'ten üstündü ve bu güncellemeyle fark daha da açılıyor
    • Anthropic de GPT‑5 çıkış zamanına denk getirerek Opus 4.1'i yayımladı. Artık rekabet iyice kızıştı
    • Bu rekabet sayesinde gelişim hızlanıyor. Sağlıklı rekabet için minnettar olmalıyız
    • Gemini pazardan pay alıyor ve OpenAI da bunun farkında
    • Bu tür duyuru zamanlaması rekabetine artık alıştık
  • SVG render örneğine bakınca,
    medium seviyesi iyi dengelenmiş görünüyor ve high/low arasında bilinçli stil farkları gösteriyor
    Bu tür karşılaştırmalar modelin yaratıcı tutarlılığını anlamaya yardımcı oluyor

    • Ama bu tür SVG çıktı benchmark'larının artık anlamını yitirdiğini düşünüyorum. RLHF ile özel olarak eğitilmiş sonuçlar olabilir
  • Keşke her şirket model eğitimine harcadığı çabanın %1'ini bile ödeme ve giriş deneyimini iyileştirmeye ayırsa
    Claude'da neredeyse hiç giriş sistemi yok, OpenAI ise Codex CLI hatasını (#2798) düzeltmeli
    Google'ın ürün ve ödeme yapısı ise aşırı karmaşık. Tek bir fiyatlandırma sayfasında birleştirilmesi gerekiyor

    • Ben de Google ödeme sistemi yüzünden vazgeçtim. Google Payments'ın ne olduğunu bile anlamıyorum ve hesap doğrulama hatası yüzünden 18 yıllık şirket hesabım askıya alındı
    • Google'ın ürün yelpazesi dağınık. Vertex AI, AI Studio, Maker Studio, Gemini vb. için belgeler çakışıyor ve net değil
    • Gemini'nin veri eğitimi dışında kalma seçeneği ortadan kayboldu ve hangi hesapların eğitime dahil edildiği de belirsiz
      Workspace hesapları bile güvende değil. ToS'u dikkatle okumak gerekiyor
      Şu anda OpenAI'nin çok daha güven veren bir müşteri deneyimi sunduğunu hissediyorum
    • Gemini 3 Pro'nun izin alınmamış verilerle sonradan eğitilmiş olabileceğinden şüpheleniyorum
      Issue #12121'de de bununla ilgili tartışma var
    • Claude'da giriş yaparken şifre veya passkey seçeneği olmaması rahatsız edici
  • “Güvenilir bir kodlama ortağı olma yolunda yeni bir adım” ile “uzun süreli çalışmaya optimize edilmiş model” ifadeleri çelişkili geliyor
    Ortaksa birlikte kısa döngüler halinde çalışmalı; tek başına uzun süre çalışıyorsa ortak değildir

    • Codex uzun soluklu işlerde aşırı bağımsız davranıyor, hatta TLS kütüphanesini baştan yazmak gibi riskli yaklaşımlara giriyor
    • (Codex ekibinden) Biz hem kısa yinelemeli işleri hem de uzun vadeli delege edilen işleri yapabilen bir takım arkadaşı modeli hedefliyoruz
      Resmi blogdaki token grafiğine bakılırsa yönelim bu
    • Cursor'un Composer modeli de önerilir. Çok hızlı; sonuç yetersiz olsa bile 30 saniye içinde yeniden deneyebilirsiniz
  • Codex'in plan modu hızına hayran kaldım. Kod kalitesi de fena değildi
    Ama “npm run build çalıştır ve tüm sorunları düzelt” deyince, eslint ile ilgili paketleri kurarak kontrolden çıktı
    Claude Code aynı işi 1 dakikadan kısa sürede bitirdi. Codex hâlâ biraz dengesiz görünüyor

    • plan modunun ne olduğunu merak ediyorum
  • Codex backend veya veri odaklı işlerde güçlü ama basit UI işlerinde tuhaf sonuçlar üretme eğiliminde

  • Geçen hafta sonu Claude ile Codex'i birlikte kullandım ve Codex'in TypeScript fizik/grafik kodunda çok daha iyi sonuç verdiğini gördüm
    Binlerce satır içinde benim doğrudan yazdığım kısım sadece birkaç yüz satırdı.
    Şimdi yeni Codex'e eski Codex'in yaptığı işi inceleteceğim