- OpenAI’nin yeni duyurduğu GPT‑5.1‑Codex‑Max, uzun soluklu ve karmaşık geliştirme işlerini yürütmek için tasarlanmış en yeni ajan tabanlı kodlama modeli ve Codex ortamında kullanılabiliyor
- Yeni ‘compaction’ teknolojisi sayesinde birden fazla bağlam penceresi arasında geçiş yaparak milyonlarca token ölçeğindeki projeleri tutarlı biçimde işleyebiliyor
- Token verimliliği artırıldı; aynı akıl yürütme düzeyinde %30 daha az token kullanarak daha iyi performans sunuyor ve maliyetleri düşürmesi bekleniyor
- Uzun süre bağımsız çalışarak 24 saatten uzun süren refactoring ve debugging görevlerini yerine getirebiliyor
- Güvenlik sandbox’ı ve siber güvenlik izleme sistemi güçlendirilerek daha güvenli bir yapay zeka kodlama partnerine dönüşüyor
GPT‑5.1‑Codex‑Max’e Giriş
- GPT‑5.1‑Codex‑Max, OpenAI’nin yeni ajan tabanlı kodlama modeli; yazılım mühendisliği, matematik, araştırma ve başka alanlardaki işleri öğrenmiş akıl yürütme temelli modelin güncellenmiş sürümü
- Codex CLI, IDE eklentisi, bulut ve kod inceleme ortamlarında hemen kullanılabiliyor
- API erişimi yakında sunulacak
- Model; hız, zeka ve token verimliliği açısından geliştirilerek tüm geliştirme döngüsü boyunca daha güvenilir bir kodlama partneri olmayı hedefliyor
- Compaction süreci sayesinde birden fazla bağlam penceresi arasında geçiş yapıp milyonlarca token ölçeğindeki işleri tutarlı biçimde işleyebiliyor
Frontier kodlama performansı
- Gerçek yazılım mühendisliği işleri (PR oluşturma, kod inceleme, frontend kodlama, S&C) ile eğitildi ve önceki modele kıyasla birçok değerlendirmede daha iyi performans gösteriyor
- Windows ortamında çalışan ilk Codex modeli ve Codex CLI ile iş birliği performansını artırmaya yönelik çalışmalar da içeriyor
- Yalnızca benchmark iyileştirmeleri değil, gerçek kullanım kolaylığında da ilerleme sağlandığı görüldü
Hız ve maliyet verimliliği
- SWE‑bench Verified ölçütüne göre, aynı akıl yürütme seviyesinde GPT‑5.1‑Codex’e kıyasla %30 daha az token kullanarak daha yüksek performans elde ediyor
- ‘xhigh’ akıl yürütme modu, daha uzun düşünme süresiyle kaliteyi artırıyor; genel işler içinse ‘medium’ modu öneriliyor
- Token verimliliğindeki artışın geliştirici maliyetlerini düşürmesi bekleniyor
- Örnek: GPT‑5.1‑Codex‑Max, benzer işlev ve estetiğe sahip frontend tasarımlarını çok daha düşük maliyetle üretebiliyor
Uzun süre çalışan görevler
- Compaction özelliği, bağlam sınırlarını aşan karmaşık refactoring işlemlerini ve uzun ajan döngülerini mümkün kılıyor
- Oturum sınıra ulaştığında otomatik olarak sıkıştırma (compact) yaparak devam eden işi koruyor ve yeni bağlam alanı açıyor
- İç değerlendirmelerde 24 saatten uzun süren çalışma örnekleri doğrulandı
- Başarısız testlerin düzeltilmesi ve yinelemeli uygulama yoluyla sonunda başarılı sonuçlar elde edildi
- Uzun vadeli tutarlılığı koruma yeteneği, genel amaçlı ve güvenilir yapay zeka sistemlerine giden yolda temel bir yapı taşı
Güvenli ve güvenilir yapay zeka ajanları oluşturmak
- Uzun süreli akıl yürütme değerlendirmelerinde performans belirgin biçimde arttı; siber güvenlik ve uzun kodlama görevlerinde daha iyi sonuçlar sunuyor
- Cybersecurity Preparedness Framework ölçütlerine göre ‘High’ seviyesine ulaşmasa da, şimdiye kadar dağıtılan modeller arasında en güçlü siber güvenlik performansına sahip
- Aardvark programı gibi girişimlerle savunma amaçlı kullanım güçlendiriliyor
- Siber güvenliğe özel izleme, kötüye kullanım girişimlerini tespit edip engelliyor; şüpheli etkinlikler politika inceleme sistemine aktarılıyor
- Codex varsayılan olarak güvenlik sandbox’ında çalışıyor; dosya erişimi ve ağ kullanımı sınırlandırılıyor
- İnternet erişimi olduğunda prompt injection riski bulunuyor
- Geliştiricilerin dağıtımdan önce ajanın yaptığı işi gözden geçirmesi gerekiyor
- Codex; terminal log’larını, araç çağrılarını ve test sonuçlarını kaydediyor; insan incelemesinin yerini almıyor, destekleyici rol oynuyor
- Siber güvenlik yetenekleri hem savunma hem saldırı için kullanılabildiğinden, kademeli dağıtım ve daha güçlü koruma önlemleri birlikte yürütülüyor
Erişim ve dağıtım
- GPT‑5.1‑Codex‑Max, ChatGPT Plus, Pro, Business, Edu, Enterprise planlarının Codex bölümünde kullanılabiliyor
- Codex CLI’yi API anahtarıyla kullanan geliştiricilere de yakında sunulacak
- Bugünden itibaren Codex içinde varsayılan model olarak GPT‑5.1‑Codex‑Max, GPT‑5.1‑Codex’in yerini alıyor
- GPT‑5.1 genel amaçlı modelken, Codex‑Max özellikle ajan tabanlı kodlama işleri için öneriliyor
Sonuç
- GPT‑5.1‑Codex‑Max, uzun süreli kodlama görevlerinin sürdürülebilirliği, karmaşık iş akışlarının yönetimi ve yüksek kaliteli uygulama açısından büyük bir ilerleme anlamına geliyor
- CLI, IDE eklentileri, bulut entegrasyonu ve kod inceleme araçlarındaki gelişmelerle birleşince mühendislik verimliliğinde %70 artış sağlıyor
- OpenAI içindeki mühendislerin %95’i Codex’i haftalık olarak kullanıyor
- Ajan yetenekleri genişledikçe, geliştirici verimliliğinde yeni bir aşamaya geçiliyor
Ek: Model değerlendirme sonuçları
- SWE‑bench Verified (n=500) : GPT‑5.1‑Codex 73.7% → GPT‑5.1‑Codex‑Max 77.9%
- SWE‑Lancer IC SWE: 66.3% → 79.9%
- Terminal‑Bench 2.0: 52.8% → 58.1%
2 yorum
Codex, MS AOIA'da buluşalım 😊
Hacker News yorumu
Son zamanlarda Claude ve Codex'i çok kullandım
Claude talimatları (ör. CLAUDE.md) neredeyse yok sayarken, Codex sanki tek bir harfi bile kaçırmak istemiyormuş gibi aşırı sadakatle takip ediyor
Örneğin, test kodundaki bir yazım hatasını Claude "bu belli ki yazım hatası" diyerek düzeltirken, Codex neredeyse V8 motorunu baştan yazıp aritmetiği bozacak kadar ileri gidiyor
Bu yüzden Claude'un hızlı yinelemeli işler için, Codex'in ise doğruluğun önemli olduğu uzun soluklu işler için daha uygun olduğunu düşünüyorum
Sadece bir paragraf uzunluğunda talimat verdim, 45 dakika içinde neredeyse kusursuz tamamladı. Özet rapor çıkarmasını isteyince de gerçekten tüm talimatları tek bir harfini bile atlamadan izlediğini gördüm
Bu tavır ona kara kutu gibi yaklaşanlar için iyi olabilir ama ben sağduyulu bir iş ortağı istiyorum
Bu, OpenAI ile Anthropic'in yapay zekanın geleceğine nasıl baktığı arasındaki farkı gösteriyor gibi
GPT modelleri doğaçlama kodlamada zayıf ama gereksinimleri net işler söz konusu olduğunda çok başarılı
Hem Python hem de TypeScript'te
.getattr(),typeofgibi savunmacı kodlar çok fazlaydıModelleri eğitmekte iyiyiz ama isim koymakta kötüyüz 😄
Yeni sürüm SWE-Bench-Verified'da %77,9, SWE-Lancer'da %79,9, TerminalBench 2.0'da %58,1 ile SOTA elde etti
Birden fazla bağlam penceresini sıkıştırarak (compaction) uzun süreli çalışmayı mümkün kılıyor ve token verimliliğini %30 artırıyor
Görüşleri duymak isterim
“Token tasarrufu” deniyorsa ucuz olması gerekir gibi geliyor ama “Max” adı pahalıymış hissi veriyor
5.1 token'ı çok fazla harcadığı için 5.0'a geri dönmüştüm
Örnek ajanlara baktım; Codex CLI'da da böyle bir özellik olsa güzel olurdu
Bugün GPT‑5.1‑Codex‑Max ile Gemini 3 Pro'yu CLI'da karşılaştırdım
Gemini bir iş ortağı olarak yönetmesi zor. Soru sorunca niyeti tahmin edip önce kod yazmaya başlıyor
Buna karşılık Codex soruya doğrudan cevap veriyor
Kod kalitesi açısından Gemini daha insanın okumasına uygun bir stile sahipti ama planlama ve uygulama doğruluğunda Codex çok daha üstündü
Gemini'de DB sütun adı halüsinasyonu, eksik özellikler ve entegrasyon yetersizliği gibi sorunlar vardı
Genel olarak Codex açık ara kazandı
Resmi belgelere bakabilirsiniz
OpenAI sık sık rakip duyurularından hemen önce kendi modelini yayımlıyor
GPT‑4o da Google I/O'dan bir gün önce duyurulmuştu. Bu Codex güncellemesi de muhtemelen kademeli bir güncelleme
SVG render örneğine bakınca,
medium seviyesi iyi dengelenmiş görünüyor ve high/low arasında bilinçli stil farkları gösteriyor
Bu tür karşılaştırmalar modelin yaratıcı tutarlılığını anlamaya yardımcı oluyor
Keşke her şirket model eğitimine harcadığı çabanın %1'ini bile ödeme ve giriş deneyimini iyileştirmeye ayırsa
Claude'da neredeyse hiç giriş sistemi yok, OpenAI ise Codex CLI hatasını (#2798) düzeltmeli
Google'ın ürün ve ödeme yapısı ise aşırı karmaşık. Tek bir fiyatlandırma sayfasında birleştirilmesi gerekiyor
Workspace hesapları bile güvende değil. ToS'u dikkatle okumak gerekiyor
Şu anda OpenAI'nin çok daha güven veren bir müşteri deneyimi sunduğunu hissediyorum
Issue #12121'de de bununla ilgili tartışma var
“Güvenilir bir kodlama ortağı olma yolunda yeni bir adım” ile “uzun süreli çalışmaya optimize edilmiş model” ifadeleri çelişkili geliyor
Ortaksa birlikte kısa döngüler halinde çalışmalı; tek başına uzun süre çalışıyorsa ortak değildir
Resmi blogdaki token grafiğine bakılırsa yönelim bu
Codex'in plan modu hızına hayran kaldım. Kod kalitesi de fena değildi
Ama “npm run build çalıştır ve tüm sorunları düzelt” deyince, eslint ile ilgili paketleri kurarak kontrolden çıktı
Claude Code aynı işi 1 dakikadan kısa sürede bitirdi. Codex hâlâ biraz dengesiz görünüyor
Codex backend veya veri odaklı işlerde güçlü ama basit UI işlerinde tuhaf sonuçlar üretme eğiliminde
Geçen hafta sonu Claude ile Codex'i birlikte kullandım ve Codex'in TypeScript fizik/grafik kodunda çok daha iyi sonuç verdiğini gördüm
Binlerce satır içinde benim doğrudan yazdığım kısım sadece birkaç yüz satırdı.
Şimdi yeni Codex'e eski Codex'in yaptığı işi inceleteceğim