GPT‑5.1‑Codex‑Max ile Daha Fazlasını İnşa Etmek

(openai.com)

5 puan yazan GN⁺ 2025-11-20 | 2 yorum | WhatsApp'ta paylaş

OpenAI’nin yeni duyurduğu GPT‑5.1‑Codex‑Max, uzun soluklu ve karmaşık geliştirme işlerini yürütmek için tasarlanmış en yeni ajan tabanlı kodlama modeli ve Codex ortamında kullanılabiliyor
Yeni ‘compaction’ teknolojisi sayesinde birden fazla bağlam penceresi arasında geçiş yaparak milyonlarca token ölçeğindeki projeleri tutarlı biçimde işleyebiliyor
Token verimliliği artırıldı; aynı akıl yürütme düzeyinde %30 daha az token kullanarak daha iyi performans sunuyor ve maliyetleri düşürmesi bekleniyor
Uzun süre bağımsız çalışarak 24 saatten uzun süren refactoring ve debugging görevlerini yerine getirebiliyor
Güvenlik sandbox’ı ve siber güvenlik izleme sistemi güçlendirilerek daha güvenli bir yapay zeka kodlama partnerine dönüşüyor

GPT‑5.1‑Codex‑Max’e Giriş

GPT‑5.1‑Codex‑Max, OpenAI’nin yeni ajan tabanlı kodlama modeli; yazılım mühendisliği, matematik, araştırma ve başka alanlardaki işleri öğrenmiş akıl yürütme temelli modelin güncellenmiş sürümü
- Codex CLI, IDE eklentisi, bulut ve kod inceleme ortamlarında hemen kullanılabiliyor
- API erişimi yakında sunulacak
Model; hız, zeka ve token verimliliği açısından geliştirilerek tüm geliştirme döngüsü boyunca daha güvenilir bir kodlama partneri olmayı hedefliyor
Compaction süreci sayesinde birden fazla bağlam penceresi arasında geçiş yapıp milyonlarca token ölçeğindeki işleri tutarlı biçimde işleyebiliyor

Frontier kodlama performansı

Gerçek yazılım mühendisliği işleri (PR oluşturma, kod inceleme, frontend kodlama, S&C) ile eğitildi ve önceki modele kıyasla birçok değerlendirmede daha iyi performans gösteriyor
Windows ortamında çalışan ilk Codex modeli ve Codex CLI ile iş birliği performansını artırmaya yönelik çalışmalar da içeriyor
Yalnızca benchmark iyileştirmeleri değil, gerçek kullanım kolaylığında da ilerleme sağlandığı görüldü

Hız ve maliyet verimliliği

SWE‑bench Verified ölçütüne göre, aynı akıl yürütme seviyesinde GPT‑5.1‑Codex’e kıyasla %30 daha az token kullanarak daha yüksek performans elde ediyor
‘xhigh’ akıl yürütme modu, daha uzun düşünme süresiyle kaliteyi artırıyor; genel işler içinse ‘medium’ modu öneriliyor
Token verimliliğindeki artışın geliştirici maliyetlerini düşürmesi bekleniyor
- Örnek: GPT‑5.1‑Codex‑Max, benzer işlev ve estetiğe sahip frontend tasarımlarını çok daha düşük maliyetle üretebiliyor
Reklam

Uzun süre çalışan görevler

Compaction özelliği, bağlam sınırlarını aşan karmaşık refactoring işlemlerini ve uzun ajan döngülerini mümkün kılıyor
- Oturum sınıra ulaştığında otomatik olarak sıkıştırma (compact) yaparak devam eden işi koruyor ve yeni bağlam alanı açıyor
İç değerlendirmelerde 24 saatten uzun süren çalışma örnekleri doğrulandı
- Başarısız testlerin düzeltilmesi ve yinelemeli uygulama yoluyla sonunda başarılı sonuçlar elde edildi
Uzun vadeli tutarlılığı koruma yeteneği, genel amaçlı ve güvenilir yapay zeka sistemlerine giden yolda temel bir yapı taşı

Güvenli ve güvenilir yapay zeka ajanları oluşturmak

Uzun süreli akıl yürütme değerlendirmelerinde performans belirgin biçimde arttı; siber güvenlik ve uzun kodlama görevlerinde daha iyi sonuçlar sunuyor
Cybersecurity Preparedness Framework ölçütlerine göre ‘High’ seviyesine ulaşmasa da, şimdiye kadar dağıtılan modeller arasında en güçlü siber güvenlik performansına sahip
- Aardvark programı gibi girişimlerle savunma amaçlı kullanım güçlendiriliyor
Siber güvenliğe özel izleme, kötüye kullanım girişimlerini tespit edip engelliyor; şüpheli etkinlikler politika inceleme sistemine aktarılıyor
Codex varsayılan olarak güvenlik sandbox’ında çalışıyor; dosya erişimi ve ağ kullanımı sınırlandırılıyor
- İnternet erişimi olduğunda prompt injection riski bulunuyor
Geliştiricilerin dağıtımdan önce ajanın yaptığı işi gözden geçirmesi gerekiyor
- Codex; terminal log’larını, araç çağrılarını ve test sonuçlarını kaydediyor; insan incelemesinin yerini almıyor, destekleyici rol oynuyor
Siber güvenlik yetenekleri hem savunma hem saldırı için kullanılabildiğinden, kademeli dağıtım ve daha güçlü koruma önlemleri birlikte yürütülüyor

Erişim ve dağıtım

GPT‑5.1‑Codex‑Max, ChatGPT Plus, Pro, Business, Edu, Enterprise planlarının Codex bölümünde kullanılabiliyor
Codex CLI’yi API anahtarıyla kullanan geliştiricilere de yakında sunulacak
Bugünden itibaren Codex içinde varsayılan model olarak GPT‑5.1‑Codex‑Max, GPT‑5.1‑Codex’in yerini alıyor
- GPT‑5.1 genel amaçlı modelken, Codex‑Max özellikle ajan tabanlı kodlama işleri için öneriliyor
Reklam

Sonuç

GPT‑5.1‑Codex‑Max, uzun süreli kodlama görevlerinin sürdürülebilirliği, karmaşık iş akışlarının yönetimi ve yüksek kaliteli uygulama açısından büyük bir ilerleme anlamına geliyor
CLI, IDE eklentileri, bulut entegrasyonu ve kod inceleme araçlarındaki gelişmelerle birleşince mühendislik verimliliğinde %70 artış sağlıyor
- OpenAI içindeki mühendislerin %95’i Codex’i haftalık olarak kullanıyor
Ajan yetenekleri genişledikçe, geliştirici verimliliğinde yeni bir aşamaya geçiliyor

Ek: Model değerlendirme sonuçları

SWE‑bench Verified (n=500) : GPT‑5.1‑Codex 73.7% → GPT‑5.1‑Codex‑Max 77.9%
SWE‑Lancer IC SWE: 66.3% → 79.9%
Terminal‑Bench 2.0: 52.8% → 58.1%

2 yorum

kaydash 2025-11-27

Codex, MS AOIA'da buluşalım 😊

GN⁺ 2025-11-20

Hacker News yorumu

Son zamanlarda Claude ve Codex'i çok kullandım
Claude talimatları (ör. CLAUDE.md) neredeyse yok sayarken, Codex sanki tek bir harfi bile kaçırmak istemiyormuş gibi aşırı sadakatle takip ediyor
Örneğin, test kodundaki bir yazım hatasını Claude "bu belli ki yazım hatası" diyerek düzeltirken, Codex neredeyse V8 motorunu baştan yazıp aritmetiği bozacak kadar ileri gidiyor
Bu yüzden Claude'un hızlı yinelemeli işler için, Codex'in ise doğruluğun önemli olduğu uzun soluklu işler için daha uygun olduğunu düşünüyorum
- Ben de Codex'ten çok etkilendim. 6 aydır süren uçuş simülatörü projesinde koordinat sistemini ECEF'e çevirmem gerekiyordu ve tüm fizik motoru ile grafik sistemini yeniden yazmak zorunda kaldım
  Sadece bir paragraf uzunluğunda talimat verdim, 45 dakika içinde neredeyse kusursuz tamamladı. Özet rapor çıkarmasını isteyince de gerçekten tüm talimatları tek bir harfini bile atlamadan izlediğini gördüm
- Bir arkadaşım Claude'a kendisine her zaman “Mr Tinkleberry” diye hitap etmesini söylemiş; Claude bunu unuttuğunda talimatı görmezden gelip gelmediğini anlayabildiğini söylüyor
- Codex adeta “dünyadaki son programcı” gibi davranıyor. Ne olursa olsun hedefi tamamlamaya çalışıyor
  Bu tavır ona kara kutu gibi yaklaşanlar için iyi olabilir ama ben sağduyulu bir iş ortağı istiyorum
  Bu, OpenAI ile Anthropic'in yapay zekanın geleceğine nasıl baktığı arasındaki farkı gösteriyor gibi
- “1+1===3 testi düzeltme” benzetmesi gerçekten mükemmel. Bu tek satır, GPT ailesi ile Claude ailesi arasındaki temel farkı açıklayabiliyor
  GPT modelleri doğaçlama kodlamada zayıf ama gereksinimleri net işler söz konusu olduğunda çok başarılı
- Codex'in kod silmeyi hiç becerememesi ve kod tabanını sürekli gereksiz yere büyütmesi beni sinirlendirdi
  Hem Python hem de TypeScript'te .getattr(), typeof gibi savunmacı kodlar çok fazlaydı
Modelleri eğitmekte iyiyiz ama isim koymakta kötüyüz 😄
Yeni sürüm SWE-Bench-Verified'da %77,9, SWE-Lancer'da %79,9, TerminalBench 2.0'da %58,1 ile SOTA elde etti
Birden fazla bağlam penceresini sıkıştırarak (compaction) uzun süreli çalışmayı mümkün kılıyor ve token verimliliğini %30 artırıyor
Görüşleri duymak isterim
- Şu anda GPT‑5.1‑Codex‑High kullanıyorum; Max sürümünün maliyet ve kredi limiti açısından farkı ne, merak ediyorum
  “Token tasarrufu” deniyorsa ucuz olması gerekir gibi geliyor ama “Max” adı pahalıymış hissi veriyor
- Codex harika bir ürün, bu yüzden kademeli yükseltmeler de memnuniyet verici. Yakında deneyeceğim
- Issue #6426'yı çözüp çözmediklerini merak ediyorum.
  5.1 token'ı çok fazla harcadığı için 5.0'a geri dönmüştüm
- Bu modeli Chat arayüzünde de kullanabilmek güzel olurdu
- Claude Code'un subagent özelliğini seviyorum. Karmaşık kod tabanlarında bağlam yönetimi için faydalı
  Örnek ajanlara baktım; Codex CLI'da da böyle bir özellik olsa güzel olurdu
Bugün GPT‑5.1‑Codex‑Max ile Gemini 3 Pro'yu CLI'da karşılaştırdım
Gemini bir iş ortağı olarak yönetmesi zor. Soru sorunca niyeti tahmin edip önce kod yazmaya başlıyor
Buna karşılık Codex soruya doğrudan cevap veriyor
Kod kalitesi açısından Gemini daha insanın okumasına uygun bir stile sahipti ama planlama ve uygulama doğruluğunda Codex çok daha üstündü
Gemini'de DB sütun adı halüsinasyonu, eksik özellikler ve entegrasyon yetersizliği gibi sorunlar vardı
Genel olarak Codex açık ara kazandı
- Google, Gemini 3'ün tüm benchmark'larda en iyi olduğunu övünerek anlattı ama bunun gerçekte doğru olmadığını gösteriyor
- Gemini kullanırken temperature ayarını varsayılan 1.0'da tutmak gerekiyor. Düşürülürse döngüler veya performans düşüşü yaşanıyor
  Resmi belgelere bakabilirsiniz
- Ben de Gemini'ye “kod yazma” desem bile sürekli yeniden kod yazdığını gördüm
OpenAI sık sık rakip duyurularından hemen önce kendi modelini yayımlıyor
GPT‑4o da Google I/O'dan bir gün önce duyurulmuştu. Bu Codex güncellemesi de muhtemelen kademeli bir güncelleme
- GPT‑5.1 / Codex zaten benchmark'larda Gemini 3'ten üstündü ve bu güncellemeyle fark daha da açılıyor
- Anthropic de GPT‑5 çıkış zamanına denk getirerek Opus 4.1'i yayımladı. Artık rekabet iyice kızıştı
- Bu rekabet sayesinde gelişim hızlanıyor. Sağlıklı rekabet için minnettar olmalıyız
- Gemini pazardan pay alıyor ve OpenAI da bunun farkında
- Bu tür duyuru zamanlaması rekabetine artık alıştık
SVG render örneğine bakınca,
medium seviyesi iyi dengelenmiş görünüyor ve high/low arasında bilinçli stil farkları gösteriyor
Bu tür karşılaştırmalar modelin yaratıcı tutarlılığını anlamaya yardımcı oluyor
- Ama bu tür SVG çıktı benchmark'larının artık anlamını yitirdiğini düşünüyorum. RLHF ile özel olarak eğitilmiş sonuçlar olabilir
Keşke her şirket model eğitimine harcadığı çabanın %1'ini bile ödeme ve giriş deneyimini iyileştirmeye ayırsa
Claude'da neredeyse hiç giriş sistemi yok, OpenAI ise Codex CLI hatasını (#2798) düzeltmeli
Google'ın ürün ve ödeme yapısı ise aşırı karmaşık. Tek bir fiyatlandırma sayfasında birleştirilmesi gerekiyor
- Ben de Google ödeme sistemi yüzünden vazgeçtim. Google Payments'ın ne olduğunu bile anlamıyorum ve hesap doğrulama hatası yüzünden 18 yıllık şirket hesabım askıya alındı
- Google'ın ürün yelpazesi dağınık. Vertex AI, AI Studio, Maker Studio, Gemini vb. için belgeler çakışıyor ve net değil
- Gemini'nin veri eğitimi dışında kalma seçeneği ortadan kayboldu ve hangi hesapların eğitime dahil edildiği de belirsiz
  Workspace hesapları bile güvende değil. ToS'u dikkatle okumak gerekiyor
  Şu anda OpenAI'nin çok daha güven veren bir müşteri deneyimi sunduğunu hissediyorum
- Gemini 3 Pro'nun izin alınmamış verilerle sonradan eğitilmiş olabileceğinden şüpheleniyorum
  Issue #12121'de de bununla ilgili tartışma var
- Claude'da giriş yaparken şifre veya passkey seçeneği olmaması rahatsız edici
“Güvenilir bir kodlama ortağı olma yolunda yeni bir adım” ile “uzun süreli çalışmaya optimize edilmiş model” ifadeleri çelişkili geliyor
Ortaksa birlikte kısa döngüler halinde çalışmalı; tek başına uzun süre çalışıyorsa ortak değildir
- Codex uzun soluklu işlerde aşırı bağımsız davranıyor, hatta TLS kütüphanesini baştan yazmak gibi riskli yaklaşımlara giriyor
- (Codex ekibinden) Biz hem kısa yinelemeli işleri hem de uzun vadeli delege edilen işleri yapabilen bir takım arkadaşı modeli hedefliyoruz
  Resmi blogdaki token grafiğine bakılırsa yönelim bu
- Cursor'un Composer modeli de önerilir. Çok hızlı; sonuç yetersiz olsa bile 30 saniye içinde yeniden deneyebilirsiniz
Codex'in plan modu hızına hayran kaldım. Kod kalitesi de fena değildi
Ama “npm run build çalıştır ve tüm sorunları düzelt” deyince, eslint ile ilgili paketleri kurarak kontrolden çıktı
Claude Code aynı işi 1 dakikadan kısa sürede bitirdi. Codex hâlâ biraz dengesiz görünüyor
- plan modunun ne olduğunu merak ediyorum
Codex backend veya veri odaklı işlerde güçlü ama basit UI işlerinde tuhaf sonuçlar üretme eğiliminde
Geçen hafta sonu Claude ile Codex'i birlikte kullandım ve Codex'in TypeScript fizik/grafik kodunda çok daha iyi sonuç verdiğini gördüm
Binlerce satır içinde benim doğrudan yazdığım kısım sadece birkaç yüz satırdı.
Şimdi yeni Codex'e eski Codex'in yaptığı işi inceleteceğim

GPT‑5.1‑Codex‑Max ile Daha Fazlasını İnşa Etmek

GPT‑5.1‑Codex‑Max’e Giriş

Frontier kodlama performansı

Hız ve maliyet verimliliği

Uzun süre çalışan görevler

Güvenli ve güvenilir yapay zeka ajanları oluşturmak

Erişim ve dağıtım

Sonuç

Ek: Model değerlendirme sonuçları

İlgili okumalar

2 yorum

Hacker News yorumu