OpenAI, bulut tabanlı kod ajanı Codex için araştırma önizlemesini yayınladı

(openai.com)

8 puan yazan GN⁺ 2025-05-17 | 2 yorum | WhatsApp'ta paylaş

OpenAI, yazılım mühendisliğine özel ajan Codex'i yayınlayarak tekrar eden işleri, kod yazımını, PR önerilerini ve daha fazlasını otomatikleştirmeyi mümkün kıldı
Codex, izole bir bulut sandbox ortamında çalışır ve testler ile loglar sayesinde sonuçlar şeffaf biçimde doğrulanabilir
AGENTS.md dosyası aracılığıyla proje bazlı uygulamalar ve test yöntemleri Codex'e belirtilebilir; böylece kullanıcı kod tabanına göre optimize edilebilir
CLI sürümü Codex CLI de birlikte sunuluyor; böylece yerel geliştirme ortamında da ajandan yararlanmak mümkün
İlk dağıtım ChatGPT Pro, Team ve Enterprise kullanıcılarına sunuluyor; daha sonra Plus ve Edu kullanıcılarına da genişletilmesi planlanıyor

Introducing Codex

Codex nedir?

Codex, bulutta çalışan bir yazılım mühendisliği ajanıdır; kullanıcının kod tabanını okuyup çeşitli işleri otomatik olarak yerine getirebilir
Koda özellik ekleme, soruları yanıtlama, hata düzeltme ve PR önerileri gibi işleri paralel olarak yürütebilir
Her görev, izole bir sandbox ortamında bağımsız şekilde çalıştırılır ve kullanıcının deposu önceden yüklenmiş olur

Nasıl çalışır?

ChatGPT kenar çubuğunda Codex özelliği üzerinden “Code” veya “Ask” komutlarıyla iş başlatılır
Dosyaları okuyup düzenleyebilir; test, linter, type checker gibi komutları çalıştırabilir
Görevler genellikle 1~30 dakika içinde tamamlanır ve ilerleme durumu gerçek zamanlı olarak izlenebilir
Codex, iş bittikten sonra bir commit oluşturur ve terminal logları ile test çıktılarından alıntı yaparak değişiklikleri şeffaf biçimde açıklar
Sonuçlar gözden geçirildikten sonra GitHub PR oluşturulabilir veya doğrudan entegre edilebilir

AGENTS.md dosyası

Proje içinde yer alan AGENTS.md, Codex'in kod tabanında nasıl gezineceğini ve testleri nasıl çalıştıracağını yönlendirir
README'ye benzer biçimde yazılan bu belge; kod stili, çalıştırma komutları, PR mesaj formatı gibi bilgileri içerebilir
Daha derin dizinlerde bulunan dosyalar öncelik kazanır ve belirtilen testlerin tamamının çalıştırılması gerekir
Codex ayrıca açık istemlerin AGENTS.md'den öncelikli olduğu kuralını da izler

Dahili benchmark performansı

OpenAI'nin dahili SWE benchmark'ında codex-1, 192k tokene kadar destekle orta zorluk ayarında yüksek doğruluk elde etti
AGENTS.md olmadan da güçlü performans gösteriyor ve insan tarafından yazılmış kod stiline yakından uyan sonuçlar üretebiliyor

Güvenlik ve güvenilirlik

Codex, şeffaflığı artırma ve güvenliği merkeze alma yaklaşımıyla tasarlandı; çıktılar doğrulanabilir
Görev sırasında internet bağlantısı kapatılır ve yalnızca belirtilen depo ile bağımlılıklara erişim verilir
Kötü amaçlı kod geliştirmeyi engelleyecek, ancak kernel düzeyinde meşru işleri ayırt edip izin verecek şekilde eğitildi

İlk kullanım örnekleri

OpenAI içinde tekrar eden refactoring, test yazımı ve dokümantasyon gibi alanlarda kullanılıyor
Dış partner örnekleri:
- Cisco: Gerçek ürünler genelinde uygulama, test ve geri bildirim sağlıyor
- Temporal: Büyük ölçekli kod tabanlarında debugging, test çalıştırma ve refactoring için kullanıyor
- Superhuman: QA ve entegrasyon hatalarının düzeltilmesi ile PM'lerin hafif kod değişiklikleri yapabilmesini destekliyor
- Kodiak: Otonom sürüş teknolojisi kod analizi ve araç geliştirmeyi destekliyor

Codex CLI güncellemesi

Codex CLI, terminal tabanlı hafif bir kodlama ajanıdır ve yerelde o3 ile o4-mini modelleriyle çalışabilir
Bu güncellemeyle o4-mini tabanlı codex-mini modeli yayınlandı; CLI optimizasyonu ve düşük gecikmeli yanıtlar sunuyor
ChatGPT hesabıyla giriş yapıldığında API anahtarı otomatik ayarlanır ve Plus/Pro kullanıcılarına ücretsiz kredi verilir

Fiyatlandırma ve erişim kapsamı

Codex şu anda Pro, Enterprise ve Team kullanıcılarına sunuluyor; Plus ve Edu için de yakında genişletilecek
İlk aşamada ek ücret olmadan kullanılabiliyor; ileride kullanıma dayalı fiyatlandırma uygulanacak
codex-mini-latest, 1M giriş tokenı başına $1.50, çıkış tokenı başına $6 fiyatla sunuluyor ve %75 prompt cache indirimi uygulanıyor

Gelecek planları

Codex'in uzun vadede asenkron işbirliği ajanına dönüşmesi planlanıyor
Codex CLI, ChatGPT Desktop, issue tracker'lar ve CI araçlarıyla daha derin entegrasyon planlanıyor
Ara geri bildirim, uygulama stratejisi tartışmaları ve proaktif ilerleme durumu raporlama özellikleri eklenecek
Geliştiricilerin yapay zeka sayesinde daha hızlı ve daha odaklı kod yazabildiği bir gelecek hedefleniyor

Ek: codex-1 sistem mesajı özeti

İşten önce ve sonra Git durumunu kontrol eder, ayrıca mutlaka commit tamamlanmış durumun korunmasını ister
AGENTS.md dosyasındaki doğrulama adımları, değişiklik küçük olsa bile tamamen çalıştırılmalıdır
PR oluştururken dosya/terminal tabanlı alıntı kuralları bulunur (ör. 【F:main.py†L12】)
Önceki PR veya yorum içerikleri alıntılanamaz; yalnızca dosyalar ve terminal sonuçları kullanılabilir

Bu sistem mesajı, Codex özelleştirmesi için modelin varsayılan davranışını anlamada kullanılır.

2 yorum

fortune 2025-05-18

Sonunda Cursor, Cline ve benzerlerinin kuşağından ayrılabilecek yeni nesil bir agent çıktı gibi görünüyor. Dünyadaki yazılım değişim hızının daha ne kadar artacağını merakla bekliyorum. Bu yeni nesil agentların bundan sonra nasıl ortaya çıkacağını da.

GN⁺ 2025-05-17

Hacker News görüşleri

Ekibimizdeki birkaç mühendisle birlikte Assembled'da Codex alfa testine katılma deneyimini paylaşıyor: Cursor ve Claude Code gibi yerel ajanları uzun süredir kullandığımız için beklenti çok yüksek değildi ama Codex'in paralel iş yürütme kabiliyeti etkileyici bulundu. Birden fazla refactor, test ve boilerplate işini tek seferde gruplayıp bağlam değiştirmeden eşzamanlı çalıştırabiliyor. Mevcut çözümlerde bu zordu; Codex ise dosya ya da fonksiyona görev atadığınızda PR iskeletinin büyük kısmını otomatik olarak hallediyor, sanki elinizde sonsuz sayıda junior mühendis varmış gibi hissettiriyor. Yine de bunu gerçekten production'a almak için hâlâ epey son işlem gerekiyor. Model kalitesi iyi, ancak Cursor, Gemini 2.5-pro vb. ile yan yana değerlendirildiğinde stil, mantık veya isimlendirmede belirgin bir üstünlüğü yok; beklentileri “karşılıyor” denebilecek düzeyde.
- Eğer bu tür işleri yapacak junior mühendisleri işe almazsanız, geleceğin senior mühendisleri nereden çıkacak sorusu gündeme geliyor. Yakın zamanda kızının iyi bir üniversiteden bilgisayar mühendisliği mezunu olduğu, ancak iş piyasasında giriş seviyesi geliştirici pozisyonlarından çok senior mühendis talebi bulunduğu anlatılıyor. Son dönemde şirketin açtığı junior pozisyon ilanına o kadar çok başvuru gelmiş ki adil değerlendirme yapmak bile zorlaşmış. Sonunda iş bulan arkadaşlarının çoğu ise bunu büyük ölçüde bağlantıları sayesinde başarmış.
- Şu anda milyonlarca mühendis GitHub open source projelerine katkı veriyor ve çok yetenekli kişiler bu kodu kullanarak AI modelleri geliştirip sonra yine o mühendislerin yerini alıyor; ilginç bir döngü. Open source katkısı arttıkça ilgili işlerin ikame edilmesi de kolaylaşıyor; burada temel bir ikilem olduğu söyleniyor. Zamanla open source katkı motivasyonu zayıflar mı sorusu soruluyor. Yaratıcı işler yaptığımızı sansak da aslında zamanımızın büyük kısmını tekrarlı ve öngörülebilir bilgi kombinasyonlarına harcıyoruz ve AI bu tür işleri iyi şekilde devralabiliyor. İyimser bakış açısına göre uzun vadede daha ilginç işler üretmek gerekecek, ancak yakın gelecekte yazılım mühendisliğinde arz fazlası ve talep eksikliği nedeniyle birkaç yıl ciddi sıkıntı yaşanması bekleniyor.
- Codex'in paralel iş yürütme özelliğinin neden önemli olduğu sorgulanıyor. Pratikte LLM'nin kod yazması birkaç saniye sürüyor; asıl zaman alan kısım işin tanımlanması ve inceleme/düzeltme aşaması. En hızlı kısmı paralelleştirmenin ne fayda sağladığı merak ediliyor.
- Junior geliştiriciler tam özerk olmadıkları için onları yönetmek ve code review yapmak zaten ciddi zaman alıyor. Çok sayıda junior olsa bile yönetim maliyeti kolayca darboğaz hâline geliyor. Codex gibi sanal geliştiricileri çok sayıda kullanmanın da yorucu olup olmayacağı ya da ne kadar özerk oldukları soruluyor.
- Cursor ve Claude Code'u uzun süredir kullanan biri olarak, Claude Code'un artıları ve eksileri ile Codex'e kıyasla paralel iş yürütmenin gerçekten büyük bir fark yaratıp yaratmadığı merak ediliyor. Yakın zamanda çıkan Codex CLI da beklentinin altında kaldığı için ekibin Claude Code deneyimi ve içgörüleri isteniyor.
OpenAI'nin Codex önizleme videosunda Katy Shi'nin “mühendislik işinin kod yazmaktan çok code review tarafına kaydığı” görüşüne katılım var. AI'nin ciddi biçimde devreye girdiği dönemde geliştiricilerin hâlâ kod ve test okumakla sınırlı kaldığı gözlemleniyor. Simülasyon gibi görece yeni bir kavramın devreye girmesi hâlinde, özellikle frontend tarafında yalnızca kod/test incelemekten daha farklı sonuçları öngörmek mümkün olabilir. Son dönemde bu konuyu bizzat araştırdığı ve Codex lansman materyallerini görünce bunu daha somut hissettiği belirtiliyor.
- Bunun kendi Graphite argümanıyla da benzer olduğu söyleniyor: Kodun büyük ölçekte AI tarafından üretildiği bir dönemde inceleme, test ve entegrasyon asıl mesele olacak. AI code review sistemleri de yapılıyor, ancak insan incelemesine kalıcı biçimde ihtiyaç duyulacak; temel sebep hesap verebilirlik. Bilgisayarlar asla sorumluluk üstlenemez.
- “Simülasyonu görmek” ifadesiyle kastedilenin otomatik test suite'lerinin kullanımı olup olmadığı soruluyor.
SWE-bench ortak yapımcısı olarak, zaten güçlü olan o3 sonuçlarında bile Codex'in küçük de olsa bir iyileşme göstermesi ilginç bulunuyor. Verified ölçütünde %75'ten %85'e çıkmanın, %20'den %75'e çıkmak kadar uzun sürüp sürmeyeceği merak ediliyor.
- swe-bench etrafında benchmark'a aşırı optimizasyon olduğunu düşündüğünü söyleyen bir yorum var; multi-swe-bench, swe polybench, kotlin bench gibi farklı ölçüm sonuçları paylaşılıyor.
- %20'den %75'e ulaşmanın ne kadar zaman aldığı soruluyor.
Pro sürüme abone olmasına rağmen Codex'i denemek istediğinde her seferinde takım planı ödeme sayfasına yönlendirildiğini, bunun resmî açılış öncesi bir durum mu yoksa bir şeyi mi kaçırdığını merak ettiğini söylüyor. OpenAI ürünlerini düzenli kullandığını ve Codex'i gerçekten denemek istediğini ekliyor.
- Büyük güncellemelerde benzer şeylerin sık yaşandığı, bunun anlaşılmasının zor olduğu yönünde tepki var.
- Ben de benzer durumdayım; birkaç dakika önce erişilebilir hâle gelmiş gibi görünüyor, demek ki hizmet kademeli olarak açılıyor değerlendirmesi yapılıyor.
- Hâlâ kademeli dağıtım sürecinde olduğuna dair bilgi veriliyor.
Canlı yayında "microVM" ifadesi geçtiği, browser/internet erişiminin olmadığı, Firecracker/Unikraft gibi mikrokernel tabanlı yapıların hızlı ve düşük maliyetle büyük ölçekte ölçeklenebildiği belirtiliyor. Ancak ajan başına ayrılmış tam bilgisayar ortamlarına geçişte büyük teknik engeller olacağı düşünülüyor. Mevcut ChatGPT Operator browser erişimini desteklediği için bunun teknik olarak mümkün olduğu kabul ediliyor, fakat talep ölçeğinin farklı olacağı tahmin ediliyor. fork/snapshot/screen/human-in-the-loop desteği gibi AI'ye özel tam PC ortamları sunan altyapı şirketleri için yeterli alan olduğu, şu anda ise daha çok browser kullanımı gibi kısmi işlevlerin hayata geçtiği söyleniyor.
- Bu işlevin E2B Desktop ile sunulduğu, demo ve SDK bağlantılarının paylaşıldığı belirtiliyor.
Bankada çalışırken hukuk ekibinin uygulamada sık sık ufak değişiklikler talep ettiği, şimdi bunları kendi başlarına yapabilecekleri düşünülüyor; hukuk ekibinin bundan çok gurur duyacağı tahmin ediliyor.
- Kod yürütme/test ve code review olmadan hukuk ekibine kod değiştirme yetkisi vermenin riskli olduğu, sonuçta kimsenin bunu gerçekten yapmayacağı söyleniyor.
- Gelecekte bug tracking'in kökten değişeceği öngörülüyor: Kurum içinde herkes issue veya özellik isteği bırakacak, model otomatik karşılık verecek, olmazsa insan devreye girecek. Sonuçta “hangi kod değişikliği yasaldır ve şirket standartlarına uygundur” kararını vermek ve incelemek, giderek teknik olmayan denetçilerin temel rolü hâline gelebilir.
- Gerçekçi olarak hukuk ekibinin doğrudan kod değişikliği yapmayacağına dair söz veriliyor.
Privacy, training data opt-out ve platform üzerinden geliştirilecek modellerle rekabet ederken doğabilecek riskler konusunda kaygı dile getiriliyor. “Ürettiğin çıktıyı rekabette kullanamazsın” tarzı bir politikanın adil olup olmadığı sorgulanıyor. Belki de aşırı karamsar bir bakış olduğu kabul edilse de, OpenAI'nin bizim ürettiğimiz bilgileri bize karşı rekabette kullanmasının nasıl engelleneceği soruluyor.
- Videoda, repo için eğitime izin verilip verilmeyeceğini doğrudan seçebildiğiniz açık bir seçeneğin olduğu belirtiliyor.
"secrets" özelliğini kullanırken sorun yaşandığı söyleniyor; ortam kurulumu sırasında düzgün enjekte ediliyor ama gerçek görevlerde çalışmıyor ve ortamı yeniden kurmak gibi yöntemlere rağmen sorun her seferinde yeniden oluşuyor.
Codex yalnızca bulutta çalıştığı için kodun otomatik commit ve push edilmesinden, kendi içinde inceleme yapmaya fırsat bulamamaktan endişe ediliyor. aider'da commit sonrası git reset HEAD^, git diff ile değişiklikleri bizzat inceleyip gerekli düzenlemeleri yaptıktan sonra commit-push etmeyi tercih eden bir iş akışı olduğu anlatılıyor.
- Zaten commit'i hemen geri alıyorsanız, Aider'da --no-auto-commits seçeneği öneriliyor.
- Basitçe söylemek gerekirse Codex'in mevcut Codex CLI'ın yönetilen bulut sürümü olduğu, asıl meselenin yeni modelin kendisi olduğu ve yakında API üzerinden de sunulmasının beklendiği belirtiliyor.
- Canlı yayında iş tamamlandıktan sonra diff'in doğrudan gösterildiği ve diff incelendikten sonra ancak GitHub PR oluşturulmasına karar verilebildiği bilgisi veriliyor.
Şirketlerin codebase'lerini AI sağlayıcılarıyla paylaşma konusunda ne düşündüğü soruluyor; yoksa bunun yalnızca local kurulumlarla mı kullanıldığı merak ediliyor.
- Şirketlerin SaaS hizmetleriyle kod paylaşmasının çok yaygın olduğu ve genelde ayrı sözleşmelerle keyfi kullanımın engellendiği belirtiliyor.
- Çoğu şirket kodunun aslında yalnızca kendi şirketi için anlamlı bir değere sahip olduğu düşünülüyor.
- OpenAI gibi bir şirketin benim koduma bakıp risk almak istemeyeceği, bunun hukuki riskine değmeyeceği düşünülüyor.
- Sonuçta bunların hepsinin bir maliyet-fayda dengesi olduğu; getiri yüksekse paylaşmanın da yeterince değerli olabileceği söyleniyor.
- Cursor'ın enterprise modunda data privacy zorlaması özelliği bulunduğu belirtiliyor.