37 puan yazan GN⁺ 2026-02-23 | 4 yorum | WhatsApp'ta paylaş
  • Kodlama ajanı seçiminde temel ölçüt model performansının kendisi değil, giderek kullanıcının ayırabildiği zaman ve otonom çalışma süresi haline geliyor; Claude Code ve Codex ise duruma göre birlikte kullanılıyor
  • Opus, bağlam penceresi yönetimi ve araç kullanımı konusunda güçlü; aynı anda birden fazla alt ajan çalıştırabildiği için hızlı keşif ve planlama açısından avantaj sağlıyor
  • Codex, kod doğruluğunda Opus’u geride bırakıyor; ancak bağlam pencereleri arasında iş devri konusunda yetersiz olduğu için işlem hızı daha düşük
  • Skill otomasyonu ile planlama → uygulama → inceleme → hata düzeltme döngüsü adım adım kuruldu; baştan her şeyi tasarlamaktan ziyade tekrarlanan manuel işleri kademeli olarak otomatikleştirme yaklaşımı daha etkili oldu
  • Nihai yönelim, ajanların 7/24 otonom çalıştığı bir gelecek; ancak bağlam penceresi sınırları ve prompt injection direnci başlıca engeller olmaya devam ediyor

Arka plan

  • Codex web sürümüyle ilgili çalışmalar yaptı ve 2025 Temmuz’unda OpenAI’den ayrıldı
  • YC Lightcone Podcast sonrasında, kodlama ajanlarını kullanmaya dair ayrıntılı stratejileri toparlamak amacıyla bu yazı hazırlandı
  • Ajan seçim ölçütü, model performansından çok otonom çalışma süresi ve işin önemi eksenine kayıyor
  • Claude Max, ChatGPT Pro ve Cursor Pro+ aboneliklerinin tümü kullanılıyor; üretkenliğe kıyasla maliyet/verim dengesi yüksek görülüyor

Temel ilke: bağlamı anlamak

  • Kodlama ajanlarını iyi kullanmak için bağlamı (context) anlamak şart
  • Ajan ne kadar iyi olursa olsun sonuçta next token prediction yapar ve tüm token’ların bağlam penceresi içine sığması gerekir
  • Buradan çıkan başlıca ilkeler:
    • Problemler, bağlam penceresine uyacak şekilde uygun büyüklükte parçalara ayrılmalı; aşırı büyük problemler daha uzun sürer ve sonuçları da daha kötü olur
    • Compaction kayıplı bir tekniktir; hangi bilginin dahil edilip hangisinin atılacağına ajan karar verir ve compaction arttıkça performansın düşme eğilimi vardır
    • Plan belgeleri gibi araçlarla bağlam dosya sistemine dışsallaştırılırsa, ajan tüm konuşma bağlamını doldurmadan seçerek okuyabilir ve hatırlayabilir
    • Bağlam penceresinin “akıllı yarısında” kalmak önemlidir; eğitim kısa bağlamlı verilerde daha iyi çalıştığı için pencere daha az doluyken daha iyi sonuç alınır — Dex Horthy bunu 'dumb zone' dışında kalmak olarak ifade ediyor
    • Ajan ilgili dosya ya da paketleri kaçırırsa beklenmedik yönlere sapabilir; bu nedenle kod tabanı yapısı ve mimaride 'aşamalı görünürlük (progressive disclosure)' faydalıdır — OpenAI’nin çok sayıda Markdown dosyasını nasıl yapılandırdığına dair bir blog yazısı da yayımlanmıştı
  • Model performansı ve hız, yalnızca modelin ham yeteneğine değil; aynı zamanda çoklu bağlam pencerelerini yönetme ve alt ajanlara/ekiplere iş devretme becerisine de bağlı

Opus: bağlam yönetimi, araç kullanımı, insansı his

  • Claude Code, planlama, terminal orkestrasyonu, git/GitHub işleri yönetimi için ana araç olarak kullanılıyor
  • Opus, birden fazla bağlam penceresi arasında son derece verimli çalışacak şekilde eğitildiği için Claude Code içinde Codex’ten daha hızlı hissettiriyor
  • Opus’un Explore veya Task çağrıları gibi birden fazla alt ajanı aynı anda çalıştırdığı sıkça gözlemleniyor
    • Explore aracı Haiku kullandığından büyük miktarda token’ı hızlı işler ve ilgili bağlamı Opus’a aktarır
  • gh, git, çeşitli MCP sunucuları gibi yerel araçların kullanımında da iyi eğitilmiş
    • /chrome uzantısıyla hata doğrulaması yapılabiliyor, ancak yavaş ve kararsız olabiliyor
  • Claude Code’un izin modeli, Codex’inkine göre daha anlaşılır — Codex modeli bash içinde komutları script etme eğiliminde olduğundan tek tek CLI araçlarını beyaz listeye almak zorlaşıyor
  • Claude Code’un ince UX artıları arasında terminal başlığını işle ilgili içerikle güncellemesi, durum çubuğunda mevcut PR’ı göstermesi ve küçük durum mesajları yer alıyor
  • Opus, Codex’e kıyasla insanın daha kolay anlayacağı PR açıklamaları ve ayrıntılı mimari diyagramlar üretmede daha iyi
  • Kod yapısının açıklanması istendiğinde çoğunlukla Claude Code tercih ediliyor
  • Opus, planlama sırasında daha “yaratıcı”; kullanıcının anmadığı noktaları önerebiliyor veya belirsiz alanları işaret edebiliyor

Codex: ezici kod doğruluğu

  • Codex’in parladığı alan kodun doğruluğu (correctness) ve yoğun model kullanan diğer geliştiriciler de buna katılıyor
  • GPT-5.3-Codex-xhigh veya high ile çalıştırıldığında, Codex’in ürettiği kodda belirgin biçimde daha az hata görülüyor
  • Opus’un sık yaptığı hata örnekleri:
    • React bileşeni birim testleri geçse bile bunu en üst düzey <App> içine eklemeyi unutması
    • Açık bir off-by-one hatasını fark edememesi
    • İnce dangling references veya race condition sorunları
  • Uzun süre iki model arasındaki farkın ihmal edilebilir olduğu düşünülse de, Codex ve Cursor Bugbot’un otomatik incelemeleri sayesinde yeterince çok PR görüldükten sonra OpenAI modellerinin kod kalitesinin daha iyi olduğu sonucuna varıldı
    • Bunu doğrudan A/B test etmek için branch checkout yapıp Claude Code’un /code-review komutuyla Codex’in /review çıktısı karşılaştırılabilir
  • Ancak Codex yavaş — başlıca neden bağlam pencereleri arasında iş devrinin zayıf olması ve token’lar arası gecikmenin de daha yüksek hissedilmesi
    • Deneysel alt ajan desteği (/experimental anahtarı) çalışıyor, ama Claude kadar akıcı değil ve paralellik de hâlâ yetersiz
  • Sonuç olarak tipik desen, Claude Code ile başlayıp onu açık tutmak ve gerçek kodlama aşamasında Codex’e geçmek

Faydalı araçlar ve ayarlar

  • Şu anda greenfield bir kod tabanı üzerinde çalışılıyor; bu yapı üretimdeki kod tabanlarına göre çok daha küçük ve token açısından daha verimli
  • Repo yapısı: tüm repolarda plans/ klasörü bulunuyor ve numaralandırılmış plan belgeleri burada tutuluyor; servisler apps/ klasörüyle ayrılıyor, TypeScript monorepo yönetimi için turborepo, hızlı kurulum için bun kullanılıyor
  • Ghostty: Mitchellh’in terminali; hızlı, native ve sürekli gelişiyor — bir dönem tmux ile birden fazla Claude/Codex örneği çalıştırılırken, şimdi aynı terminal sekmesinde çoklu pane tercih ediliyor
  • Vercel üzerinde Next.js, API tarafında Cloudflare Durable Objects: veritabanını önceden partition etmek, talep üzerine uyandırmak ve eşzamanlı yazma kaygısını azaltmak için uygun bir yapı — ajanların küçük veri parçalarıyla çalıştığı çağda altyapı açısından mantıklı görülüyor
    • Cloudflare, cloudflare/actors kütüphanesiyle hesaplama ile küçük, birlikte konumlandırılmış depolamayı birleştiren yönde genişliyor
  • Worktrees: kod hafif olduğu için paralel worktree’ler kullanılıyor; her birinde bun installbun run dev ile yerel doğrulama yapılıyor — ilgili plan, ortam değişkenleri ve güncellemeleri kopyalayıp yeni branch başlatan worktree skill’i kullanılıyor
    • Kodlama ajanlarından önce çoğunlukla yalnızca branch kullanılırken, worktree ile Claude Code kombinasyonu artık çok faydalı bulunuyor
  • Plan, Implement, Review: modele neredeyse her zaman önce planla deniyor — 1) bağlamı tek bir bağlam penceresinin ötesine dışsallaştırmak 2) ne yapıldığını inceleyebilmek veya soru sorabilmek için — ajan durursa yeni bir bağlam penceresinde plandan devam etmek mümkün
  • Preview deploys: her branch yeni bir Web + API dağıtımı alıyor; bu da paralel çalışma ve hızlı test için çok faydalı — bu özellik olmadan çalışmak zor görülüyor
  • Cursor Bugbot ve Codex Code Review: mimari düzeyde kodu anlayıp noktasal kontroller yapıyor, ancak giderek her PR’daki her satır tek tek okunmuyor — ince hataları bulmada ajanlar daha iyi hale gelmiş durumda
    • Bir dönem Claude Code, Cursor Bugbot ve Codex üçlüsü birlikte kullanılsa da, Claude Code pratikte anlamlı sorunlar yakalayamadığı için Cursor varsayılan seçenek olmuş; Codex’in sonuçları da güçlü bulunuyor

Skills: otomasyonun kalbi

  • Birden fazla skill ile ortak AGENTS.md/CLAUDE.md dosyaları claudefiles adlı repoda tanımlanıyor
  • Skill ekleme kuralı: aceleyle eklenmiyor; ancak birkaç kez tekrarlandıktan ve iş akışı oturduktan sonra ekleniyor
  • AGENTS/CLAUDE.md, modele genel yön vermede yararlı; skill’ler ise iki amaç için kullanılıyor:
    1. İş akışı zincirleme ve otomasyon — plan → adım adım uygulama → inceleme akışının her biri ayrı skill olarak tanımlanıyor ve bunları sırayla çalıştıran bir meta skill oluşturuluyor
    2. Bağlam penceresini bölmek — Claude Code’da skill çağrısında context: fork ayarlanırsa yeni bir bağlam penceresinde çalıştırılabiliyor; böylece “ana orkestratör” ile alt ajanlar ayrıştırılıyor
  • Skill’ler bağlam açısından çok verimli; MCP çağrıları binlerce token tüketebilirken, bunlar genelde ~50-100 token düzeyinde kalıyor

Skill otomasyonunun evrimi

  • Başlangıçta skill marketplace fikriyle ilgilenildi; örneğin frontend tasarımı, güvenlik kontrolü veya mimari inceleme kurma düşünülüyordu, ancak süreç ilerledikçe başkalarının yazdığı skill’lerin çoğundan vazgeçildi
  • Bunun yerine önce işi elle yapıp, ardından nasıl otomatikleştirilebileceğini düşünme yaklaşımı benimsendi
  • Skill evrimi şu şekilde ilerledi:
    • /commit: modele commit/push işini farklı şekillerde tarif etmek yerine tek bir skill altında toplandı — doğrudan Claude Code’dan alınmış durumda
    • /worktree: ajanın ayrı bir worktree’de çalışması için, plan numarasını temel alarak (ör. 00034-add-user-auth) yeni worktree oluşturuyor
    • /implement: plan adımını yürütüp ardından /commit çağıran tekrar eden iş tek bir skill altında birleştirildi
    • /implement-all: mevcut worktree yolunu plan numarasına bağlayarak tüm adımları otomatik uygular — gece çalıştırıldığında /ralph-loop ile tüm adımlar tamamlanana kadar sürer, yerelde /codex-review ile codex --review süreci başlatılır
    • /address-bugs: son commit’ten bu yana GitHub API üzerinden Cursor + Codex yorumlarını bulur, hataları doğrulamaya ve düzeltmeye çalışır
    • /pr-pass: /implement-all bitince çalışır ve 1) remote’a push eder 2) tüm CI kontrollerinin geçmesini bekler 3) /address-bugs çalıştırır, gerekirse 1. adıma döner
    • /focus: plans dizinini, tamamlanmamış PR’ları ve worktree’leri tarayarak hafızayı tazeler ve iş takibini destekler
  • Bu sürecin baştan tasarlanmaya çalışılması halinde başarılı olmayacağı, asıl anahtarın zaman içinde otomatikleştirilebilecek küçük alanları keşfederek kademeli inşa etmek olduğu vurgulanıyor

Diğer araçlar

  • Codex App yakın zamanda denendi ve detayları ile küçük dokunuşları olumlu bulundu; yine de CLI araçlarının esnekliği tercih edildiği için tam geçiş yapılmadı
  • Cowork da denendi ancak düzgün çalıştırmak zor oldu; her iki durumda da sandboxing modeli büyük fark yaratıyor
  • Eşzamansız işler için bazen web arayüzü kullanılsa da giderek daha fazla CLI’a bağımlı hale geliniyor — bu, 6 ay önce çoğunlukla Cursor ve yerleşik ajan/uzantıların kullanılmasından farklı bir tablo
  • pencil.dev, frontend UI işleri için kullanılıyor — yerel Claude Code’a shell out ederek mevcut aboneliği yeniden kullanan dağıtım modeli ilginç bulunuyor
  • Daha yapılandırılmış bir issue tracker ihtiyacı hissediliyor; David Cramer’ın Dex ve Steve Yegge’nin beads araçları umut verici görünse de şimdilik gerekenden karmaşık bulunuyor
  • Playwright gibi otomatik e2e MCP araçları şu anda kullanılmıyor

Laboratuvarlara tavsiyeler

  • Anthropic için geri bildirim

    • Model: Opus insansı his, mühendislik araçlarını kullanma, bağlamı bölme ve “kullanıcının unutmuş olabileceği şeyleri” önerme konusunda güçlü; ancak kod doğruluğu zayıf — varsayılan modele daha güçlü RL uygulanmış bir 'Opus Strict' modu isteniyor
      • Başlangıç Opus ile yapılıyor, ama kodu Codex yazıyor; bütçe kısıtı varsa tercih Codex olurdu
    • Ürün harness’i: neredeyse eleştirilecek bir şey yok; Boris ve Cat’in fikirleri çok güçlü bulunuyor
      • Farklı CLI’ler arasında dizin symlink’leriyle uğraşmamak için agent skills standardının benimsenmesi isteniyor
      • --stream-json için çıktı formatının açıklanması talep ediliyor — kullanıcı adına sandbox içinde Claude Code çalıştırma fikri ilgi çekici, ancak format değişikliği endişesi ve yol yapılandırması Codex, Cursor, Gemini gibi diğer CLI araçlarına göre daha zahmetli
  • OpenAI için geri bildirim

    • Model: en kritik geliştirme alanı bağlam pencereleri arasında bölme ve alt ajanlara iş devri — ayrıca Opus’un planlamada gösterdiği “istenenden fazlasını yapma” yaklaşımının da yararlı olacağı düşünülüyor
    • Ürün harness’i için ayrıntılı geri bildirim:
      • Sandbox modeli, Claude Code’a kıyasla anlaşılması daha zor — model script üretmeye çalıştığı için daha çok onay istiyor ve --yolo modu endişe yaratıyor
      • Claude Code’daki gibi CLI içine gömülü kullanıcı rehberi eklenmesi isteniyor — skill konumları, desteklenen alanlar, sandbox modeli ayarları vb. sorulabilmeli
      • /review komutunun paketlenmiş bir özellik yerine genel bir skill haline getirilmesi isteniyor; böylece model bunu dinamik olarak çağırabilir
      • Çalıştırma sırasında terminal sekmesi başlığının işle ilgili içerikle değişmesi talep ediliyor — onlarca codex sekmesinde karışıklık yaşanıyor
      • PR açıklamaları ve commit açıklamaları için özel eğitim gerekiyor — Codex’in özlü tarzı seviliyor ama açıklama tarafının genişletilmesi bekleniyor
      • Skill tanımlarında context: fork desteği isteniyor
      • Pane içinde satır sonuna taşan bağlantıların tıklanabilir olması talep ediliyor
      • Durum çubuğunun altında mevcut worktree/PR/branch adının gösterilmesi isteniyor

Geleceğe bakış

  • Steve Yegge’nin Gas Town yazısına atıf yapılıyor — token kullanımını her zaman maksimize etmek, işçi havuzunu 7/24 çalıştırmak ve çok sayıda plan yapıp bunların bir kısmını atmayı doğal görmek gerektiği savunuluyor
    • Bu soyutlamanın tam isabetli olup olmamasından bağımsız olarak, yön duygusu açısından kesinlikle doğru bulunduğu belirtiliyor
  • İdeal gelecek: dizüstü bilgisayar ya da bulut sandbox’larının arka planda sürekli fikirleri işlemesi, kullanıcının ise yön vermesi, araştırma yapması veya sonuçları incelemesi
    • Kodlama ajanlarıyla çalışmak, giderek mühendislik yöneticisi rolüne benziyor; ama ajanın motivasyonunu ya da karakterini dert etmek gerekmiyor
  • Bugün itibarıyla bu geleceğe oldukça yaklaşılmış durumda — Twitter’da abartı olsa da, pratikte yatmadan önce Codex’te 3-4 işi başlatıp sabah gözden geçirme rutini uygulanabiliyor
    • Yine de henüz ajanları 7/24 çalıştıracak seviyede değil
  • Daha büyük ilerlemenin önündeki iki temel engel:
    1. Bağlam penceresi boyutu/orkestrasyonu — ajan aynı bağlam penceresinde sonsuza kadar sıkıştırma/yeniden kullanım yapamaz; daha akıllı harness veya iş devri mekanizmaları gerekir
    2. Prompt injection direnci — ajan birkaç dakika içinde onay istemeye başlar; --yolo moduna güvenilemez, ancak kabul edilebilir yetki/alan kümeleri mevcut olabilir
  • İlk problemde Cursor, birden fazla bağlam penceresine yayılan ajan sürülerinin sınırlarını zorluyor; ikinci konu ise aktif bir araştırma alanı
    • Sandbox içinde çalıştırmak şu an en iyi geçici çözüm, ancak kurulum hâlâ zahmetli; ayrıca ajan açık internete erişim ile ayrıcalıklı veriye aynı anda sahipse, Simon Willison’ın dediği 'Lethal Trifecta' riskine açık hale geliyor
  • Tek başına çalışan bir mühendis için artık darboğaz doğru fikirler haline gelmiş durumda; giderek daha fazla fikir, mimari ve proje sıralaması, iyi ürünler üretmenin asıl kısıtı olacak

4 yorum

 
yangeok 2026-02-23

Mimari diyagramı da mı..?

 
wegaia 2026-02-24

Codex'te sadece alt ajan özelliği olsa bile sanırım geçerim.
Ama herhalde ilgilenmiyorlar..

 
tested 2026-02-24

https://developers.openai.com/codex/multi-agent
Deneysel aşamada ama yine de üzerinde çalışıyor gibiler.

 
kgcrom 2026-02-24

codex cli içinde
/experimental komutunu girerseniz deneysel özellik olarak Multi-agents sunuyor.
› [x] Multi-agents Codex'ten işi paralelleştirmek ve verimlilik kazanmak için birden fazla agent başlatmasını isteyin.

Bahsettiğiniz alt agent'larla aynı çizgide mi emin değilim ama bir göz atın.