Şubat 2026 itibarıyla kodlama ajanlarının kullanım durumu ve iş akışlarının karşılaştırması

(calv.info)

37 puan yazan GN⁺ 2026-02-23 | 4 yorum | WhatsApp'ta paylaş

Kodlama ajanı seçiminde temel ölçüt model performansının kendisi değil, giderek kullanıcının ayırabildiği zaman ve otonom çalışma süresi haline geliyor; Claude Code ve Codex ise duruma göre birlikte kullanılıyor
Opus, bağlam penceresi yönetimi ve araç kullanımı konusunda güçlü; aynı anda birden fazla alt ajan çalıştırabildiği için hızlı keşif ve planlama açısından avantaj sağlıyor
Codex, kod doğruluğunda Opus’u geride bırakıyor; ancak bağlam pencereleri arasında iş devri konusunda yetersiz olduğu için işlem hızı daha düşük
Skill otomasyonu ile planlama → uygulama → inceleme → hata düzeltme döngüsü adım adım kuruldu; baştan her şeyi tasarlamaktan ziyade tekrarlanan manuel işleri kademeli olarak otomatikleştirme yaklaşımı daha etkili oldu
Nihai yönelim, ajanların 7/24 otonom çalıştığı bir gelecek; ancak bağlam penceresi sınırları ve prompt injection direnci başlıca engeller olmaya devam ediyor

Arka plan

Codex web sürümüyle ilgili çalışmalar yaptı ve 2025 Temmuz’unda OpenAI’den ayrıldı
YC Lightcone Podcast sonrasında, kodlama ajanlarını kullanmaya dair ayrıntılı stratejileri toparlamak amacıyla bu yazı hazırlandı
Ajan seçim ölçütü, model performansından çok otonom çalışma süresi ve işin önemi eksenine kayıyor
Claude Max, ChatGPT Pro ve Cursor Pro+ aboneliklerinin tümü kullanılıyor; üretkenliğe kıyasla maliyet/verim dengesi yüksek görülüyor

Temel ilke: bağlamı anlamak

Kodlama ajanlarını iyi kullanmak için bağlamı (context) anlamak şart
Ajan ne kadar iyi olursa olsun sonuçta next token prediction yapar ve tüm token’ların bağlam penceresi içine sığması gerekir
Buradan çıkan başlıca ilkeler:
- Problemler, bağlam penceresine uyacak şekilde uygun büyüklükte parçalara ayrılmalı; aşırı büyük problemler daha uzun sürer ve sonuçları da daha kötü olur
- Compaction kayıplı bir tekniktir; hangi bilginin dahil edilip hangisinin atılacağına ajan karar verir ve compaction arttıkça performansın düşme eğilimi vardır
- Plan belgeleri gibi araçlarla bağlam dosya sistemine dışsallaştırılırsa, ajan tüm konuşma bağlamını doldurmadan seçerek okuyabilir ve hatırlayabilir
- Bağlam penceresinin “akıllı yarısında” kalmak önemlidir; eğitim kısa bağlamlı verilerde daha iyi çalıştığı için pencere daha az doluyken daha iyi sonuç alınır — Dex Horthy bunu 'dumb zone' dışında kalmak olarak ifade ediyor
- Ajan ilgili dosya ya da paketleri kaçırırsa beklenmedik yönlere sapabilir; bu nedenle kod tabanı yapısı ve mimaride 'aşamalı görünürlük (progressive disclosure)' faydalıdır — OpenAI’nin çok sayıda Markdown dosyasını nasıl yapılandırdığına dair bir blog yazısı da yayımlanmıştı
Model performansı ve hız, yalnızca modelin ham yeteneğine değil; aynı zamanda çoklu bağlam pencerelerini yönetme ve alt ajanlara/ekiplere iş devretme becerisine de bağlı

Opus: bağlam yönetimi, araç kullanımı, insansı his

Claude Code, planlama, terminal orkestrasyonu, git/GitHub işleri yönetimi için ana araç olarak kullanılıyor
Opus, birden fazla bağlam penceresi arasında son derece verimli çalışacak şekilde eğitildiği için Claude Code içinde Codex’ten daha hızlı hissettiriyor
Opus’un Explore veya Task çağrıları gibi birden fazla alt ajanı aynı anda çalıştırdığı sıkça gözlemleniyor
- Explore aracı Haiku kullandığından büyük miktarda token’ı hızlı işler ve ilgili bağlamı Opus’a aktarır
gh, git, çeşitli MCP sunucuları gibi yerel araçların kullanımında da iyi eğitilmiş
- /chrome uzantısıyla hata doğrulaması yapılabiliyor, ancak yavaş ve kararsız olabiliyor
Claude Code’un izin modeli, Codex’inkine göre daha anlaşılır — Codex modeli bash içinde komutları script etme eğiliminde olduğundan tek tek CLI araçlarını beyaz listeye almak zorlaşıyor
Claude Code’un ince UX artıları arasında terminal başlığını işle ilgili içerikle güncellemesi, durum çubuğunda mevcut PR’ı göstermesi ve küçük durum mesajları yer alıyor
Opus, Codex’e kıyasla insanın daha kolay anlayacağı PR açıklamaları ve ayrıntılı mimari diyagramlar üretmede daha iyi
Kod yapısının açıklanması istendiğinde çoğunlukla Claude Code tercih ediliyor
Opus, planlama sırasında daha “yaratıcı”; kullanıcının anmadığı noktaları önerebiliyor veya belirsiz alanları işaret edebiliyor

Codex: ezici kod doğruluğu

Codex’in parladığı alan kodun doğruluğu (correctness) ve yoğun model kullanan diğer geliştiriciler de buna katılıyor
GPT-5.3-Codex-xhigh veya high ile çalıştırıldığında, Codex’in ürettiği kodda belirgin biçimde daha az hata görülüyor
Opus’un sık yaptığı hata örnekleri:
- React bileşeni birim testleri geçse bile bunu en üst düzey <App> içine eklemeyi unutması
- Açık bir off-by-one hatasını fark edememesi
- İnce dangling references veya race condition sorunları
Uzun süre iki model arasındaki farkın ihmal edilebilir olduğu düşünülse de, Codex ve Cursor Bugbot’un otomatik incelemeleri sayesinde yeterince çok PR görüldükten sonra OpenAI modellerinin kod kalitesinin daha iyi olduğu sonucuna varıldı
- Bunu doğrudan A/B test etmek için branch checkout yapıp Claude Code’un /code-review komutuyla Codex’in /review çıktısı karşılaştırılabilir
Ancak Codex yavaş — başlıca neden bağlam pencereleri arasında iş devrinin zayıf olması ve token’lar arası gecikmenin de daha yüksek hissedilmesi
- Deneysel alt ajan desteği (/experimental anahtarı) çalışıyor, ama Claude kadar akıcı değil ve paralellik de hâlâ yetersiz
Sonuç olarak tipik desen, Claude Code ile başlayıp onu açık tutmak ve gerçek kodlama aşamasında Codex’e geçmek

Faydalı araçlar ve ayarlar

Şu anda greenfield bir kod tabanı üzerinde çalışılıyor; bu yapı üretimdeki kod tabanlarına göre çok daha küçük ve token açısından daha verimli
Repo yapısı: tüm repolarda plans/ klasörü bulunuyor ve numaralandırılmış plan belgeleri burada tutuluyor; servisler apps/ klasörüyle ayrılıyor, TypeScript monorepo yönetimi için turborepo, hızlı kurulum için bun kullanılıyor
Ghostty: Mitchellh’in terminali; hızlı, native ve sürekli gelişiyor — bir dönem tmux ile birden fazla Claude/Codex örneği çalıştırılırken, şimdi aynı terminal sekmesinde çoklu pane tercih ediliyor
Vercel üzerinde Next.js, API tarafında Cloudflare Durable Objects: veritabanını önceden partition etmek, talep üzerine uyandırmak ve eşzamanlı yazma kaygısını azaltmak için uygun bir yapı — ajanların küçük veri parçalarıyla çalıştığı çağda altyapı açısından mantıklı görülüyor
- Cloudflare, cloudflare/actors kütüphanesiyle hesaplama ile küçük, birlikte konumlandırılmış depolamayı birleştiren yönde genişliyor
Worktrees: kod hafif olduğu için paralel worktree’ler kullanılıyor; her birinde bun install → bun run dev ile yerel doğrulama yapılıyor — ilgili plan, ortam değişkenleri ve güncellemeleri kopyalayıp yeni branch başlatan worktree skill’i kullanılıyor
- Kodlama ajanlarından önce çoğunlukla yalnızca branch kullanılırken, worktree ile Claude Code kombinasyonu artık çok faydalı bulunuyor
Plan, Implement, Review: modele neredeyse her zaman önce planla deniyor — 1) bağlamı tek bir bağlam penceresinin ötesine dışsallaştırmak 2) ne yapıldığını inceleyebilmek veya soru sorabilmek için — ajan durursa yeni bir bağlam penceresinde plandan devam etmek mümkün
Preview deploys: her branch yeni bir Web + API dağıtımı alıyor; bu da paralel çalışma ve hızlı test için çok faydalı — bu özellik olmadan çalışmak zor görülüyor
Cursor Bugbot ve Codex Code Review: mimari düzeyde kodu anlayıp noktasal kontroller yapıyor, ancak giderek her PR’daki her satır tek tek okunmuyor — ince hataları bulmada ajanlar daha iyi hale gelmiş durumda
- Bir dönem Claude Code, Cursor Bugbot ve Codex üçlüsü birlikte kullanılsa da, Claude Code pratikte anlamlı sorunlar yakalayamadığı için Cursor varsayılan seçenek olmuş; Codex’in sonuçları da güçlü bulunuyor

Skills: otomasyonun kalbi

Birden fazla skill ile ortak AGENTS.md/CLAUDE.md dosyaları claudefiles adlı repoda tanımlanıyor
Skill ekleme kuralı: aceleyle eklenmiyor; ancak birkaç kez tekrarlandıktan ve iş akışı oturduktan sonra ekleniyor
AGENTS/CLAUDE.md, modele genel yön vermede yararlı; skill’ler ise iki amaç için kullanılıyor:
1. İş akışı zincirleme ve otomasyon — plan → adım adım uygulama → inceleme akışının her biri ayrı skill olarak tanımlanıyor ve bunları sırayla çalıştıran bir meta skill oluşturuluyor
2. Bağlam penceresini bölmek — Claude Code’da skill çağrısında context: fork ayarlanırsa yeni bir bağlam penceresinde çalıştırılabiliyor; böylece “ana orkestratör” ile alt ajanlar ayrıştırılıyor
Skill’ler bağlam açısından çok verimli; MCP çağrıları binlerce token tüketebilirken, bunlar genelde ~50-100 token düzeyinde kalıyor

Skill otomasyonunun evrimi

Başlangıçta skill marketplace fikriyle ilgilenildi; örneğin frontend tasarımı, güvenlik kontrolü veya mimari inceleme kurma düşünülüyordu, ancak süreç ilerledikçe başkalarının yazdığı skill’lerin çoğundan vazgeçildi
Bunun yerine önce işi elle yapıp, ardından nasıl otomatikleştirilebileceğini düşünme yaklaşımı benimsendi
Skill evrimi şu şekilde ilerledi:
- /commit: modele commit/push işini farklı şekillerde tarif etmek yerine tek bir skill altında toplandı — doğrudan Claude Code’dan alınmış durumda
- /worktree: ajanın ayrı bir worktree’de çalışması için, plan numarasını temel alarak (ör. 00034-add-user-auth) yeni worktree oluşturuyor
- /implement: plan adımını yürütüp ardından /commit çağıran tekrar eden iş tek bir skill altında birleştirildi
- /implement-all: mevcut worktree yolunu plan numarasına bağlayarak tüm adımları otomatik uygular — gece çalıştırıldığında /ralph-loop ile tüm adımlar tamamlanana kadar sürer, yerelde /codex-review ile codex --review süreci başlatılır
- /address-bugs: son commit’ten bu yana GitHub API üzerinden Cursor + Codex yorumlarını bulur, hataları doğrulamaya ve düzeltmeye çalışır
- /pr-pass: /implement-all bitince çalışır ve 1) remote’a push eder 2) tüm CI kontrollerinin geçmesini bekler 3) /address-bugs çalıştırır, gerekirse 1. adıma döner
- /focus: plans dizinini, tamamlanmamış PR’ları ve worktree’leri tarayarak hafızayı tazeler ve iş takibini destekler
Bu sürecin baştan tasarlanmaya çalışılması halinde başarılı olmayacağı, asıl anahtarın zaman içinde otomatikleştirilebilecek küçük alanları keşfederek kademeli inşa etmek olduğu vurgulanıyor

Diğer araçlar

Codex App yakın zamanda denendi ve detayları ile küçük dokunuşları olumlu bulundu; yine de CLI araçlarının esnekliği tercih edildiği için tam geçiş yapılmadı
Cowork da denendi ancak düzgün çalıştırmak zor oldu; her iki durumda da sandboxing modeli büyük fark yaratıyor
Eşzamansız işler için bazen web arayüzü kullanılsa da giderek daha fazla CLI’a bağımlı hale geliniyor — bu, 6 ay önce çoğunlukla Cursor ve yerleşik ajan/uzantıların kullanılmasından farklı bir tablo
pencil.dev, frontend UI işleri için kullanılıyor — yerel Claude Code’a shell out ederek mevcut aboneliği yeniden kullanan dağıtım modeli ilginç bulunuyor
Daha yapılandırılmış bir issue tracker ihtiyacı hissediliyor; David Cramer’ın Dex ve Steve Yegge’nin beads araçları umut verici görünse de şimdilik gerekenden karmaşık bulunuyor
Playwright gibi otomatik e2e MCP araçları şu anda kullanılmıyor

Laboratuvarlara tavsiyeler

Anthropic için geri bildirim
- Model: Opus insansı his, mühendislik araçlarını kullanma, bağlamı bölme ve “kullanıcının unutmuş olabileceği şeyleri” önerme konusunda güçlü; ancak kod doğruluğu zayıf — varsayılan modele daha güçlü RL uygulanmış bir 'Opus Strict' modu isteniyor
  - Başlangıç Opus ile yapılıyor, ama kodu Codex yazıyor; bütçe kısıtı varsa tercih Codex olurdu
- Ürün harness’i: neredeyse eleştirilecek bir şey yok; Boris ve Cat’in fikirleri çok güçlü bulunuyor
  - Farklı CLI’ler arasında dizin symlink’leriyle uğraşmamak için agent skills standardının benimsenmesi isteniyor
  - --stream-json için çıktı formatının açıklanması talep ediliyor — kullanıcı adına sandbox içinde Claude Code çalıştırma fikri ilgi çekici, ancak format değişikliği endişesi ve yol yapılandırması Codex, Cursor, Gemini gibi diğer CLI araçlarına göre daha zahmetli
OpenAI için geri bildirim
- Model: en kritik geliştirme alanı bağlam pencereleri arasında bölme ve alt ajanlara iş devri — ayrıca Opus’un planlamada gösterdiği “istenenden fazlasını yapma” yaklaşımının da yararlı olacağı düşünülüyor
- Ürün harness’i için ayrıntılı geri bildirim:
  - Sandbox modeli, Claude Code’a kıyasla anlaşılması daha zor — model script üretmeye çalıştığı için daha çok onay istiyor ve --yolo modu endişe yaratıyor
  - Claude Code’daki gibi CLI içine gömülü kullanıcı rehberi eklenmesi isteniyor — skill konumları, desteklenen alanlar, sandbox modeli ayarları vb. sorulabilmeli
  - /review komutunun paketlenmiş bir özellik yerine genel bir skill haline getirilmesi isteniyor; böylece model bunu dinamik olarak çağırabilir
  - Çalıştırma sırasında terminal sekmesi başlığının işle ilgili içerikle değişmesi talep ediliyor — onlarca codex sekmesinde karışıklık yaşanıyor
  - PR açıklamaları ve commit açıklamaları için özel eğitim gerekiyor — Codex’in özlü tarzı seviliyor ama açıklama tarafının genişletilmesi bekleniyor
  - Skill tanımlarında context: fork desteği isteniyor
  - Pane içinde satır sonuna taşan bağlantıların tıklanabilir olması talep ediliyor
  - Durum çubuğunun altında mevcut worktree/PR/branch adının gösterilmesi isteniyor

Geleceğe bakış

Steve Yegge’nin Gas Town yazısına atıf yapılıyor — token kullanımını her zaman maksimize etmek, işçi havuzunu 7/24 çalıştırmak ve çok sayıda plan yapıp bunların bir kısmını atmayı doğal görmek gerektiği savunuluyor
- Bu soyutlamanın tam isabetli olup olmamasından bağımsız olarak, yön duygusu açısından kesinlikle doğru bulunduğu belirtiliyor
İdeal gelecek: dizüstü bilgisayar ya da bulut sandbox’larının arka planda sürekli fikirleri işlemesi, kullanıcının ise yön vermesi, araştırma yapması veya sonuçları incelemesi
- Kodlama ajanlarıyla çalışmak, giderek mühendislik yöneticisi rolüne benziyor; ama ajanın motivasyonunu ya da karakterini dert etmek gerekmiyor
Bugün itibarıyla bu geleceğe oldukça yaklaşılmış durumda — Twitter’da abartı olsa da, pratikte yatmadan önce Codex’te 3-4 işi başlatıp sabah gözden geçirme rutini uygulanabiliyor
- Yine de henüz ajanları 7/24 çalıştıracak seviyede değil
Daha büyük ilerlemenin önündeki iki temel engel:
1. Bağlam penceresi boyutu/orkestrasyonu — ajan aynı bağlam penceresinde sonsuza kadar sıkıştırma/yeniden kullanım yapamaz; daha akıllı harness veya iş devri mekanizmaları gerekir
2. Prompt injection direnci — ajan birkaç dakika içinde onay istemeye başlar; --yolo moduna güvenilemez, ancak kabul edilebilir yetki/alan kümeleri mevcut olabilir
İlk problemde Cursor, birden fazla bağlam penceresine yayılan ajan sürülerinin sınırlarını zorluyor; ikinci konu ise aktif bir araştırma alanı
- Sandbox içinde çalıştırmak şu an en iyi geçici çözüm, ancak kurulum hâlâ zahmetli; ayrıca ajan açık internete erişim ile ayrıcalıklı veriye aynı anda sahipse, Simon Willison’ın dediği 'Lethal Trifecta' riskine açık hale geliyor
Tek başına çalışan bir mühendis için artık darboğaz doğru fikirler haline gelmiş durumda; giderek daha fazla fikir, mimari ve proje sıralaması, iyi ürünler üretmenin asıl kısıtı olacak

4 yorum

yangeok 2026-02-23

Mimari diyagramı da mı..?

wegaia 2026-02-24

Codex'te sadece alt ajan özelliği olsa bile sanırım geçerim.
Ama herhalde ilgilenmiyorlar..

tested 2026-02-24

https://developers.openai.com/codex/multi-agent
Deneysel aşamada ama yine de üzerinde çalışıyor gibiler.

kgcrom 2026-02-24

codex cli içinde
/experimental komutunu girerseniz deneysel özellik olarak Multi-agents sunuyor.
› [x] Multi-agents Codex'ten işi paralelleştirmek ve verimlilik kazanmak için birden fazla agent başlatmasını isteyin.

Bahsettiğiniz alt agent'larla aynı çizgide mi emin değilim ama bir göz atın.