Ajan Özerklik Düzeyleri

(addyo.substack.com)

1 puan yazan GN⁺ 6 시간 전 | Henüz yorum yok. | WhatsApp'ta paylaş

Ajanik mühendislik, prompt yazmaktan çok operasyon tasarımına yaklaşıyor; her iş için izin verilecek özerklik düzeyi ile bunu destekleyecek doğrulama yöntemi birlikte belirlenmeli
Tek eksenli merdiven modeli, tek bir ajana duyulan güveni sayıyla ifade etmekte yararlı olsa da, birden çok ajanı aynı anda ele alma yeteneği agency ve orchestration olmak üzere iki eksende değerlendirilmelidir
0~5 düzey modeli, yalnızca öneri sunan Assist'ten istisna durumlarda insanın devreye girdiği Managed-by-exception orchestration aşamasına kadar uzanır; düzey yükseldikçe hedef, kapsam, kanıt, yetki ve bütçe daha net olmalıdır
Anthropic'in Claude Code analizinde yaklaşık 400 bin oturum ve yaklaşık 235 bin kullanıcıya ait veriler, planlama kararlarının yaklaşık %70'inin insanlar tarafından, uygulamanın yaklaşık %80'inin ise Claude tarafından üstlenildiğini gösteriyor
Olgun ajan kullanımı, yüksek özerkliği sergilemekten değil; risk ve geri alınabilirlik düzeyine uygun calibrated autonomy uygulamak ve doğrulama darboğazlarını yönetmekten geçer

Prompt yazımından operasyon tasarımına kayan ajanik mühendislik

Ajanik mühendisliğin odağı, prompt yazımından operasyon tasarımına kayıyor
Yazılım fabrikası, hedefler, döngüler, arka plan oturumları, alt ajanlar, hook'lar, sandbox'lar ve ajanların başka ajanları onaylama biçimleri öne çıkıyor
Claude Code ve Codex, bu değişimi gösteren başlıca ürünler olarak ele alınıyor
Mühendisler, riski azaltmak ve geri almayı kolaylaştırmak için düşük özerklik kullanabilir; net tanımlı faaliyetlerde veya büyük kod tabanı refactor işlemlerinde ise daha yüksek özerklik ve paralel ajan filoları kullanılabilir
Temel soru, her görev için hangi düzeyde özerkliğe izin verileceği ve bu düzeyi hangi doğrulamanın savunabileceğidir

Tek bir merdiven yerine iki eksende özerklik

Steve Yegge'nin “Welcome to Gas Town” yazısında değinilen tek eksenli merdiven, tek bir ajana duyulan güveni sayısal olarak ifade etmekte yararlıdır
2026'nın başlarında, işlerin delegasyondan orkestrasyona kaydığı dönemde bile tek eksen, risk ölçümü için kaba bir vekil gösterge işlevi görüyordu
Aynı anda birden çok ajan çalıştırılabildiğinde, tek bir seviye çoklu ajan yeteneğini açıklamakta yetersiz kalır
Özerklik tartışmaları çoğu zaman birbirinden farklı iki soruyu karıştırır
- Tek bir ajan, insandan ne kadar uzak gönderilebilir?
- Birden çok ajan ne kadar iyi koordine edilebilir?
Bunu ayırmak için iki eksen gerekir
- agency: Tek bir ajanın öneri sunma, sınırlı görevler yapma veya hedefe ulaşmayı ne kadar özerk biçimde yerine getirdiği
- orchestration: Tek bir thread'den çoklu görev ağaçlarına, backlog/issue tracker/zamanlama temelli sürekli işlere kadar ne kadar iyi koordinasyon sağlandığı

agency ve orchestration ne anlama geliyor?

agency ekseninin düşük düzeylerinde ajan, olası eylemleri önerir ve insan kararını bekler
Orta düzeylerde ajan belirli görevleri yerine getirir ama kapsam sınırlıdır; yaptığı işleri kanıtlarla birlikte sürekli raporlayarak insanın yönlendirme yapmasına imkan tanır
Yüksek agency düzeyinde ajan, hedefe ulaşmak için deney yapar, öğrenir, test eder, tıkanmaları giderir, soru sorar, farklı yaklaşımlar dener ve bunları kanıt olarak geri sunar
orchestration ekseninin düşük düzeyi, tek ajan ve tek thread'dir
Orta düzeyde, birden çok ajan ayrı worktree'lerde farklı hedefler üzerinde çalışır
Yüksek düzeyde ise orkestratör, backlog, issue tracker, zamanlama ve kuyrukları sürekli işe dönüştürür; insan ise yalnızca başarısızlık durumlarında devreye giren management by exception modeline yaklaşır
İlgili özellik ve ürün örnekleri şunlardır
- Claude Code: /plan, /goal, /loop, /background, /batch, /code-review, /security-review, alt ajanlar, hook'lar, checkpoint'ler, ajan delegasyonu ve yönetim biçimleri, arka plan oturumları, ajan ekip kalıpları, /schedule argümanı
- Codex: yerel/bulut thread'leri, Goal mode, worktree, Automations, alt ajanlar, review panel, GitHub code review, hook'lar, sandbox'lar, Auto-review, rerun

Üç dönem ve altı seviye

Merdiven aşağıdan yukarı okunduğunda agency ve orchestration'ın birlikte yükseldiği izlenimi oluşur
Altı seviye, üç döneme ayrılır
- İnsanın direksiyonda olduğu, ajanın yardımcı olduğu ve insan komutunu beklediği dönem
- Ajanın sınırlı görevleri veya hedefleri üstlendiği ama insanın yönlendirme ve doğrulama yaptığı dönem
- Sistemin işleri birden çok ajana dağıttığı, insanın ise çoğunlukla sorun çıktığında devreye girdiği orkestrasyon dönemi
Gerçek mühendislikte gün boyunca birden çok seviye arasında gidip gelmek doğaldır

Level 0: Assist

Ajan çoğu zaman iyi, bazen de kusursuz öneriler sunar; ancak çalıştırılıp çalıştırılmayacağına her zaman insan karar verir
Örnekler arasında otomatik tamamlama, satır içi düzenleme önerileri ve henüz kimsenin sahiplenmediği değişikliklerin sohbet içinde tartışılması yer alır
Maliyeti yüksek hatalar, çok küçük değişiklikler ve henüz yargı oluşturma aşamasındaki işler için uygundur
Doğrulama çoğunlukla yerel olarak yapılır

Level 1: Supervised action

Ajan sizin yerinize düzenleme yapar veya komut çalıştırır; ancak önemli adımlardan önce insandan izin ister
Çoğu insanın kullandığı varsayılan çalışma tarzına yakındır
Yerel sandbox'ta, değişiklik uygulanmadan önce onay alarak veya etkileşimli bir oturum içinde çalışabilir
Her onay, ilgili değişikliğin uygulanmasının güvenli olup olmadığını doğrulayan bağımsız bir kontrol gibi işlev görür
Başlıca hata modu onay yorgunluğudur
- Hangi şeye onay verilirse verilsin tüm onaylar birbirine benzer gelmeye başlayabilir
- Buna, diff'i hızlıca gözden geçirme, sezgisel kurallar kullanma, başka birine kontrol ettirme veya sorumluluğu ajana bırakma gibi yollarla tepki verilebilir
Codex Auto-review, sınırdaki durumlar için son onayı ayrı bir reviewer ajanına devrederek bu sorunu ele alır

Level 2: Scoped task delegation

Bu aşamada sınırlı bir görev ajana devredilir
Görevin açık bir hedefi, kısıtları ve tamamlanmış sayılma koşullarını tanımlayan bir iş tanımı olmalıdır
İnsan yakında kalır ve isterse durdurabilir, ancak çoğu zaman doğrudan müdahil olmaz
Yazılım mühendisliğinde merkezi konuma en yakın seviye olarak ele alınır
Doğrulama, insanın doğrudan kontrolünden ajanın üretebileceği kanıtlara kayar
- Geçen otomasyon testleri
- Uygun type'lar
- Lint önerileri
- Ekran görüntüleri
- Yeniden üretim adımları
- Örnek temelli kaynaklar

Level 3: Goal-driven autonomy

Ajan, belirli bir koşul sağlanana kadar hedefe ulaşmak için gereken işleri yapar
Prompt modunda prompt'un kendisi hedefe dönüşür
- Örnek: “Bu sayfanın time-to-interactive süresi 1 saniyenin altına indirilebilir mi?”
Codex'te buna Goal mode karşılık gelir; ajan plan -> act -> test -> review adımlarını tekrarlar ve başarı ölçütünü artık karşılayamaz hale geldiğinde durur
Claude Code'da /goal, /loop, /schedule komutları bu düzeye karşılık gelir
Bu seviyenin yararlı olması için durma koşulunun otomatikleştirilebilir biçimde ölçülebilir olması gerekir
“Kullanıcı deneyimini genel olarak iyileştir” veya “kod tabanını daha test edilebilir hale getir” gibi belirsiz hedefler uygun değildir
Daha uygun hedefler somut, ölçülebilir ve otomasyona elverişli olmalıdır
- Statik analizi atlatan production bug'larını bulmak
- Yükleme süresini azaltmak
- Açık any içermeyen katı bir TypeScript build'ini garanti etmek
- Yalnızca anlaşılabilir ve testleri geçen bağımlılıkları bırakacak şekilde tüm bağımlılıkları sınıflandırmak
Production bug bulmak için ajanın production benzeri bir ortamda olması gerekir

Level 4: Parallel delegation

Bu aşamada birden çok ajan paralel çalışır
Her ajan işin ayrılmış bir parçasını üstlenir
En büyük darboğaz, hangi parçaların devredileceğine karar veren parçalama sürecidir
Destekleyici özellikler arasında alt ajanlar, arka plan oturumları, /batch, worktree ve ajan ekipleri bulunur
Başlıca hata modu sahte paralelliktir
- Birden çok ajan çakışan parçalar üzerinde aynı anda çalışırsa, daha fazla çıktı yerine merge conflict ve yinelenen kararlar üretebilir
İyi işletmek için ajanların birbirinden yalıtılması gerekir
- Her birinin sahip olduğu dosyalar ve durumlar olmalıdır
- Her birinin ayrı bir review kuyruğu da olmalıdır
Her ajan için token maliyeti oluşur ve bu maliyet eşzamanlı çalışan ajan sayısıyla orantılıdır
İnsan tarafında ise belirli bir sayıdan sonra yeni ajan eklemenin marjinal maliyeti orkestrasyon vergisi nedeniyle artar

Level 5: Managed-by-exception orchestration

İnsan başarı tanımını ve uygulanacak politikaları belirler; manager agent ise tetikleyicilere göre uyanıp işleri dağıtır
Tetikleyici örnekleri: yeni issue, yeni görev, saat
manager agent worker agent'ları görevlendirir, ilerlemeyi izler, çıktıları doğrular ve hata durumunda yeniden dener
Koşullar sağlandığında daha yetenekli bir ajana veya insana escalation yapar; sonuçları bir araya getirip PR gibi iş çıktıları ve kanıtlarla birlikte dış sistemlere geri verir
Bu seviye bir fabrikaya benzetilir
- Girdi, issue tracker veya backlog'dur
- Çıktı, çözülmüş birden çok issue veya bug'dır
Ajanlar, yeterli sınırların ve gerektiğinde çıkış yollarının bulunduğu yalıtılmış ortamlarda çalışır
Bu fabrikanın ne yapacağını, manager agent tarafından tanımlanan işletim sistemi belirler
OpenAI, Symphony için bir spec önerdi ve bunu Linear board etrafında kurguladı
- Her issue'nun kendine ait bir ajan workspace'i vardır
- Ajan, kendi workspace'indeki spec dosyasında tanımlanan hedefe doğru ilerlemeyi sürdürüp sürdürmediğini kontrol eder
Orkestrasyonda ön cephe, yüzlerce hatta binlerce ajanın çalıştığı sürekli ajan fabrikaları kurmaktır
Bu aşamada bağımsız doğrulama daha da önemli hale gelir
- Uygulayıcı ile reviewer'ın ayrılması
- Test çalıştıran ile QA'nın ayrılması
- Güvenlik kontrollerinin ayrılması
- Kabul için süreç kapılarının ayrılması

Risk ve geri alınabilirlik özerkliğin üst sınırını belirler

Anthropic'in Claude Code ile ilgili araştırmasında, en zor bazı görevlerde Claude Code'un, kullanıcının işi kesmesinden iki kattan daha sık açıklayıcı soru sorduğu görüldü
Deneyimli kullanıcılar, yaklaşık 750 oturuma sahip kullanıcılar olarak tanımlandı; bunlar 50'den az oturumu olanlara göre otomatik onay ve kesme özelliklerini daha sık kullanıyor, aynı zamanda ilerlemeyi izleme eğilimi gösteriyordu
Anthropic'in daha geniş kapsamlı analizi, 2025 Ekim ile 2026 Nisan arasında yaklaşık 235 bin kişiye ait yaklaşık 400 bin oturumu kapsıyordu
Her oturumda, kullanıcıların her prompt'ta kaç davranış talep ettiği, neleri otomatik onayladığı ve ne sıklıkta durdurduğu gibi kararlar incelenebildi
İnsanlar planlama kararlarının yaklaşık %70'ini, Claude ise uygulamanın yaklaşık %80'ini üstleniyordu
Yüksek özerklik, insanı döngünün dışına çıkarmak değil; insanın her adımı tek tek yapmasından bir sonraki yönü belirlemesine geçmek anlamına gelir
Büyük bir yapay zeka sisteminin gerçekten yüksek özerklikle çalışıp çalışmadığını anlamak için üç soru gerekir
- Neyin yanlış gittiğini ne kadar hızlı anlayabiliyoruz?
- Yapılan şeyi ne kadar temiz biçimde geri alabiliyoruz?
- Yapılan şeyin doğru olduğunu ne kanıtlıyor?
Eğer yanıt “hızlı anlayamıyoruz, geri almak zor ve özete güvenmek zorundayız” ise, bu yüksek özerklik değildir

Ajan çalıştırmadan önce sözleşmede neler olmalı?

Her ajan çalıştırılmadan önce, ne yapacağını tanımlayan bir sözleşme gerekir
Bu sözleşmede şu başlıklar yer almalıdır
- Hedef: faaliyet veya teknik değil, ulaşılmak istenen sonuç
- Kapsam: çalışılacak alan ve izin verilen teknikler
- Hedef dışı alanlar: amaca dahil olmayan şeyler
- Araçlar ve yetkiler: ajanın dış dünyayla nasıl etkileşime gireceği
- Durma koşulu: ne zaman duracağı; mümkünse ölçülebilir değişkenlerle
- Kanıt: tamamlandığını bağımsız olarak doğrulayabilecek testler, ekran görüntüleri, log'lar, veritabanı kayıtları vb.
- Escalation: hangi durumda kimin devreye gireceği ve ajanı kimin çalıştırdığı
- Bütçe: zaman, emek ve token sınırları
Token'lar büyük yapay zeka modellerinin bütçesidir; buna deneme sayısı ve paralellik düzeyi için sınırlar da dahil edilebilir

Metrikler özerkliği biraz daha güvenilir kılar

Metrikleri sonradan belirlemek tek başına yeterli olmayabilir
Metrikler kısa bir belge halinde önceden yerleştirilebilir ve özerkliği daha güvenilir kılar
Özerklik seviyelerine göre izlenebilecek metrik örnekleri şunlardır
- Müdahaleler arasındaki ortalama süre
- Kabul edilen iş ölçütüne göre en uzun insansız çalışma süresi
- Sandbox içinde yürütülen eylemler ile escalation edilen eylemlerin oranı
- Otomatik onaylanan eylemler ile reddedilen eylemlerin oranı
- İnsan başına verilen tek bir yönerge için ortalama ajan eylemi sayısı
- Açıklama isteme oranı
- Durdurma talebi oranı
- Kabul edilen değişiklik başına review süresi
- Güven düzeyine göre yeniden iş yapma oranı
- Güven düzeyine göre defect sızıntı oranı
- Kabul edilen değişiklik başına token maliyeti
İnsan tarafından sıradaki iş verilen tek bir yoğun ajan, dashboard eklenmiş bir Level 4'e daha yakındır; otomatik alım, yeniden deneme ve yeterli kanıt olmadan ilerlemeyen muhafazakar bir ajan ise gerçek kapılara sahip bir Level 5'e daha yakındır

Hazırlık durumu ve özerklik seviyesi seçimi

Görevler risk ve geri alınabilirlik düzeyine göre sınıflandırılmalıdır
Özerklik muhafazakar uygulanmalı, yalnızca daha yüksek düzeyleri destekleyen kanıt biriktikçe artırılmalıdır
Güçlü testleri, reviewer ajanları ve temiz rollback yolları olan bir ödeme motoru refactor'u; doğru cevap anahtarı olmayan dokümantasyon otomasyonu işine göre daha yüksek özerkliği destekleyebilir
Özerklik seviyesi, işin adına değil doğrulama sürecine göre belirlenmelidir

Dört özerklik anti-pattern'i

Autonomy as status
- Ajanın özerklik derecesi, anlamı olmayan bir statü rozeti gibi işlemeye başlar
- Yüksek özerklik, güvenliğin değil yeteneğin kanıtıymış gibi görülür ve doğrulamanın desteklemediği düzeylerde ajan çalıştırılır
- Doğru özerklik seviyesini seçen ve sınırı aşmayan kişiler takdir edilmeli ve ödüllendirilmelidir
Permission laundering
- Onay yorgunluğu nedeniyle AI ajanlarına ve araçlara gereğinden geniş erişim hakları verilir
- Sandbox profilleri, kapsamı sınırlı yazma kökleri, izinli komut listeleri, hook'lar ve Auto-review gibi sınırlar güçlendirilmelidir
Summary substitution
- Ajanın iş özeti, review'un yerini alır
- Buna karşı, manuel review benzeri kanıt paketleri de birlikte sunulmalıdır
- Bu paketler diff, testler, log'lar, ekran görüntüleri, reviewer bulguları, riskler ve boşluklar içerebilir
Fleet cosplay
- Onlarca ajan paralel çalıştırılır ama insan tüm bağımlılıkları hâlâ elle koordine eder
- Paylaşılan durum, sahiplik kuralları ve daha iyi bağımlılık takibi manuel koordinasyon ihtiyacını azaltır
- Daha küçük WIP sınırları, koordinasyon adımlarını kodlayıp belgelemeye odaklanmayı teşvik ederek orkestrasyon otomasyonuna kapı açabilir

Güvenli biçimde nasıl yukarı çıkılır?

Son dönemde ajan yardımıyla yapılan 10 işin gözden geçirildiği bir kalibrasyon alıştırması önerilir
- Her işin özerklik seviyesi
- Riski
- Geri almanın ne kadar kolay olduğu
- Doğrulama gereksinimini karşılamak için üretilen kanıt
- Review süresi
- Yeniden iş yapılıp yapılmadığı
- Aynı özerklik seviyesinin bir dahaki sefere de uygun olup olmadığı
Bir seferde yalnızca tek eksende yükselmek gerekir
Başlangıç noktası, savunulabilir başarı kanıtı üreten tek bir sınırlı görevi yerine getiren tek bir supervised agent olmalıdır
Bundan sonra üç yönde kademeli genişleme yapılabilir
- Okuma ağırlıklı keşif işleri paralelleştirilebilir
- Sınırlı dosya sahipliği kuralları olan ayrı worktree'lerde yazan ajanlar eklenebilir
- Tekrarlı otomasyonlar eklendikten sonra issue veya ses gibi girdilere dayalı ajan yönlendirmeli orkestrasyon eklenebilir
Her seviye artışı, yeni hata modlarına karşı yeni güvenlik önlemleri gerektirir
Hata modları şunlardır
- Uzun tek ajan çalışmaları: sürüklenme, bağlam bozulması, eksik iletişim, hedeften sapma
- Arka plan işleri: eskimiş varsayımlar, zayıf devir teslim
- Aşırı paralel işler: merge conflict, yinelenen kararlar
- Aşırı tekrarlı işler: sessiz token harcaması, eskimiş prompt'lar
- managed-by-exception: uzun review kuyrukları, bildirim yorgunluğu
Daha sert güvenmek yerine kapsamı daraltmak, daha iyi kanıt toplamak, daha ucuz rollback yolları kurmak, kapıları güçlendirmek ve sahiplik kurallarını netleştirmek gerekir

Seviyelere göre uygun kullanım alanları

Level 0, hassas işler ve henüz yargı oluşturma aşamasındaki durumlar için en uygundur
Level 1, sınırları iyi anlaşılmış alanlara yakın çoğu keşif işi için uygundur
Level 2, bilinmeyen bağımlılıklar ve beklenmeyen sorunlar içerebilecek çoğu sınırlı görev için uygundur
Level 3, başarı koşullarının yeterince net ifade edilebildiği durumlar için uygundur
Level 4, işin başarı koşullarına göre temiz biçimde bölünebildiği durumlar için uygundur
Level 5, birden çok başarı koşulu arasındaki gerekli koordinasyon ve iletişim tamamen kodlandıktan sonra uygundur

Doğrulama hâlâ darboğaz olmaya devam ediyor

Mevcut güven düzeyi ve araçlara rağmen, AI ajanlarıyla çalışan olgun mühendislik ekiplerinin yaklaşımı calibrated autonomy olmaya devam ediyor
Yakın gelecekte, ne zaman çalışılacağını, ne zaman doğrulama yapılacağını ve ne zaman soru sorulacağını bilen döngüleri tasarlamak gerekecek
Mühendisin yetkinliği, uygun özerklik seviyesini seçme, onun karanlık taraflarını engelleyen kalıplar kurma ve savunulabilir kanıtlar üretme etrafında şekillenmeye devam edecek

Ajan Özerklik Düzeyleri

Prompt yazımından operasyon tasarımına kayan ajanik mühendislik

Tek bir merdiven yerine iki eksende özerklik

agency ve orchestration ne anlama geliyor?

Üç dönem ve altı seviye

Level 0: Assist

Level 1: Supervised action

Level 2: Scoped task delegation

Level 3: Goal-driven autonomy

Level 4: Parallel delegation

Level 5: Managed-by-exception orchestration

Risk ve geri alınabilirlik özerkliğin üst sınırını belirler

Ajan çalıştırmadan önce sözleşmede neler olmalı?

Metrikler özerkliği biraz daha güvenilir kılar

Hazırlık durumu ve özerklik seviyesi seçimi

Dört özerklik anti-pattern'i

Autonomy as status

Permission laundering

Summary substitution

Fleet cosplay

Güvenli biçimde nasıl yukarı çıkılır?

Seviyelere göre uygun kullanım alanları

Doğrulama hâlâ darboğaz olmaya devam ediyor

İlgili okumalar

Henüz yorum yok.