Yapay Zeka Ajanı Karmaşıklık Mandalı: Neden %90 Test Kapsamı Gerekli

(x.com/garrytan)

2 puan yazan ragingwind 3 시간 전 | Henüz yorum yok. | WhatsApp'ta paylaş

Yapay zeka kodlama çağında Complexity Ratchet - Garry Tan’ın deneme yazısının özeti

Y Combinator CEO’su Garry Tan’ın X’te paylaştığı uzun bir deneme yazısı; son 1 yılda yapay zeka ajanlarıyla (Claude Code, Codex vb.) birlikte iki açık kaynak projeyi geliştirme deneyimini derliyor. Yaklaşık 970 bin satır kodun ve 665 test dosyasının büyük bölümünün yapay zeka tarafından yazıldığını, aynı anda 15 ajan oturumu çalıştırdığını söylüyor. Bu süreçten hareketle, yazılım mühendisliğindeki eski "hız ve kalite arasında seçim yapmak gerekir" önermesinin artık geçerliliğini yitirdiğini savunuyor ve bunun temel mekanizması olarak 'Complexity Ratchet' kavramını öne sürüyor.

Temel kavramların özeti

Ratchet nedir: Yalnızca tek yönde hareket eden bir dişli mekanizmasını anlatan bir metafor; kod tabanı kalitesinin geri gitmeden sadece ileriye taşınmasını sağlayan yapıyı ifade ediyor.
Üç birikim katmanı: Ajanlarla yapılan her kodlama oturumunda testler (neyin doğru olduğu), dokümantasyon (neden böyle karar verildiği) ve değerlendirme sonuçları (kalite taban çizgisi) olmak üzere üç şey kod tabanında birikiyor.
Context window’un kullanımı: Sonraki oturumda yapay zeka ajanı bu üçünü birden okuyarak çalıştığı için testleri bozması, dokümantasyonu görmezden gelmesi veya değerlendirme puanını düşürmesi zorlaşıyor.

Mevcut yaklaşımdan farkları

Hata modelindeki değişim: Son 50 yılda yazılım mühendisliği, "hatalar ölümcüldür; bu yüzden önlenmelidir" varsayımıyla code review, QA, staging gibi karmaşık süreçler kurdu. Ancak artık hataların büyük kısmı, ajan tarafından bir sonraki turda teşhis edilip düzeltilebiliyor.
Karmaşıklık sınırının genişlemesi: Sistem karmaşıklığının üst sınırı, 'bir ekibin kafasında tutabildiği miktar'dan 'bir kişi ve tüm kod tabanını bağlama yüklemiş ajanlar'a doğru genişledi.
Kurumsal hafızanın kalıcılığı: İnsanlar işten ayrılabilir ya da tükenmişlik yaşayabilir; ancak testler ve dokümantasyonda kalan bilgi, hangi model veya hangi zaman olursa olsun yeniden çağrılabilir.

%90 test kapsamının anlamı

Doğrusal olmayan kalite eğrisi: Capers Jones’un 10 binden fazla proje üzerine yaptığı araştırmaya göre, kapsam %70’in altındayken hata giderme oranı %65-75 seviyesinde kalırken, %85-95 aralığında %92-97’ye sıçrayan bir 'kırılma noktası' bulunuyor.
Havacılık sektöründeki emsal: Havacılık yazılım standardı DO-178C, Level A (kritik) sistemler için MC/DC kapsamını zorunlu tutuyor; amaç %99’un üzerinde hata giderme oranına ulaşmak.
Yapay zekanın maliyet bariyerini kırması: Son %20’lik kapsamı doldurmak insanlar için sıkıcı ve maliyetliydi; ancak ajanlar yorulmadığı için gece yarısı bile edge case testleri durmadan yazabiliyor.

Yazarın sunduğu gerçek örnekler

GBrain’de çıkarım doğruluğunun iyileştirilmesi: 100 binden fazla inanç çıkarımı içinde 'bu iddiayı kimin yaptığı' konusunda %35 yanlış atama yapan sorun, 17 test ile sabitlenerek sonraki hiçbir sürümün bunun altına düşememesi sağlandı.
Superpowers’ın TTY testleri: Yapay zeka ajanının etkileşimli incelemeyi atlamasını, Bun’un pseudo-terminal özelliğiyle doğrudan izleyip engelleyerek, "yapay zeka gerçekten diyalog kurdu mu" gibi alışılmadık bir gereksinim de test haline getirildi.

Avantajlar ve sınırlar

Avantajlar: Dış katkı sağlayanların sistemin tamamını anlamasına gerek kalmadan, yalnızca testleri geçirdikleri sürece PR’lerin güvenle merge edilebilmesi, iş birliğine giriş bariyerini düşürüyor.
Sınırlar: Durumu bozucu türde hatalar (yanlış DB migration’ı, güvenlik ihlali, gizlilik sızıntısı) hâlâ kritik; ayrıca entegrasyon noktalarının ve altyapının yaklaşık %10’u doğası gereği test etmesi zor alanlar.
İtirazlara verilen yanıt: "Testi iyi yazan kişi zaten mimariyi de iyi kurar" eleştirisine karşı, mandalın özünün insan değil, bir sonraki turdaki güvenlik ağı olduğu vurgulanıyor.

Yazarın bu yazıyla vermek istediği ana mesaj, yapay zeka ile kodlamanın gerçek değerinin 'daha hızlı yazmak' değil, 'bugüne kadar fazla pahalı olduğu için vazgeçilen doğrulama düzeyini' fiilen ücretsiz hâle getirmesi. Son 50 yılda havacılık ve sağlık gibi alanlara özgü kalan %90 test kapsamı artık tek bir kişinin günlük pratiği olabilir; bunun sonucu olarak da tek bir geliştiricinin üretebileceği yazılımın karmaşıklık tavanı dramatik biçimde yükselmiş durumda. Bununla birlikte yazı, yazarın kendi açık kaynak projelerini (Superpowers, GBrain) tanıtma işlevi de görüyor ve bazı istatistik atıfları (ör. GPT-5.5) doğrulama gerektirdiğinden eleştirel okunması gereken bir metin olma özelliğini de koruyor.

Yapay Zeka Ajanı Karmaşıklık Mandalı: Neden %90 Test Kapsamı Gerekli

Yapay zeka kodlama çağında Complexity Ratchet - Garry Tan’ın deneme yazısının özeti

İlgili okumalar

Henüz yorum yok.