12 puan yazan ragingwind 2026-05-13 | 1 yorum | WhatsApp'ta paylaş

Bu, Garry Tan’ın (Y Combinator CEO’su) X’te paylaştığı uzun bir deneme; son 1 yılda yapay zeka ajanlarıyla (Claude Code, Codex vb.) iki açık kaynak projeyi geliştirirken edindiği deneyimleri derliyor. Yaklaşık 970 bin satır kodun ve 665 test dosyasının büyük bölümünü yapay zeka yazdı; aynı anda 15 ajan oturumu çalıştırdığını da belirtiyor. Bu süreçten hareketle, yazılım mühendisliğinin uzun süredir kabul gören “hız ve kalite arasında seçim yapmak gerekir” önermesinin artık geçerli olmadığını savunuyor ve bunun temel mekanizması olarak 'Complexity Ratchet' kavramını ortaya koyuyor.

Temel kavramların özeti

  • Ratchet nedir? Yalnızca tek yönde hareket eden bir dişli mekanizmasını anlatan bir benzetmedir; burada anlamı, kod tabanı kalitesinin geri gitmeden sadece ileri taşınmasını sağlayan yapı olmasıdır.
  • Üç tür birikim Ajanla yapılan her kodlama oturumunda üç şey kod tabanına eklenir: testler (neyin doğru olduğu), dokümantasyon (neden bu kararın alındığı) ve değerlendirme sonuçları (kalite için referans çizgisi).
  • Context window’un kullanımı Bir sonraki oturumda yapay zeka ajanı bu üç unsuru da okuyup çalıştığı için, testleri bozamaz, dokümantasyonu görmezden gelemez veya değerlendirme puanlarını düşüremez.

Mevcut yöntemlerden farkı

  • Hata modelindeki değişim Son 50 yılda yazılım mühendisliği, “hatalar ölümcüldür, bu yüzden önlenmelidir” varsayımıyla code review, QA, staging gibi karmaşık süreçler oluşturdu; ancak artık hataların büyük bölümü ajanlar tarafından bir sonraki turda teşhis edilip düzeltilebiliyor.
  • Karmaşıklık sınırının genişlemesi Sistem karmaşıklığının üst sınırı, “bir ekibin zihninde tutabileceği miktar” düzeyinden “tek bir kişi ve tüm kod tabanını bağlama yüklemiş ajanlar” düzeyine doğru genişledi.
  • Kurumsal hafızanın kalıcılığı İnsanlar işten ayrılabilir veya tükenebilir; ancak testler ve dokümantasyonla bırakılan bilgi, hangi model olursa olsun, hangi zamanda gerekirse tekrar çağrılabilir.

%90 test kapsamının anlamı

  • Doğrusal olmayan kalite eğrisi Capers Jones’un 10 binden fazla projeyi kapsayan araştırmasına göre, kapsam %70’in altındayken hata giderme oranı %65–75’te kalıyor; ancak %85–95 aralığında %92–97’ye sıçrayan bir “kırılma noktası” bulunuyor.
  • Havacılık sektöründeki emsal Havacılık yazılım standardı DO-178C, Level A (kritik) sistemlerde MC/DC kapsamını zorunlu tutuyor; bunun amacı %99’un üzerinde hata giderme oranına ulaşmak.
  • Yapay zekanın yıktığı maliyet bariyeri Son %20’lik kapsamı tamamlamak insanlar için sıkıcı ve pahalıydı; fakat ajanlar yorulmadığı için gece yarısı bile edge case testleri durmaksızın yazabiliyorlar.

Yazarın sunduğu gerçek örnekler

  • GBrain’de çıkarım doğruluğunun iyileştirilmesi 100 binden fazla inanç çıkarımı içinde “bu iddiayı kim dile getirdi” sorusunda %35 oranında yanlış atıf yapılan sorun, 17 testle sabitlenerek sonraki hiçbir sürümün bunun altına düşememesi sağlandı.
  • Superpowers’ın TTY testleri Yapay zeka ajanının etkileşimli incelemeyi atlama davranışı, Bun’un sözde terminal özelliğiyle doğrudan izlenip engellendi; böylece “yapay zeka gerçekten diyaloğa girdi mi?” gibi alışılmadık bir gereksinim bile teste dönüştürüldü.

Avantajlar ve sınırlamalar

  • Avantajlar Dış katkı sağlayan kişiler sistemin tamamını anlamasa bile yalnızca testleri geçirerek PR’larını güvenle merge edebilir; bu da iş birliğine giriş bariyerini düşürür.
  • Sınırlamalar Durumu geri dönülmez biçimde bozan hata türleri (yanlış DB migration, güvenlik ihlali, mahremiyet sızıntısı) hâlâ kritik; ayrıca entegrasyon noktalarının ve altyapının yaklaşık %10’luk kısmı doğası gereği test edilmesi zor alanlar.
  • İtirazlara verilen yanıt “Testi iyi yazan kişi zaten mimariyi de iyi kurar” eleştirisine karşı, ratchet’ın özünün insan değil, bir sonraki tur için oluşturulan güvenlik ağı olduğu vurgulanıyor.

Bu yazıda yazarın vermek istediği temel mesaj şu: yapay zeka ile kodlamanın gerçek değeri “daha hızlı yazmak” değil, “şimdiye kadar fazla pahalı olduğu için vazgeçilen doğrulama düzeyini” ücretsiz hâle getirmiş olmasıdır. 50 yıl boyunca havacılık ve sağlık alanlarının ayrıcalığı olan %90 test kapsamı artık tek bir kişinin günlük pratiği olabilir; bunun sonucunda da tek bir geliştiricinin üretebileceği yazılımın karmaşıklık tavanı dramatik biçimde yükselmiştir. Ancak metnin kendisi aynı zamanda kendi açık kaynak projelerini (Superpowers, GBrain) tanıtma işlevi de görüyor ve bazı istatistik alıntılarında (ör. GPT-5.5) doğrulama gerektiren noktalar bulunduğu için eleştirel okumayı da gerektiren bir metin niteliği taşıyor.

1 yorum

 
skymer 2026-05-14

https://www.youtube.com/watch?v=mJ2GZRV63TE
sqlite'tan 4 kat daha fazla LOC ile bir RoR blogu yapan kişi...