Code as Agent Harness — kodu ajanın çalışma zemini olarak ele alan 102 sayfalık araştırma
(code-as-harness.github.io)UIUC × Meta × Stanford ortak çalışması. Mayıs ayında arXiv'e yüklenen bir araştırma makalesi ve bakış açısı oldukça ilginç.
Temel iddia
"Kod artık LLM'in ürettiği bir çıktı değil. Ajanın akıl yürüttüğü, eyleme geçtiği, durumu sakladığı ve geri bildirimi doğruladığı bir operational substrate'dir (çalışma zemini)."
Yani kod, sadece bir .py dosyası değil; ajanın yaşadığı dünyanın kendisi olarak görülüyor. Buna code as agent harness deniyor.
3 katmanlı yapı
Makale, ajan sistemlerini 3 katmana ayırarak inceliyor:
① Harness Interface — kodun ajanı çevreye bağlama biçimi
- Program-of-Thoughts gibi yaklaşımlarda akıl yürütmeyi kod olarak externalize edip çalıştırma/doğrulama
- GUI/robot kontrolünde üretilen programın politika olarak çalışması
- Kod tabanı, izler ve simülatörlerin çevrenin kendisini temsil etmesi
② Harness Mechanisms — uzun süreli çalışmayı sürdüren kontrol sistemi
- Planning: basit decomposition'ın ötesine geçip PLAN.md gibi dosya sistemi tabanlı kalıcı planlamaya evriliyor. Meta-Harness ise harness tasarımının kendisini search space olarak ele alıyor
- Memory: working/semantic/experiential/long-term/multi-agent + context compaction olarak ayrıştırılıyor. Buradaki kilit nokta, "hafıza tek bir vektör veritabanı değil, bütünleşik bir durum yönetim katmanıdır"
- PEV Loop: Plan → Execute → Verify döngüsünü sibernetik bir yönetici olarak yeniden tanımlıyor. Çalıştırma ise read-only → sandbox-edit → full-access(HITL) şeklinde 3 aşamalı yetki modeliyle ilerliyor
- AHE: harness'ın kendisini ölçen ve optimize eden meta katman
③ Scaling the Harness — çoklu ajanların kod adlı ortak bir ortam üzerinde işbirliği yapma biçimi
- İlginç bir bulgu: "Topoloji karmaşıklığı, paylaşılan durum temsillerinin olgunlaşmamışlığının getirdiği bir vergidir" — durumu iyi tasarlanmış sistemler daha basit yapılarla da iyi çalışırken, örtük duruma bağımlı sistemler bu eksikliği daha karmaşık topolojilerle telafi ediyor
Dikkat çeken noktalar
- Context Compaction + State Offloading: Her şeyi context window içine doldurmak yerine, karar için gerekli özetleri active context içinde tutup tüm veriyi MCP-style protokollerle offload edin — bu tam anlamıyla sahada işe yarayan bir ipucu
- Doğrulamayı deterministik sensör olarak kullanmak: linter, type checker, test ve fuzzer gibi deterministik geri bildirimler, LLM critique'ten daha güvenilir kontrol sinyalleri sunuyor
- Başarısızlığın nedeni model değil, harness'tır: "Ajan hatalarının çoğu yetersiz depo bağlamı, kırılgan araç arayüzleri, zayıf doğrulayıcılar, aşırı token maliyeti ve hatalı yeniden deneme politikalarından kaynaklanır"
Open Problems
Makalenin bıraktığı 7 açık problem arasından:
- Nihai başarı dışında değerlendirme: ara izler, toparlanma girişimleri ve güvenlik kontrolleri de birinci sınıf metrikler olmalı
- Regresyonsuz harness iyileştirmesi: başarısızlıklardan öğrenirken mevcut davranışı bozmamanın yolu
- Çoklu ajanlar arasında işlemsel paylaşılan durum: birden fazla ajan aynı anda kod değiştirirken çatışmaları çözme
Referans
- Makale: https://arxiv.org/abs/2605.18747
- Temiz özet sitesi: https://code-as-harness.github.io/code-as-harness-webpage/
- İlgili makale derlemesi: https://github.com/YennNing/Awesome-Code-as-Agent-Harness-Papers
Henüz yorum yok.