Code as Agent Harness — kodu ajanın çalışma zemini olarak ele alan 102 sayfalık araştırma

(code-as-harness.github.io)

4 puan yazan johnonlee 4 시간 전 | Henüz yorum yok. | WhatsApp'ta paylaş

UIUC × Meta × Stanford ortak çalışması. Mayıs ayında arXiv'e yüklenen bir araştırma makalesi ve bakış açısı oldukça ilginç.

Temel iddia

"Kod artık LLM'in ürettiği bir çıktı değil. Ajanın akıl yürüttüğü, eyleme geçtiği, durumu sakladığı ve geri bildirimi doğruladığı bir operational substrate'dir (çalışma zemini)."

Yani kod, sadece bir .py dosyası değil; ajanın yaşadığı dünyanın kendisi olarak görülüyor. Buna code as agent harness deniyor.

3 katmanlı yapı

Makale, ajan sistemlerini 3 katmana ayırarak inceliyor:

① Harness Interface — kodun ajanı çevreye bağlama biçimi

Program-of-Thoughts gibi yaklaşımlarda akıl yürütmeyi kod olarak externalize edip çalıştırma/doğrulama
GUI/robot kontrolünde üretilen programın politika olarak çalışması
Kod tabanı, izler ve simülatörlerin çevrenin kendisini temsil etmesi

② Harness Mechanisms — uzun süreli çalışmayı sürdüren kontrol sistemi

Planning: basit decomposition'ın ötesine geçip PLAN.md gibi dosya sistemi tabanlı kalıcı planlamaya evriliyor. Meta-Harness ise harness tasarımının kendisini search space olarak ele alıyor
Memory: working/semantic/experiential/long-term/multi-agent + context compaction olarak ayrıştırılıyor. Buradaki kilit nokta, "hafıza tek bir vektör veritabanı değil, bütünleşik bir durum yönetim katmanıdır"
PEV Loop: Plan → Execute → Verify döngüsünü sibernetik bir yönetici olarak yeniden tanımlıyor. Çalıştırma ise read-only → sandbox-edit → full-access(HITL) şeklinde 3 aşamalı yetki modeliyle ilerliyor
AHE: harness'ın kendisini ölçen ve optimize eden meta katman

③ Scaling the Harness — çoklu ajanların kod adlı ortak bir ortam üzerinde işbirliği yapma biçimi

İlginç bir bulgu: "Topoloji karmaşıklığı, paylaşılan durum temsillerinin olgunlaşmamışlığının getirdiği bir vergidir" — durumu iyi tasarlanmış sistemler daha basit yapılarla da iyi çalışırken, örtük duruma bağımlı sistemler bu eksikliği daha karmaşık topolojilerle telafi ediyor

Dikkat çeken noktalar

Context Compaction + State Offloading: Her şeyi context window içine doldurmak yerine, karar için gerekli özetleri active context içinde tutup tüm veriyi MCP-style protokollerle offload edin — bu tam anlamıyla sahada işe yarayan bir ipucu
Doğrulamayı deterministik sensör olarak kullanmak: linter, type checker, test ve fuzzer gibi deterministik geri bildirimler, LLM critique'ten daha güvenilir kontrol sinyalleri sunuyor
Başarısızlığın nedeni model değil, harness'tır: "Ajan hatalarının çoğu yetersiz depo bağlamı, kırılgan araç arayüzleri, zayıf doğrulayıcılar, aşırı token maliyeti ve hatalı yeniden deneme politikalarından kaynaklanır"

Open Problems

Makalenin bıraktığı 7 açık problem arasından:

Nihai başarı dışında değerlendirme: ara izler, toparlanma girişimleri ve güvenlik kontrolleri de birinci sınıf metrikler olmalı
Regresyonsuz harness iyileştirmesi: başarısızlıklardan öğrenirken mevcut davranışı bozmamanın yolu
Çoklu ajanlar arasında işlemsel paylaşılan durum: birden fazla ajan aynı anda kod değiştirirken çatışmaları çözme

Referans

Makale: https://arxiv.org/abs/2605.18747
Temiz özet sitesi: https://code-as-harness.github.io/code-as-harness-webpage/
İlgili makale derlemesi: https://github.com/YennNing/Awesome-Code-as-Agent-Harness-Papers