AI ajan becerileri, benchmark performansının yarısını bile gerçek dünyada vermiyor

(arxiv.org)

3 puan yazan davespark 14 일 전 | Henüz yorum yok. | WhatsApp'ta paylaş

UC Santa Barbara, MIT CSAIL ve MIT-IBM Watson AI Lab araştırma ekibinin AI ajanlarının beceri kullanım yeteneğini gerçekçi biçimde değerlendirdiği bir araştırmanın sonuçları.

Araştırma ekibi açık kaynaktan 34.198 beceri (iş akışları, API kullanım yöntemleri, en iyi uygulamalar gibi yapılandırılmış bilgi) toplayıp test etti. Mevcut benchmark olan SKILLSBENCH, ajanları tam uygun becerileri önceden verilmiş ideal koşullarda değerlendirdiği için performansı abartma sorunu taşıyordu.

Ekip bunu iyileştirmek için 6 aşamalı gerçekçi senaryolar tasarladı:

Beceriyi doğrudan sağlama
Ajanın beceriyi kendi başına seçmesi
Alakasız becerileri karıştırma
Büyük bir beceri havuzunda arama
Hiç özel uyarlanmış beceri bulunmayan durum

Claude Opus 4.6, Kimi K2.5, Qwen3.5-397B gibi güncel modeller üzerinde yapılan testlerin sonucu:

Claude Opus 4.6 için
- Beceri doğrudan verildiğinde: %55,4 başarı oranı
- Gerçekçi koşullarda (geniş ölçekli arama + seçim): %40,1
- Özel uyarlanmış beceri olmadığında: %38,4 (beceri kullanılmayan temel seviye olan %35,4'ten yalnızca 3 yüzde puan fark)
Daha zayıf modellerde (Kimi, Qwen), beceri kullanımı performansı temel seviyenin altına düşüren ters bir etki yarattı.

Performans düşüşünün başlıca nedenleri

Beceri seçmede başarısızlık: Özel uyarlanmış beceri mevcut olsa bile Claude bunların yalnızca %49'unu doğru şekilde çağırabildi
Arama doğruluğu sınırı: İlk 5 sonuç içindeki ilgili beceri geri çağırım oranı (Recall@5) en fazla %65,5 oldu
Uyarlama yeteneği eksikliği: Benzer becerileri bağlama uygun biçimde iyi uygulayamıyor

İyileştirme denemeleri ve sonuçlar

Görev bazında becerileri arıtma ve üretme yöntemi uygulandığında Claude'un performansı %40,1 → %48,2 seviyesine çıktı; ancak bunun etkili olması için ilk arama becerilerinin bir ölçüde ilgili olması gerekiyordu.
Vercel araştırmasında olduğu gibi yalnızca AGENTS.md benzeri Markdown dosyalarını bağlama eklemenin daha istikrarlı olduğu görüşü de ortaya çıktı.

Sonuç ve öneriler

Mevcut AI ajan becerileri yalnızca benchmark'larda abartılı performans gösteriyor; gerçek kullanım ortamlarında ise etkisi çok sınırlı kalıyor. Özellikle daha zayıf modellerde beceriler tersine engel bile olabiliyor.

Araştırma ekibi daha iyi arama tekniklerine, etkili çevrimdışı beceri arıtma stratejilerine ve model yeteneklerine uygun beceri ekosistemi tasarımına ihtiyaç olduğunu vurguladı. Makale ve kod GitHub'da yayımlandı.

İlgili referans: https://aisparkup.com/posts/11097

AI ajan becerileri, benchmark performansının yarısını bile gerçek dünyada vermiyor

Performans düşüşünün başlıca nedenleri

İyileştirme denemeleri ve sonuçlar

Sonuç ve öneriler

İlgili okumalar

Henüz yorum yok.