3 puan yazan davespark 14 일 전 | Henüz yorum yok. | WhatsApp'ta paylaş

UC Santa Barbara, MIT CSAIL ve MIT-IBM Watson AI Lab araştırma ekibinin AI ajanlarının beceri kullanım yeteneğini gerçekçi biçimde değerlendirdiği bir araştırmanın sonuçları.

Araştırma ekibi açık kaynaktan 34.198 beceri (iş akışları, API kullanım yöntemleri, en iyi uygulamalar gibi yapılandırılmış bilgi) toplayıp test etti. Mevcut benchmark olan SKILLSBENCH, ajanları tam uygun becerileri önceden verilmiş ideal koşullarda değerlendirdiği için performansı abartma sorunu taşıyordu.

Ekip bunu iyileştirmek için 6 aşamalı gerçekçi senaryolar tasarladı:

  • Beceriyi doğrudan sağlama
  • Ajanın beceriyi kendi başına seçmesi
  • Alakasız becerileri karıştırma
  • Büyük bir beceri havuzunda arama
  • Hiç özel uyarlanmış beceri bulunmayan durum

Claude Opus 4.6, Kimi K2.5, Qwen3.5-397B gibi güncel modeller üzerinde yapılan testlerin sonucu:

  • Claude Opus 4.6 için

    • Beceri doğrudan verildiğinde: %55,4 başarı oranı
    • Gerçekçi koşullarda (geniş ölçekli arama + seçim): %40,1
    • Özel uyarlanmış beceri olmadığında: %38,4 (beceri kullanılmayan temel seviye olan %35,4'ten yalnızca 3 yüzde puan fark)
  • Daha zayıf modellerde (Kimi, Qwen), beceri kullanımı performansı temel seviyenin altına düşüren ters bir etki yarattı.

Performans düşüşünün başlıca nedenleri

  1. Beceri seçmede başarısızlık: Özel uyarlanmış beceri mevcut olsa bile Claude bunların yalnızca %49'unu doğru şekilde çağırabildi
  2. Arama doğruluğu sınırı: İlk 5 sonuç içindeki ilgili beceri geri çağırım oranı (Recall@5) en fazla %65,5 oldu
  3. Uyarlama yeteneği eksikliği: Benzer becerileri bağlama uygun biçimde iyi uygulayamıyor

İyileştirme denemeleri ve sonuçlar

  • Görev bazında becerileri arıtma ve üretme yöntemi uygulandığında Claude'un performansı %40,1 → %48,2 seviyesine çıktı; ancak bunun etkili olması için ilk arama becerilerinin bir ölçüde ilgili olması gerekiyordu.
  • Vercel araştırmasında olduğu gibi yalnızca AGENTS.md benzeri Markdown dosyalarını bağlama eklemenin daha istikrarlı olduğu görüşü de ortaya çıktı.

Sonuç ve öneriler

Mevcut AI ajan becerileri yalnızca benchmark'larda abartılı performans gösteriyor; gerçek kullanım ortamlarında ise etkisi çok sınırlı kalıyor. Özellikle daha zayıf modellerde beceriler tersine engel bile olabiliyor.

Araştırma ekibi daha iyi arama tekniklerine, etkili çevrimdışı beceri arıtma stratejilerine ve model yeteneklerine uygun beceri ekosistemi tasarımına ihtiyaç olduğunu vurguladı. Makale ve kod GitHub'da yayımlandı.

İlgili referans: https://aisparkup.com/posts/11097

Henüz yorum yok.

Henüz yorum yok.