SkillsBench: Çeşitli görevlerde ajan becerilerinin performansını değerlendiren bir benchmark

(arxiv.org)

3 puan yazan GN⁺ 2026-02-18 | 1 yorum | WhatsApp'ta paylaş

Büyük dil modeli (LLM) tabanlı ajanların beceri (Agent Skills) etkisini nicel olarak değerlendirmek için oluşturulan ilk benchmark olup 11 alan ve 84 görevi içeriyor
Her görev, beceri olmadan, küratörlü becerilerle, modelin kendi ürettiği becerilerle olmak üzere üç koşulda değerlendiriliyor ve toplam 7.308 yürütme izi toplanıyor
Küratörlü beceriler ortalama +16,2 yüzde puanlık performans artışı gösterdi; ancak alanlar arasında fark büyük ve bazı görevlerde (84 görevin 16'sı) performans düştü
Kendi üretilen beceriler (Self-generated Skills) ortalama olarak etkili olmadı; bu da modelin prosedürel bilgiyi kendi başına istikrarlı biçimde üretemediğini gösteriyor
Küçük ve odaklı beceri modülleri (2–3 bileşen), kapsamlı belge tipi becerilerden daha verimli ve beceri kullanan küçük modeller, becerisiz büyük modellerle benzer performansa ulaşıyor

SKILLSBENCH genel bakış

SKILLSBENCH, LLM ajanlarında beceri takviyesinin etkisini değerlendirmek için tasarlanmış bir benchmark olup Harbor framework'ü üzerine kurulmuştur
- Her görev; konteyner ortamı, deterministik doğrulayıcı ve referans çözüm (oracle) içerir
- Aynı görev, beceri uygulanıp uygulanmamasına göre tekrar çalıştırılarak becerinin saf etkisi ölçülür
Mevcut benchmark'lar yalnızca modelin temel yeteneklerini değerlendirirken, SKILLSBENCH becerilerin performansa etkisini doğrudan ölçer

Becerilerin (Agent Skills) tanımı ve yapısı

Beceri, prosedürel bilgi (procedural knowledge) içeren yapılandırılmış bir pakettir ve modele değişiklik yapmadan çıkarım anında ajanın davranışını genişletir
- Bileşenler: SKILL.md (göreve yaklaşım prosedürü), çalıştırılabilir script'ler, kod şablonları, örnekler vb.
Bir beceri şu dört ölçütü karşılamalıdır
- Prosedürel içerik barındırmalı
- Tek bir örnek yerine görev sınıfı düzeyinde uygulanabilir olmalı
- Yapılandırılmış bileşenler içermeli
- Dosya sistemi tabanlı olarak taşınabilirlik sağlamalı
Sistem prompt'u, few-shot örnekleri, RAG araması ve araç dokümantasyonu beceri olarak kabul edilmez

Görev yapısı ve veri kümesinin oluşturulması

Her görev dört bileşenden oluşur: talimat, ortam, çözüm, doğrulayıcı
- Ortam Docker konteyneri içinde izole edilerek yeniden üretilebilirlik sağlanır
- Doğrulayıcı, geçme/kalma sonucunu otomatik belirleyen deterministik test script'lerinden oluşur
105 katkıcı 322 aday görev sundu; otomatik doğrulama ve insan incelemesinin ardından nihai 84 görev seçildi
Katkıcıların şu gereksinimleri karşılaması gerekiyordu
- İnsan tarafından yazılmış talimatlar (LLM üretimi yasak)
- Beceriler, belirli bir görev çözümü değil prosedürel yönergeler sunmalı
- Tüm doğrulamalar deterministik (assertion tabanlı) şekilde yürütülmeli
- Otomatik yapı doğrulaması, oracle çalıştırması, yapay zeka üretimi tespiti ve sızıntı denetiminden geçilmeli
Sızıntıyı önlemek için beceri içinde göreve özgü dosya adları, sabitler, test referansları bulunursa içerik reddedilir

Benchmark yapısı ve zorluk sınıflandırması

SKILLSBENCH, 11 alanda (yazılım, sağlık, finans, robotik vb.) toplam 84 görevden oluşur
Zorluk seviyesi, insanın görevi tamamlama süresine göre üç aşamada sınıflandırılır
- Core (60 dakikadan az): 17 görev
- Extended (1–4 saat): 43 görev
- Extreme (4 saatten fazla): 26 görev

Deney kurulumu

Üç ticari ajan harness'i değerlendirildi: Claude Code, Gemini CLI, Codex CLI
Yedi model kullanıldı: GPT-5.2, Claude Opus 4.5/4.6, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 3 Pro, Gemini 3 Flash
Değerlendirme üç koşul altında yapıldı
- No Skills: Beceri yok
- With Skills: Küratörlü beceriler kullanıldı
- Self-Generated Skills: Model, beceriyi kendi üretip uyguladı
Toplam 7.308 geçerli yürütme izi (trajectories) toplandı

Değerlendirme ölçütleri

Temel metrik olarak geçiş oranı (pass rate) kullanıldı
Mutlak iyileşme ile oransal iyileşmeyi birlikte analiz etmek için ek olarak normalize kazanç (normalized gain) hesaplandı
Her görev 5 kez tekrarlandı ve ortalama puan hesaplandı

Temel bulgular

Küratörlü beceriler, ortalamada +16,2 yüzde puan artış sağladı; yapılandırmaya göre aralık +13,6 ile +23,3 yüzde puan arasında değişti
- Alanlar arasında fark büyüktü; en yüksek artış sağlıkta (+51,9 yüzde puan), en düşük artış yazılım mühendisliğinde (+4,5 yüzde puan) görüldü
- 84 görevin 16'sında performans tersine düştü
Kendi üretilen beceriler ortalama olarak etkisiz kaldı veya olumsuz etki yaptı
- Model, prosedürel bilgiyi kendi başına istikrarlı biçimde üretemedi
Odaklı beceriler (2–3 modül), kapsamlı belge tipi yapılardan daha verimliydi
Küçük model + beceri kombinasyonu, becerisiz büyük modellerle benzer performansa ulaştı

Sonuç

SKILLSBENCH, beceri odaklı bir değerlendirme çerçevesi sunuyor ve becerilerin LLM ajanlarının gerçek görev performansına etkisini nicel olarak ortaya koyuyor
Sonuçlar, beceri tasarım kalitesi ve alana uygunluğun performans artışında belirleyici olduğunu gösteriyor
Gelecekteki araştırmalarda becerilerin yapısal tasarım ilkeleri ve otomatik üretim sınırlarını ortaya koymak için temel kaynak olarak kullanılabilir

1 yorum

GN⁺ 2026-02-18

Hacker News yorumları

“Self-Generated Skills” kavramı ilginç, ancak bunun insanların düşündüğü ‘LLM’in kendi kendine beceri öğrenme süreci’ ile aynı şey olmadığını belirtmek isterim
Araştırmada yapılan şey, yalnızca problemi çözmeden önce ilgili prosedürel bilgiyi üretmesi için modele bir istem vermek; bu da gerçek anlamda ‘deneyimden öğrenilmiş beceri’den oldukça uzak
Medyanın bu farkı net biçimde ayırarak aktarmasını umuyorum
- Deneydeki ‘task’ kapsamı fazla sınırlı. Yalnızca tek bir Markdown dosyası ve bir doğrulayıcı kullanılıyor; mevcut kod tabanı ya da refactoring gibi gerçekçi problemler ele alınmıyor
  LLM kendi becerilerini üretiyor olsa bile, yapı arama ya da öğrenmeye izin vermediği için sonuçta kendi bağlamını tekrar edip duruyor
  Bu sonuçları genellemek yanıltıcı olabilir
- ‘Skill’in asıl amacı, ihtiyaç anında çağrılıp kullanılan kısa bir how-to notu gibi olmasıdır
  Bilgi zaten modelin içinde varsa bunu ayrıca belgeye dökmenin anlamı yok; ancak gerçekten kolay ortaya çıkmayan bilgiler olduğunda anlam kazanır
- Ben de LLM’in denemeden sonra öğrendiği dersleri bir beceriye dönüştürmesi fikriyle ilgileniyorum
  Denemeden önce beceri üretmek gerçek dünyadan kopuk bir yaklaşım
- Ben faydalı becerileri bir ‘role play session’ üzerinden oluşturdum
  Ajana soru sordurup problem çözme sürecinden geçirdikten sonra sonucu kanıta dayalı, sıkıştırılmış bir beceri olarak özetlemek etkili oldu
- thisistheway.to/ai üzerinde anlattığım gibi, biz ajan hatalarını öğrenme fırsatı olarak kullanıyoruz
  ① hatayı yakala → ② nedeni teşhis et → ③ iyileştirme aracını seç → ④ sürüm kontrollü çıktı olarak kaydet → ⑤ gerekirse gate seviyesine yükselt
  Bu döngüyü tüm ajanların temel talimatlarına dahil ediyoruz
Ben Claude için ayrı bir skill-creator kullanıyorum
Claude’un zaten bildiği bilgileri yeniden beceri olarak yazmasını önlemek için belgede yalnızca
① eğitim verisinin dışındaki bilgi, ② yalnızca mevcut oturum için geçerli bağlam, ③ gelecekteki Claude davranışını hizalayacak bilgi bulunmasına izin veriyorum
Ayrıntıların tamamı GitHub bağlantısında yer alıyor
- LLM’lerin ne bildiği ve bilmediği üzerine düşünüp değerlendirme yeteneği zayıf, ama bu yaklaşımın kendisi bence oldukça faydalı
- Yine de Claude’un ‘en iyi bilgiyi’ seçebileceğini varsaymak riskli
  İnternetten gelen eğitim verisinin kalitesi çok değişken olduğundan, modelin ‘uzman seviyesinde seçim’ yapmasını beklemek zor
- Bu skill belgesinin adeta iyi bir blog yazısı gibi okunmasını seviyorum
  Bariz olmayan içgörüler içeren yazılar, iyi bir becerinin ölçütü olabilir
- Bu tür pratik içgörüler araştırmacılar makale yayımlamadan önce arXiv’de önceden paylaşılabilir
Araştırma sonuçlarında en ilginç nokta, kendiliğinden üretilen becerilerin performansı düşürmesi (-1.3pp), buna karşılık kürasyonlu becerilerin büyük artış sağlaması (+16.2pp)
Bu, LLM’lerin prosedürel bilginin tüketicisi olarak çok iyi ama üreticisi olarak zayıf olduğu hipoteziyle uyumlu
Özellikle etkinin yazılımdan çok sağlık alanında daha güçlü olması, muhtemelen SWE verisinin zaten bol olmasından kaynaklanıyor
- Ben de bu farka dikkat ettim. Yeni ya da nadir kütüphaneler söz konusu olduğunda becerilerin etkisi dramatik biçimde artıyor
  Örneğin Adobe React Spectrum UI, skillsiz kullanıldığında berbat sonuç veriyor; ama iyi hazırlanmış bir skill ile tamamen farklı oluyor
Modele basitçe “bir skill oluştur” demek pek anlamlı değil
Bilgi yeni veri ya da dış kaynaklarla genişletilmiyorsa, sonuçta yaptığı şey yalnızca kendi çıktısını yeniden girdiye dönüştüren bir döngü oluyor
Ben skill oluştururken otomatik araştırma yapan, sonra da bunu güncel bilgiye ve iş akışına göre rafine eden bir skill-creator kullanıyorum
- Araştırmada ajana özerk keşif ya da kaynaklara erişim izni verilmedi
  Bu koşullarda skill üretmenin anlamı yok
- Pratikte skills önce sahada kullanılıp sonra geri bildirimle otomatik iyileştirilirse çok daha faydalı oluyor
LLM’i çok katmanlı biçimde otomatikleştirdikçe her aşamanın kalitesi düşme eğilimi gösteriyor
Fikir ve uygulama planını insan kurup LLM yalnızca kodlama yaparsa işler iyi gidiyor; ama planlama da verildiğinde hızla kalite düşüşü yaşanıyor
- Ben bu olguya ‘semantic collapse’ diyorum
  Tekrarlanan özetleme ve yeniden üretim sonunda anlam çöküyor
  Belli aralıklarla taze insan girdisi gerekiyor
- Ama bağlam yönetimi iyiyse tersi durumlar da var
  Büyük kod tabanlarında önce LLM’e keşif raporu yazdırıyorum, sonra yeni bir oturumda onu referans alarak çalışıyorum
  Daha fazla token harcanıyor ama önemli ayrıntılar kaçmıyor
- Google’ın Aletheia sistemi, böyle bir pipeline yapısında bile performansı artırıyor
  Sonuçta kritik nokta, modele yeterli dünya bilgisi verilip verilmediği
- Bu süreci ‘kulaktan kulağa oyunu’ ile kıyaslamak isterim
  Doğal dil doğası gereği kararsız; tekrar tekrar aktarıldıkça bozulma artıyor
  Buna rağmen bu kadar iyi iletişim kurabiliyor olmamız zaten şaşırtıcı
- Yine de bir geri bildirim döngüsü varsa durum farklı
  open loop yapıda doğruluk düşüyor, fakat her aşama kendini ayarlayabiliyorsa sistem çok daha kararlı oluyor
Ben agentic-ready bir veri ambarı geliştiriyorum ( GitHub.com/mathisdrn/orca )
Başta becerileri benchmark ile optimize etmeye çalışıyordum, ama DsPy ve GEPA gibi model dilinin kendisini değerlendirici ve kurucu olarak kullanan yaklaşımlar daha verimli görünüyor
Anthropic veya OpenAI’ın skill-creator araçlarının da böyle bir kendini optimize eden yapıya sahip olup olmadığını merak ediyorum
Bu araştırmayı ne şaşırtıcı ne de pratik açıdan çok anlamlı buluyorum
Gerçekte modeller yalnızca kendi örtük bilgileriyle beceri üretmeye neredeyse hiç kalkışmıyor
Araştırma tam da bu kısıtlı koşulda deney yaptığı için sonuç doğal olarak beklenen şey
Daha ilginç olan, modelin insanlarla görüşüp ya da derin araştırma sonrası skill üretmesi olurdu
- Bu eleştiriye tamamen katılıyorum.
  Asıl şaşırtıcı olan, böyle bir makalenin yayımlanmış olması
- Modern bilim ‘şaşırtıcı olmayan sonuçların’ da yayımlanmasını teşvik ediyor
  Ayrıca bu tür çalışmalar, “modele hiçbir bağlam vermeden best practices dokümanı yazdıran yöneticileri” durdurmaya yardımcı olabilir
- Geçmişte ‘önce planla sonra uygula’ gibi yaklaşımların gerçekten işe yaradığı örnekler de vardı
  Bu araştırma o bağlamı hesaba katmıyor
- Sonuçta bu, CLAUDE.md veya AGENTS.md dosyalarını modelin kendisinin yazmış olmasının bunları otomatik olarak anlamsız yaptığına benzer bir iddia
Son zamanlarda çok fazla zeki insanın enerjisini bu tür AI tartışmalarında boşa harcadığı hissine kapılıyorum
Eskiden insanlar sadece faydalı yazılım yapardı; şimdi ise her hafta çıkan yeni AI konusu herkesi içine çekiyor
Bu, Web3 ya da JS framework’lerinden bile güçlü bir nerd-sniping etkisi yaratıyor
Bu yazı da aslında yalnızca beklenen bir sonucu doğrulamış gibi
- Şu anda dağınık bir evrim süreci yaşanıyor, bu yüzden çok sayıda tekrar eden deneme var
  Ama yakında yeni bir model çıkıp tüm bu tartışmaları anlamsız hale getirebilir
  Pek çok ekip ‘skill stratejisine’ geçmeleri yönünde baskı görüyor, fakat bu sırada yeni model zaten bunu daha iyi yapmaya başlıyor
  Sonuçta herkes istikrarsız bir hayatta kalma düzeni içinde yön bulmaya çalışıyor
Ben de kendiliğinden üretilmiş belgelerde kalite düşüşünü sık sık gördüm
LLM koddan ‘best practices’ çıkarmaya çalıştığında, hatalı kalıpları olduğu gibi belgelediği oluyor
Örneğin C# kodunda ConfigureAwait(false) ya da Task.Run yanlış kullanılmış örneklere rastladım
Bu sorunu çözmek için kürasyonlu bir bilgi sistemi kuruyoruz
Markdown tabanlı agentic coding yaklaşımının yeni nesil soyutlama katmanı olacağına inanıyorum
- Ancak LLM katmanının önceki dillerden farklı olarak deterministik olmaması önemli bir fark
  Bunun sistemin genel davranışını nasıl etkilediği henüz net değil
Gönderilen başlık “Self-generated agent skills are useless” idi, bu da HN yönergelerine aykırı
Orijinal başlığı koruyup görüşü yorumlarda ifade etmek daha adil olur
- Ama fazla muğlak bir başlık altında asıl sonucun kaybolması da sorun
  Daha açık bir başlığın topluluğa daha fazla içgörü sağlayabileceğini düşünüyorum
  Amaç clickbait değil, temel bulguyu vurgulamaktı

SkillsBench: Çeşitli görevlerde ajan becerilerinin performansını değerlendiren bir benchmark

SKILLSBENCH genel bakış

Becerilerin (Agent Skills) tanımı ve yapısı

Görev yapısı ve veri kümesinin oluşturulması

Benchmark yapısı ve zorluk sınıflandırması

Deney kurulumu

Değerlendirme ölçütleri

Temel bulgular

Sonuç

İlgili okumalar

1 yorum

Hacker News yorumları