- Büyük dil modeli (LLM) tabanlı ajanların beceri (Agent Skills) etkisini nicel olarak değerlendirmek için oluşturulan ilk benchmark olup 11 alan ve 84 görevi içeriyor
- Her görev, beceri olmadan, küratörlü becerilerle, modelin kendi ürettiği becerilerle olmak üzere üç koşulda değerlendiriliyor ve toplam 7.308 yürütme izi toplanıyor
- Küratörlü beceriler ortalama +16,2 yüzde puanlık performans artışı gösterdi; ancak alanlar arasında fark büyük ve bazı görevlerde (84 görevin 16'sı) performans düştü
- Kendi üretilen beceriler (Self-generated Skills) ortalama olarak etkili olmadı; bu da modelin prosedürel bilgiyi kendi başına istikrarlı biçimde üretemediğini gösteriyor
- Küçük ve odaklı beceri modülleri (2–3 bileşen), kapsamlı belge tipi becerilerden daha verimli ve beceri kullanan küçük modeller, becerisiz büyük modellerle benzer performansa ulaşıyor
SKILLSBENCH genel bakış
- SKILLSBENCH, LLM ajanlarında beceri takviyesinin etkisini değerlendirmek için tasarlanmış bir benchmark olup Harbor framework'ü üzerine kurulmuştur
- Her görev; konteyner ortamı, deterministik doğrulayıcı ve referans çözüm (oracle) içerir
- Aynı görev, beceri uygulanıp uygulanmamasına göre tekrar çalıştırılarak becerinin saf etkisi ölçülür
- Mevcut benchmark'lar yalnızca modelin temel yeteneklerini değerlendirirken, SKILLSBENCH becerilerin performansa etkisini doğrudan ölçer
Becerilerin (Agent Skills) tanımı ve yapısı
- Beceri, prosedürel bilgi (procedural knowledge) içeren yapılandırılmış bir pakettir ve modele değişiklik yapmadan çıkarım anında ajanın davranışını genişletir
- Bileşenler:
SKILL.md (göreve yaklaşım prosedürü), çalıştırılabilir script'ler, kod şablonları, örnekler vb.
- Bir beceri şu dört ölçütü karşılamalıdır
- Prosedürel içerik barındırmalı
- Tek bir örnek yerine görev sınıfı düzeyinde uygulanabilir olmalı
- Yapılandırılmış bileşenler içermeli
- Dosya sistemi tabanlı olarak taşınabilirlik sağlamalı
- Sistem prompt'u, few-shot örnekleri, RAG araması ve araç dokümantasyonu beceri olarak kabul edilmez
Görev yapısı ve veri kümesinin oluşturulması
- Her görev dört bileşenden oluşur: talimat, ortam, çözüm, doğrulayıcı
- Ortam Docker konteyneri içinde izole edilerek yeniden üretilebilirlik sağlanır
- Doğrulayıcı, geçme/kalma sonucunu otomatik belirleyen deterministik test script'lerinden oluşur
- 105 katkıcı 322 aday görev sundu; otomatik doğrulama ve insan incelemesinin ardından nihai 84 görev seçildi
- Katkıcıların şu gereksinimleri karşılaması gerekiyordu
- İnsan tarafından yazılmış talimatlar (LLM üretimi yasak)
- Beceriler, belirli bir görev çözümü değil prosedürel yönergeler sunmalı
- Tüm doğrulamalar deterministik (assertion tabanlı) şekilde yürütülmeli
- Otomatik yapı doğrulaması, oracle çalıştırması, yapay zeka üretimi tespiti ve sızıntı denetiminden geçilmeli
- Sızıntıyı önlemek için beceri içinde göreve özgü dosya adları, sabitler, test referansları bulunursa içerik reddedilir
Benchmark yapısı ve zorluk sınıflandırması
- SKILLSBENCH, 11 alanda (yazılım, sağlık, finans, robotik vb.) toplam 84 görevden oluşur
- Zorluk seviyesi, insanın görevi tamamlama süresine göre üç aşamada sınıflandırılır
- Core (60 dakikadan az): 17 görev
- Extended (1–4 saat): 43 görev
- Extreme (4 saatten fazla): 26 görev
Deney kurulumu
- Üç ticari ajan harness'i değerlendirildi: Claude Code, Gemini CLI, Codex CLI
- Yedi model kullanıldı: GPT-5.2, Claude Opus 4.5/4.6, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 3 Pro, Gemini 3 Flash
- Değerlendirme üç koşul altında yapıldı
- No Skills: Beceri yok
- With Skills: Küratörlü beceriler kullanıldı
- Self-Generated Skills: Model, beceriyi kendi üretip uyguladı
- Toplam 7.308 geçerli yürütme izi (trajectories) toplandı
Değerlendirme ölçütleri
- Temel metrik olarak geçiş oranı (pass rate) kullanıldı
- Mutlak iyileşme ile oransal iyileşmeyi birlikte analiz etmek için ek olarak normalize kazanç (normalized gain) hesaplandı
- Her görev 5 kez tekrarlandı ve ortalama puan hesaplandı
Temel bulgular
- Küratörlü beceriler, ortalamada +16,2 yüzde puan artış sağladı; yapılandırmaya göre aralık +13,6 ile +23,3 yüzde puan arasında değişti
- Alanlar arasında fark büyüktü; en yüksek artış sağlıkta (+51,9 yüzde puan), en düşük artış yazılım mühendisliğinde (+4,5 yüzde puan) görüldü
- 84 görevin 16'sında performans tersine düştü
- Kendi üretilen beceriler ortalama olarak etkisiz kaldı veya olumsuz etki yaptı
- Model, prosedürel bilgiyi kendi başına istikrarlı biçimde üretemedi
- Odaklı beceriler (2–3 modül), kapsamlı belge tipi yapılardan daha verimliydi
- Küçük model + beceri kombinasyonu, becerisiz büyük modellerle benzer performansa ulaştı
Sonuç
- SKILLSBENCH, beceri odaklı bir değerlendirme çerçevesi sunuyor ve becerilerin LLM ajanlarının gerçek görev performansına etkisini nicel olarak ortaya koyuyor
- Sonuçlar, beceri tasarım kalitesi ve alana uygunluğun performans artışında belirleyici olduğunu gösteriyor
- Gelecekteki araştırmalarda becerilerin yapısal tasarım ilkeleri ve otomatik üretim sınırlarını ortaya koymak için temel kaynak olarak kullanılabilir
1 yorum
Hacker News yorumları
“Self-Generated Skills” kavramı ilginç, ancak bunun insanların düşündüğü ‘LLM’in kendi kendine beceri öğrenme süreci’ ile aynı şey olmadığını belirtmek isterim
Araştırmada yapılan şey, yalnızca problemi çözmeden önce ilgili prosedürel bilgiyi üretmesi için modele bir istem vermek; bu da gerçek anlamda ‘deneyimden öğrenilmiş beceri’den oldukça uzak
Medyanın bu farkı net biçimde ayırarak aktarmasını umuyorum
LLM kendi becerilerini üretiyor olsa bile, yapı arama ya da öğrenmeye izin vermediği için sonuçta kendi bağlamını tekrar edip duruyor
Bu sonuçları genellemek yanıltıcı olabilir
Bilgi zaten modelin içinde varsa bunu ayrıca belgeye dökmenin anlamı yok; ancak gerçekten kolay ortaya çıkmayan bilgiler olduğunda anlam kazanır
Denemeden önce beceri üretmek gerçek dünyadan kopuk bir yaklaşım
Ajana soru sordurup problem çözme sürecinden geçirdikten sonra sonucu kanıta dayalı, sıkıştırılmış bir beceri olarak özetlemek etkili oldu
① hatayı yakala → ② nedeni teşhis et → ③ iyileştirme aracını seç → ④ sürüm kontrollü çıktı olarak kaydet → ⑤ gerekirse gate seviyesine yükselt
Bu döngüyü tüm ajanların temel talimatlarına dahil ediyoruz
Ben Claude için ayrı bir skill-creator kullanıyorum
Claude’un zaten bildiği bilgileri yeniden beceri olarak yazmasını önlemek için belgede yalnızca
① eğitim verisinin dışındaki bilgi, ② yalnızca mevcut oturum için geçerli bağlam, ③ gelecekteki Claude davranışını hizalayacak bilgi bulunmasına izin veriyorum
Ayrıntıların tamamı GitHub bağlantısında yer alıyor
İnternetten gelen eğitim verisinin kalitesi çok değişken olduğundan, modelin ‘uzman seviyesinde seçim’ yapmasını beklemek zor
Bariz olmayan içgörüler içeren yazılar, iyi bir becerinin ölçütü olabilir
Araştırma sonuçlarında en ilginç nokta, kendiliğinden üretilen becerilerin performansı düşürmesi (-1.3pp), buna karşılık kürasyonlu becerilerin büyük artış sağlaması (+16.2pp)
Bu, LLM’lerin prosedürel bilginin tüketicisi olarak çok iyi ama üreticisi olarak zayıf olduğu hipoteziyle uyumlu
Özellikle etkinin yazılımdan çok sağlık alanında daha güçlü olması, muhtemelen SWE verisinin zaten bol olmasından kaynaklanıyor
Örneğin Adobe React Spectrum UI, skillsiz kullanıldığında berbat sonuç veriyor; ama iyi hazırlanmış bir skill ile tamamen farklı oluyor
Modele basitçe “bir skill oluştur” demek pek anlamlı değil
Bilgi yeni veri ya da dış kaynaklarla genişletilmiyorsa, sonuçta yaptığı şey yalnızca kendi çıktısını yeniden girdiye dönüştüren bir döngü oluyor
Ben skill oluştururken otomatik araştırma yapan, sonra da bunu güncel bilgiye ve iş akışına göre rafine eden bir skill-creator kullanıyorum
Bu koşullarda skill üretmenin anlamı yok
LLM’i çok katmanlı biçimde otomatikleştirdikçe her aşamanın kalitesi düşme eğilimi gösteriyor
Fikir ve uygulama planını insan kurup LLM yalnızca kodlama yaparsa işler iyi gidiyor; ama planlama da verildiğinde hızla kalite düşüşü yaşanıyor
Tekrarlanan özetleme ve yeniden üretim sonunda anlam çöküyor
Belli aralıklarla taze insan girdisi gerekiyor
Büyük kod tabanlarında önce LLM’e keşif raporu yazdırıyorum, sonra yeni bir oturumda onu referans alarak çalışıyorum
Daha fazla token harcanıyor ama önemli ayrıntılar kaçmıyor
Sonuçta kritik nokta, modele yeterli dünya bilgisi verilip verilmediği
Doğal dil doğası gereği kararsız; tekrar tekrar aktarıldıkça bozulma artıyor
Buna rağmen bu kadar iyi iletişim kurabiliyor olmamız zaten şaşırtıcı
open loop yapıda doğruluk düşüyor, fakat her aşama kendini ayarlayabiliyorsa sistem çok daha kararlı oluyor
Ben agentic-ready bir veri ambarı geliştiriyorum ( GitHub.com/mathisdrn/orca )
Başta becerileri benchmark ile optimize etmeye çalışıyordum, ama DsPy ve GEPA gibi model dilinin kendisini değerlendirici ve kurucu olarak kullanan yaklaşımlar daha verimli görünüyor
Anthropic veya OpenAI’ın skill-creator araçlarının da böyle bir kendini optimize eden yapıya sahip olup olmadığını merak ediyorum
Bu araştırmayı ne şaşırtıcı ne de pratik açıdan çok anlamlı buluyorum
Gerçekte modeller yalnızca kendi örtük bilgileriyle beceri üretmeye neredeyse hiç kalkışmıyor
Araştırma tam da bu kısıtlı koşulda deney yaptığı için sonuç doğal olarak beklenen şey
Daha ilginç olan, modelin insanlarla görüşüp ya da derin araştırma sonrası skill üretmesi olurdu
Asıl şaşırtıcı olan, böyle bir makalenin yayımlanmış olması
Ayrıca bu tür çalışmalar, “modele hiçbir bağlam vermeden best practices dokümanı yazdıran yöneticileri” durdurmaya yardımcı olabilir
Bu araştırma o bağlamı hesaba katmıyor
Son zamanlarda çok fazla zeki insanın enerjisini bu tür AI tartışmalarında boşa harcadığı hissine kapılıyorum
Eskiden insanlar sadece faydalı yazılım yapardı; şimdi ise her hafta çıkan yeni AI konusu herkesi içine çekiyor
Bu, Web3 ya da JS framework’lerinden bile güçlü bir nerd-sniping etkisi yaratıyor
Bu yazı da aslında yalnızca beklenen bir sonucu doğrulamış gibi
Ama yakında yeni bir model çıkıp tüm bu tartışmaları anlamsız hale getirebilir
Pek çok ekip ‘skill stratejisine’ geçmeleri yönünde baskı görüyor, fakat bu sırada yeni model zaten bunu daha iyi yapmaya başlıyor
Sonuçta herkes istikrarsız bir hayatta kalma düzeni içinde yön bulmaya çalışıyor
Ben de kendiliğinden üretilmiş belgelerde kalite düşüşünü sık sık gördüm
LLM koddan ‘best practices’ çıkarmaya çalıştığında, hatalı kalıpları olduğu gibi belgelediği oluyor
Örneğin C# kodunda
ConfigureAwait(false)ya daTask.Runyanlış kullanılmış örneklere rastladımBu sorunu çözmek için kürasyonlu bir bilgi sistemi kuruyoruz
Markdown tabanlı agentic coding yaklaşımının yeni nesil soyutlama katmanı olacağına inanıyorum
Bunun sistemin genel davranışını nasıl etkilediği henüz net değil
Gönderilen başlık “Self-generated agent skills are useless” idi, bu da HN yönergelerine aykırı
Orijinal başlığı koruyup görüşü yorumlarda ifade etmek daha adil olur
Daha açık bir başlığın topluluğa daha fazla içgörü sağlayabileceğini düşünüyorum
Amaç clickbait değil, temel bulguyu vurgulamaktı