3 puan yazan GN⁺ 2026-02-18 | 1 yorum | WhatsApp'ta paylaş
  • Büyük dil modeli (LLM) tabanlı ajanların beceri (Agent Skills) etkisini nicel olarak değerlendirmek için oluşturulan ilk benchmark olup 11 alan ve 84 görevi içeriyor
  • Her görev, beceri olmadan, küratörlü becerilerle, modelin kendi ürettiği becerilerle olmak üzere üç koşulda değerlendiriliyor ve toplam 7.308 yürütme izi toplanıyor
  • Küratörlü beceriler ortalama +16,2 yüzde puanlık performans artışı gösterdi; ancak alanlar arasında fark büyük ve bazı görevlerde (84 görevin 16'sı) performans düştü
  • Kendi üretilen beceriler (Self-generated Skills) ortalama olarak etkili olmadı; bu da modelin prosedürel bilgiyi kendi başına istikrarlı biçimde üretemediğini gösteriyor
  • Küçük ve odaklı beceri modülleri (2–3 bileşen), kapsamlı belge tipi becerilerden daha verimli ve beceri kullanan küçük modeller, becerisiz büyük modellerle benzer performansa ulaşıyor

SKILLSBENCH genel bakış

  • SKILLSBENCH, LLM ajanlarında beceri takviyesinin etkisini değerlendirmek için tasarlanmış bir benchmark olup Harbor framework'ü üzerine kurulmuştur
    • Her görev; konteyner ortamı, deterministik doğrulayıcı ve referans çözüm (oracle) içerir
    • Aynı görev, beceri uygulanıp uygulanmamasına göre tekrar çalıştırılarak becerinin saf etkisi ölçülür
  • Mevcut benchmark'lar yalnızca modelin temel yeteneklerini değerlendirirken, SKILLSBENCH becerilerin performansa etkisini doğrudan ölçer

Becerilerin (Agent Skills) tanımı ve yapısı

  • Beceri, prosedürel bilgi (procedural knowledge) içeren yapılandırılmış bir pakettir ve modele değişiklik yapmadan çıkarım anında ajanın davranışını genişletir
    • Bileşenler: SKILL.md (göreve yaklaşım prosedürü), çalıştırılabilir script'ler, kod şablonları, örnekler vb.
  • Bir beceri şu dört ölçütü karşılamalıdır
    • Prosedürel içerik barındırmalı
    • Tek bir örnek yerine görev sınıfı düzeyinde uygulanabilir olmalı
    • Yapılandırılmış bileşenler içermeli
    • Dosya sistemi tabanlı olarak taşınabilirlik sağlamalı
  • Sistem prompt'u, few-shot örnekleri, RAG araması ve araç dokümantasyonu beceri olarak kabul edilmez

Görev yapısı ve veri kümesinin oluşturulması

  • Her görev dört bileşenden oluşur: talimat, ortam, çözüm, doğrulayıcı
    • Ortam Docker konteyneri içinde izole edilerek yeniden üretilebilirlik sağlanır
    • Doğrulayıcı, geçme/kalma sonucunu otomatik belirleyen deterministik test script'lerinden oluşur
  • 105 katkıcı 322 aday görev sundu; otomatik doğrulama ve insan incelemesinin ardından nihai 84 görev seçildi
  • Katkıcıların şu gereksinimleri karşılaması gerekiyordu
    • İnsan tarafından yazılmış talimatlar (LLM üretimi yasak)
    • Beceriler, belirli bir görev çözümü değil prosedürel yönergeler sunmalı
    • Tüm doğrulamalar deterministik (assertion tabanlı) şekilde yürütülmeli
    • Otomatik yapı doğrulaması, oracle çalıştırması, yapay zeka üretimi tespiti ve sızıntı denetiminden geçilmeli
  • Sızıntıyı önlemek için beceri içinde göreve özgü dosya adları, sabitler, test referansları bulunursa içerik reddedilir

Benchmark yapısı ve zorluk sınıflandırması

  • SKILLSBENCH, 11 alanda (yazılım, sağlık, finans, robotik vb.) toplam 84 görevden oluşur
  • Zorluk seviyesi, insanın görevi tamamlama süresine göre üç aşamada sınıflandırılır
    • Core (60 dakikadan az): 17 görev
    • Extended (1–4 saat): 43 görev
    • Extreme (4 saatten fazla): 26 görev

Deney kurulumu

  • Üç ticari ajan harness'i değerlendirildi: Claude Code, Gemini CLI, Codex CLI
  • Yedi model kullanıldı: GPT-5.2, Claude Opus 4.5/4.6, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 3 Pro, Gemini 3 Flash
  • Değerlendirme üç koşul altında yapıldı
    • No Skills: Beceri yok
    • With Skills: Küratörlü beceriler kullanıldı
    • Self-Generated Skills: Model, beceriyi kendi üretip uyguladı
  • Toplam 7.308 geçerli yürütme izi (trajectories) toplandı

Değerlendirme ölçütleri

  • Temel metrik olarak geçiş oranı (pass rate) kullanıldı
  • Mutlak iyileşme ile oransal iyileşmeyi birlikte analiz etmek için ek olarak normalize kazanç (normalized gain) hesaplandı
  • Her görev 5 kez tekrarlandı ve ortalama puan hesaplandı

Temel bulgular

  • Küratörlü beceriler, ortalamada +16,2 yüzde puan artış sağladı; yapılandırmaya göre aralık +13,6 ile +23,3 yüzde puan arasında değişti
    • Alanlar arasında fark büyüktü; en yüksek artış sağlıkta (+51,9 yüzde puan), en düşük artış yazılım mühendisliğinde (+4,5 yüzde puan) görüldü
    • 84 görevin 16'sında performans tersine düştü
  • Kendi üretilen beceriler ortalama olarak etkisiz kaldı veya olumsuz etki yaptı
    • Model, prosedürel bilgiyi kendi başına istikrarlı biçimde üretemedi
  • Odaklı beceriler (2–3 modül), kapsamlı belge tipi yapılardan daha verimliydi
  • Küçük model + beceri kombinasyonu, becerisiz büyük modellerle benzer performansa ulaştı

Sonuç

  • SKILLSBENCH, beceri odaklı bir değerlendirme çerçevesi sunuyor ve becerilerin LLM ajanlarının gerçek görev performansına etkisini nicel olarak ortaya koyuyor
  • Sonuçlar, beceri tasarım kalitesi ve alana uygunluğun performans artışında belirleyici olduğunu gösteriyor
  • Gelecekteki araştırmalarda becerilerin yapısal tasarım ilkeleri ve otomatik üretim sınırlarını ortaya koymak için temel kaynak olarak kullanılabilir

1 yorum

 
GN⁺ 2026-02-18
Hacker News yorumları
  • “Self-Generated Skills” kavramı ilginç, ancak bunun insanların düşündüğü ‘LLM’in kendi kendine beceri öğrenme süreci’ ile aynı şey olmadığını belirtmek isterim
    Araştırmada yapılan şey, yalnızca problemi çözmeden önce ilgili prosedürel bilgiyi üretmesi için modele bir istem vermek; bu da gerçek anlamda ‘deneyimden öğrenilmiş beceri’den oldukça uzak
    Medyanın bu farkı net biçimde ayırarak aktarmasını umuyorum

    • Deneydeki ‘task’ kapsamı fazla sınırlı. Yalnızca tek bir Markdown dosyası ve bir doğrulayıcı kullanılıyor; mevcut kod tabanı ya da refactoring gibi gerçekçi problemler ele alınmıyor
      LLM kendi becerilerini üretiyor olsa bile, yapı arama ya da öğrenmeye izin vermediği için sonuçta kendi bağlamını tekrar edip duruyor
      Bu sonuçları genellemek yanıltıcı olabilir
    • ‘Skill’in asıl amacı, ihtiyaç anında çağrılıp kullanılan kısa bir how-to notu gibi olmasıdır
      Bilgi zaten modelin içinde varsa bunu ayrıca belgeye dökmenin anlamı yok; ancak gerçekten kolay ortaya çıkmayan bilgiler olduğunda anlam kazanır
    • Ben de LLM’in denemeden sonra öğrendiği dersleri bir beceriye dönüştürmesi fikriyle ilgileniyorum
      Denemeden önce beceri üretmek gerçek dünyadan kopuk bir yaklaşım
    • Ben faydalı becerileri bir ‘role play session’ üzerinden oluşturdum
      Ajana soru sordurup problem çözme sürecinden geçirdikten sonra sonucu kanıta dayalı, sıkıştırılmış bir beceri olarak özetlemek etkili oldu
    • thisistheway.to/ai üzerinde anlattığım gibi, biz ajan hatalarını öğrenme fırsatı olarak kullanıyoruz
      ① hatayı yakala → ② nedeni teşhis et → ③ iyileştirme aracını seç → ④ sürüm kontrollü çıktı olarak kaydet → ⑤ gerekirse gate seviyesine yükselt
      Bu döngüyü tüm ajanların temel talimatlarına dahil ediyoruz
  • Ben Claude için ayrı bir skill-creator kullanıyorum
    Claude’un zaten bildiği bilgileri yeniden beceri olarak yazmasını önlemek için belgede yalnızca
    ① eğitim verisinin dışındaki bilgi, ② yalnızca mevcut oturum için geçerli bağlam, ③ gelecekteki Claude davranışını hizalayacak bilgi bulunmasına izin veriyorum
    Ayrıntıların tamamı GitHub bağlantısında yer alıyor

    • LLM’lerin ne bildiği ve bilmediği üzerine düşünüp değerlendirme yeteneği zayıf, ama bu yaklaşımın kendisi bence oldukça faydalı
    • Yine de Claude’un ‘en iyi bilgiyi’ seçebileceğini varsaymak riskli
      İnternetten gelen eğitim verisinin kalitesi çok değişken olduğundan, modelin ‘uzman seviyesinde seçim’ yapmasını beklemek zor
    • Bu skill belgesinin adeta iyi bir blog yazısı gibi okunmasını seviyorum
      Bariz olmayan içgörüler içeren yazılar, iyi bir becerinin ölçütü olabilir
    • Bu tür pratik içgörüler araştırmacılar makale yayımlamadan önce arXiv’de önceden paylaşılabilir
  • Araştırma sonuçlarında en ilginç nokta, kendiliğinden üretilen becerilerin performansı düşürmesi (-1.3pp), buna karşılık kürasyonlu becerilerin büyük artış sağlaması (+16.2pp)
    Bu, LLM’lerin prosedürel bilginin tüketicisi olarak çok iyi ama üreticisi olarak zayıf olduğu hipoteziyle uyumlu
    Özellikle etkinin yazılımdan çok sağlık alanında daha güçlü olması, muhtemelen SWE verisinin zaten bol olmasından kaynaklanıyor

    • Ben de bu farka dikkat ettim. Yeni ya da nadir kütüphaneler söz konusu olduğunda becerilerin etkisi dramatik biçimde artıyor
      Örneğin Adobe React Spectrum UI, skillsiz kullanıldığında berbat sonuç veriyor; ama iyi hazırlanmış bir skill ile tamamen farklı oluyor
  • Modele basitçe “bir skill oluştur” demek pek anlamlı değil
    Bilgi yeni veri ya da dış kaynaklarla genişletilmiyorsa, sonuçta yaptığı şey yalnızca kendi çıktısını yeniden girdiye dönüştüren bir döngü oluyor
    Ben skill oluştururken otomatik araştırma yapan, sonra da bunu güncel bilgiye ve iş akışına göre rafine eden bir skill-creator kullanıyorum

    • Araştırmada ajana özerk keşif ya da kaynaklara erişim izni verilmedi
      Bu koşullarda skill üretmenin anlamı yok
    • Pratikte skills önce sahada kullanılıp sonra geri bildirimle otomatik iyileştirilirse çok daha faydalı oluyor
  • LLM’i çok katmanlı biçimde otomatikleştirdikçe her aşamanın kalitesi düşme eğilimi gösteriyor
    Fikir ve uygulama planını insan kurup LLM yalnızca kodlama yaparsa işler iyi gidiyor; ama planlama da verildiğinde hızla kalite düşüşü yaşanıyor

    • Ben bu olguya ‘semantic collapse’ diyorum
      Tekrarlanan özetleme ve yeniden üretim sonunda anlam çöküyor
      Belli aralıklarla taze insan girdisi gerekiyor
    • Ama bağlam yönetimi iyiyse tersi durumlar da var
      Büyük kod tabanlarında önce LLM’e keşif raporu yazdırıyorum, sonra yeni bir oturumda onu referans alarak çalışıyorum
      Daha fazla token harcanıyor ama önemli ayrıntılar kaçmıyor
    • Google’ın Aletheia sistemi, böyle bir pipeline yapısında bile performansı artırıyor
      Sonuçta kritik nokta, modele yeterli dünya bilgisi verilip verilmediği
    • Bu süreci ‘kulaktan kulağa oyunu’ ile kıyaslamak isterim
      Doğal dil doğası gereği kararsız; tekrar tekrar aktarıldıkça bozulma artıyor
      Buna rağmen bu kadar iyi iletişim kurabiliyor olmamız zaten şaşırtıcı
    • Yine de bir geri bildirim döngüsü varsa durum farklı
      open loop yapıda doğruluk düşüyor, fakat her aşama kendini ayarlayabiliyorsa sistem çok daha kararlı oluyor
  • Ben agentic-ready bir veri ambarı geliştiriyorum ( GitHub.com/mathisdrn/orca )
    Başta becerileri benchmark ile optimize etmeye çalışıyordum, ama DsPy ve GEPA gibi model dilinin kendisini değerlendirici ve kurucu olarak kullanan yaklaşımlar daha verimli görünüyor
    Anthropic veya OpenAI’ın skill-creator araçlarının da böyle bir kendini optimize eden yapıya sahip olup olmadığını merak ediyorum

  • Bu araştırmayı ne şaşırtıcı ne de pratik açıdan çok anlamlı buluyorum
    Gerçekte modeller yalnızca kendi örtük bilgileriyle beceri üretmeye neredeyse hiç kalkışmıyor
    Araştırma tam da bu kısıtlı koşulda deney yaptığı için sonuç doğal olarak beklenen şey
    Daha ilginç olan, modelin insanlarla görüşüp ya da derin araştırma sonrası skill üretmesi olurdu

    • Bu eleştiriye tamamen katılıyorum.
      Asıl şaşırtıcı olan, böyle bir makalenin yayımlanmış olması
    • Modern bilim ‘şaşırtıcı olmayan sonuçların’ da yayımlanmasını teşvik ediyor
      Ayrıca bu tür çalışmalar, “modele hiçbir bağlam vermeden best practices dokümanı yazdıran yöneticileri” durdurmaya yardımcı olabilir
    • Geçmişte ‘önce planla sonra uygula’ gibi yaklaşımların gerçekten işe yaradığı örnekler de vardı
      Bu araştırma o bağlamı hesaba katmıyor
    • Sonuçta bu, CLAUDE.md veya AGENTS.md dosyalarını modelin kendisinin yazmış olmasının bunları otomatik olarak anlamsız yaptığına benzer bir iddia
  • Son zamanlarda çok fazla zeki insanın enerjisini bu tür AI tartışmalarında boşa harcadığı hissine kapılıyorum
    Eskiden insanlar sadece faydalı yazılım yapardı; şimdi ise her hafta çıkan yeni AI konusu herkesi içine çekiyor
    Bu, Web3 ya da JS framework’lerinden bile güçlü bir nerd-sniping etkisi yaratıyor
    Bu yazı da aslında yalnızca beklenen bir sonucu doğrulamış gibi

    • Şu anda dağınık bir evrim süreci yaşanıyor, bu yüzden çok sayıda tekrar eden deneme var
      Ama yakında yeni bir model çıkıp tüm bu tartışmaları anlamsız hale getirebilir
      Pek çok ekip ‘skill stratejisine’ geçmeleri yönünde baskı görüyor, fakat bu sırada yeni model zaten bunu daha iyi yapmaya başlıyor
      Sonuçta herkes istikrarsız bir hayatta kalma düzeni içinde yön bulmaya çalışıyor
  • Ben de kendiliğinden üretilmiş belgelerde kalite düşüşünü sık sık gördüm
    LLM koddan ‘best practices’ çıkarmaya çalıştığında, hatalı kalıpları olduğu gibi belgelediği oluyor
    Örneğin C# kodunda ConfigureAwait(false) ya da Task.Run yanlış kullanılmış örneklere rastladım
    Bu sorunu çözmek için kürasyonlu bir bilgi sistemi kuruyoruz
    Markdown tabanlı agentic coding yaklaşımının yeni nesil soyutlama katmanı olacağına inanıyorum

    • Ancak LLM katmanının önceki dillerden farklı olarak deterministik olmaması önemli bir fark
      Bunun sistemin genel davranışını nasıl etkilediği henüz net değil
  • Gönderilen başlık “Self-generated agent skills are useless” idi, bu da HN yönergelerine aykırı
    Orijinal başlığı koruyup görüşü yorumlarda ifade etmek daha adil olur

    • Ama fazla muğlak bir başlık altında asıl sonucun kaybolması da sorun
      Daha açık bir başlığın topluluğa daha fazla içgörü sağlayabileceğini düşünüyorum
      Amaç clickbait değil, temel bulguyu vurgulamak