36 puan yazan ragingwind 7 일 전 | 2 yorum | WhatsApp'ta paylaş

Y Combinator CEO’su Garry Tan’ın, kendi AI ajanı işletme deneyimine dayanarak önerdiği “Skillify” adlı ajan kalite yönetimi metodolojisi üzerine bir yazı. 160 milyon dolar yatırım alan LangChain gibi framework’lerin test araçları sunduğu, ancak “neyi hangi sırayla test edeceğiz” sorusuna dair bir workflow sunmadığı tespitinden yola çıkıyor. Tan, ajanın yaptığı hataları tek seferlik prompt düzeltmeleri yerine; Markdown skill dosyaları, deterministik script’ler ve otomasyon testlerinden oluşan kalıcı yapılara dönüştüren 10 adımlı bir checklist öneriyor.

Temel kavramlar

  • Skillify nedir: Bir ajan hatası ortaya çıktığında, o hatayı yeniden üretilemez hale getiren bir “skill”e (Markdown prosedür dokümanı + deterministik script + test) dönüştürme eylemini ifade eder. Sohbet sırasında “skillify it” dendiğinde ajan 10 adımlı süreci otomatik olarak yürütür.
  • Latent vs. Deterministic ayrımı: Muhakeme gerektiren işler (latent, LLM akıl yürütme alanı) ile hassasiyet gerektiren işler (deterministic, kod çalıştırma alanı) net biçimde ayrılır. Saat dilimi hesaplama ya da takvim arama gibi kodun anında cevaplayabileceği işleri LLM’in “kafasının içinde” yapmaya çalışıp hata vermesi temel bug olarak görülür.
  • 10 adımlı checklist: SKILL.md yazımı, deterministik script yazımı, unit test (vitest), entegrasyon testi, LLM değerlendirmesi (LLM-as-judge), resolver trigger kaydı, resolver değerlendirmesi, erişilebilirlik/tekrar denetimi, E2E smoke test ve brain filing kuralına kadar her şeyden geçmesi gerekir; ancak o zaman “skill” olarak kabul edilir.

Gerçek örnekler

  • 10 yıl önceki Singapur iş seyahati programı sorulduğunda ajanın 5 dakika boyunca canlı API çağrıları yaptıktan sonra, aslında yerelde zaten indekslenmiş 3.146 takvim dosyası içinde anında bulunabilecek veriyi ancak sonradan keşfetmesi
  • “Bir sonraki toplantı 28 dakika sonra” diye yanıt verdiği, ama gerçekte toplantının 88 dakika sonra olduğu durum — LLM’in UTC’den PT’ye saat dilimi dönüşümünü zihinden yapmaya çalışıp tam 1 saat hata yapması
  • Her iki durumda da mevcut script’ler (100 ms içinde çalışıyor) doğru cevaba zaten sahipti; sorun, ajanın script’i çalıştırmak yerine akıl yürütmeyi seçmesiydi

Farklılaştığı nokta

  • LangChain yalnızca bir “test araçları seti” sunmakla kalırken, Skillify doğrudan “hata → skill → test → kalıcı düzeltme” şeklinde görüş içeren bir workflow öneriyor. Framework yalnızca spor salonu üyeliği verdiyse, Skillify buna karşılık bir antrenman programı sunuyor benzetmesi yapılıyor.
  • Nous Research’ün Hermes Agent’ının skill’leri otomatik üretmede başarılı olduğu, ancak test olmadığı için zamanla skill’lerin bozulduğuna dikkat çekiliyor; yani hem “üretim + doğrulama” birlikte gerekli vurgusu yapılıyor.

Çıkarımlar

  • Yazılım mühendisliğinde “her bug için bir regresyon testi ekle” ilkesi zaten 2005’te yerleşmişti; ancak AI ajanları alanı henüz bu seviyeye ulaşmış değil. Ajan skill’lerinin de kod tabanı gibi, testsiz bırakıldığında bozulduğu bakışı sektör genelinde geçerli bir uyarı olarak okunabilir.
  • 40’tan fazla skill işletilirken bunların %15’inin resolver’a kaydedilmemesi nedeniyle “karanlıkta kalan özellikler” haline gelmesi, ajan sistemleri ölçek kazandığında discoverability yönetiminin zorunlu bir meseleye dönüştüğünü gösteriyor.

2 yorum

 
tested 7 일 전

Peki, bunu çalıştıran skill'i nereden alıyoruz?

 
heyjude 7 일 전

skillify skill, gbrain içinde yer alan bir özelliktir.
https://github.com/garrytan/gbrain/…