Gerçek bir Koreli gibi değerlendiren AI ajan ekibi kurmak (Harness fork'u + NVIDIA 1 milyon persona)
(github.com/hongsw)TL;DR
Yoğun değerlendirme gerektiren harness'lerde — kod incelemesi, doküman incelemesi, UX araştırması, mülakat simülasyonu — 5 değerlendiricinin 5 farklı bakış açısına sahip olması değer yaratır. Genel AI ajan ekiplerinde ise 5 kişinin tonu ve bakış açısı birbirine çok benzer; pratikte 1 kişinin görüşü 5 kez tekrarlanmış olur.
Bu fork, NVIDIA Nemotron-Personas-Korea'yı (1 milyon satır, CC BY 4.0) çalışma zamanında dinamik aramayla çekerek Kore iş hayatındaki gerçek kişileri (iş rolü, kuşak, bölge, aile durumu dahil) ajanlara giydiriyor ve gerçekten farklı bakış açılarından değerlendirmeler üretiyor.
Değerlendirme harness'lerinde neden derin persona gerekiyor
Aynı koda/dokümana/tasarıma bakılsa bile herkes farklı bir bakış açısına sahiptir:
-
45 yaşında SI geçmişine sahip backend takım lideri
→ "Risk yönetimi açısından bunu aşamalı dağıtımla yapalım. Yeterince doğrulayıp ilerlemek sonunda takvimi de kısaltır." -
24 yaşında MZ kuşağından growth marketer
→ "Sayılar sapınca neden hipotezini hızlı kurma yaklaşımı güzel, ama anlamlılık seviyesi biraz zayıf. Biraz daha A/B deneyelim mi?" -
38 yaşında çalışan anne PM
→ "Sonuç olarak bunu bu çeyrekte çıkaramayacaksak, önce öncelikleri bir kez yeniden ayarlayalım lütfen." -
27 yaşında fintech geçmişine sahip tasarımcı
→ "Kullanıcı görüşmelerindeki nitel verilerde, 'kuponu alma anı biraz sönük kalıyor' yorumu tekrar tekrar geldi."
→ Aynı koda bakılsa bile 4 kişi farklı riskleri/değerleri/öncelikleri öne çıkarır. Değerlendirme ekibinin özü budur.
Ne eklendi (3 yeni skill, non-intrusive)
Mevcut revfactory/harness değiştirilmeden, description anahtar kelimesiyle otomatik tetikleme dallanması yapılıyor:
korean-persona-search— Parquet predicate pushdown ile çok eksenli filtreleme (iş rolü, bölge, yaş, eğitim, kuşak) + çeşitlilik örneklemesikorean-voice-adapter— resmi/nezaketli konuşma matrisi + Kore iş yeri kültürü (raporlama hattı, toplantı adabı, dolaylı ifade) + 13 sektör için sözlükkorean-persona-harness— meta orkestratör (5 alt ajandan oluşan pipeline: senaryo analisti → persona küratörü → konuşma tarzı adaptörü → ajan oluşturucu → çeşitlilik QA)
Claude Code ve Codex CLI'nin ikisiyle de uyumlu — SKILL.md formatı aynı, veri kümesi önbelleği ortak.
Doğrulama — aynı LLM, aynı görev, aynı hacim (102 satır vs 103 satır)
5 kişilik ekip için haftalık stand-up toplantı tutanağı simülasyonu. Alan doğruluğu eşdeğer. Fark, bakış açısı çeşitliliğinde ortaya çıkıyor.
Genel harness sonucu:
- Ses ayırt edilebilirliği: düşük (5 kişi neredeyse aynı tonda)
- Kore iş yeri adabı: sınırlı
- Karşılıklı yanıt, teşvik, teşekkür: 0 kez
- Rica/onay tonu: 5 kez
- Kişisel durum paylaşımı: 0 olay
korean-persona-harness sonucu:
- Ses ayırt edilebilirliği: çok yüksek (isimler gizlense bile ayırt edilebilir)
- Kore iş yeri adabı: zengin (kesin hükümden kaçınma, mentorluk, onay tonu)
- Karşılıklı yanıt, teşvik, teşekkür: 4 kez
- Rica/onay tonu: 11 kez
- Kişisel durum paylaşımı: 2 olay (aile takvimi, yetki vurgusu)
Yalnızca Run B'de görülen insani detay:
Backend (iki çocuk babası): "Önümüzdeki hafta benim çocuklarla ilgili programım var, o yüzden rotasyonu önceden bir kez düzenlesek iyi olabilir diye düşünüyorum."
- Kore iş yeri adabı: sınırlı
- Kore iş yeri adabı: sınırlı
- Karşılıklı yanıt, teşvik, teşekkür: 0 kez
- Rica/onay tonu: 5 kez
- Kişisel durum paylaşımı: 0 olay
korean-persona-harness sonucu:
- Ses ayırt edilebilirliği: çok yüksek (isimler gizlense bile ayırt edilebilir)
- Kore iş yeri adabı: zengin (kesin hükümden kaçınma, mentorluk, onay tonu)
- Karşılıklı yanıt, teşvik, teşekkür: 4 kez
- Rica/onay tonu: 11 kez
- Kişisel durum paylaşımı: 2 olay (aile takvimi, yetki vurgusu)
Yalnızca Run B'de görülen insani detay:
Backend (iki çocuk babası): "Önümüzdeki hafta benim çocuklarla ilgili programım var, o yüzden rotasyonu önceden bir kez düzenlesek iyi olabilir diye düşünüyorum."
Takım lideri (45 yaş) → Pazarlamacı (24 yaş): "Sayılar sapınca neden hipotezini hızlı kurma yaklaşımın, aynen böyle devam etmeli."
Pazarlamacı: "Aa, teşekkür ederim takım liderim!"
Takım lideri: "Ama bizim taraftaki retry policy fazla agresif çalıştığı için arızanın kısmen büyümüş olabileceğine dair işaretler var. Kesin hükmü RCA'nın son versiyonunda vereceğim."
→ Aile, kuşak ve iş rolü personası ifadeye doğal biçimde bağlanıyor. Soyut bir "önce istikrar" yaklaşımından ziyade, bu kişinin neden bu önceliğe sahip olduğu davranışın içine yansıyor.
Değer matrisi — nerelerde işe yarar
- Kod incelemesi (5 kişi, 5 farklı bakış açısı) → çok yüksek
- Sanal kullanıcı mülakatı simülasyonu → çok yüksek
- Koreli kullanıcılar için pazarlama metni incelemesi → çok yüksek
- UX araştırması ve persona atölyesi → yüksek
- Toplantı tutanağı ve iş birliği simülasyonu → yüksek
- RFC ve teknik dokümantasyon → orta
- Altyapı ve mimari tasarım → düşük (temel
harnessdaha uygun)
Kurulum (1 satır)
Claude Code:
/plugin marketplace add hongsw/harness
/plugin install harness@harness
Codex CLI:
python3 ~/.codex/skills/.system/skill-installer/scripts/install-skill-from-github.py \
--repo hongsw/harness \
--path skills/korean-persona-search \
--path skills/korean-voice-adapter \
--path skills/korean-persona-harness
Veri kümesi önbelleği (iki çalışma zamanı arasında ortak):
pip install huggingface_hub pyarrow
python3 $SKILL_DIR/korean-persona-search/scripts/download.py
⚠️ Dikkat: Mevcut revfactory/harness yükleyicisinde marketplace ve plugin adları aynı olduğu için 4 adımlı migration gerekiyor:
/plugin uninstall harness@harness
/plugin marketplace remove harness-marketplace
/plugin marketplace add hongsw/harness
/plugin install harness@harness
Bağlantılar
- Fork repo: github.com/hongsw/harness
- Upstream PR #9 (merge bekliyor): github.com/revfactory/harness/pull/9
- Doğrulama çıktıları: _workspace/comparison_test
- Veri kümesi: huggingface.co/.../Nemotron-Personas-Korea (CC BY 4.0)
- Orijinal Harness: github.com/revfactory/harness
1 yorum
İlginçmiş haha. Biz de benzer bir alanda farklı bir yoldan ilerliyoruz — ClawSouls (clawsouls.ai) adlı bir persona kayıt defteri ve paylaşım platformu. Bir kez kaydedilen personalar, OpenClaw, Claude Code, Cursor ve Hermes Agent gibi ajan platformlarına
npm clawsoulspaketiyle uygulanabiliyor. Bir kez paylaşabilirseniz memnun oluruz. Bu platform daha önce GeekNews'te de tanıtılmıştı. Show GN: ClawSouls – yapay zeka ajanı personalarını tek satırda değiştiren açık kayıt defteri İş birliği yapmak isterseniz lütfen iletişime geçin^^ ( contact@clawsouls.ai )