- KoHalluLens, Facebook Research’ün HalluLens’ini Koreceye genişleten bir proje; her seferinde yeni üretilen Korece test setlerine dayanarak LLM’lerin halüsinasyonlarını sistematik olarak değerlendirdi.
- Bu benchmark, halüsinasyonu şu şekilde ayırıyor:
- “gerçeklerle uyuşmayan söylemler” (Factuality issue) ve
- “bilmediği halde biliyormuş gibi yapma” (Hallucination)
- Extrinsic Hallucination (eğitim verisiyle uyuşmama) ve Intrinsic Hallucination (girdi bağlamıyla uyuşmama) şeklinde net sınıflandırma ölçütleri sunuyor.
- Mevcut benchmark’lar data leakage riski taşırken, HalluLens’in extrinsic hallucination yaklaşımı her değerlendirmede yeni bir test seti kullanarak daha güvenilir değerlendirmeyi mümkün kıldı.
- KoHalluLens bunu Korece değerlendirme setine genişletti ve API hosting sayesinde ek hesaplama kaynağı olmadan kullanıcıların kendi modellerinin halüsinasyonlarını doğrudan değerlendirebilmesini sağladı.
Henüz yorum yok.