KoHalluLens: Saçmalığın bile bir taksonomisi var?!

ironman0722 · 2025-11-03T21:55:54+09:00

KoHalluLens, Facebook Research’ün HalluLens’ini Koreceye genişleten bir proje; her seferinde yeni üretilen Korece test setlerine dayanarak LLM’lerin halüsinasyonlarını sistematik olarak değerlendirdi. Bu benchmark, halüsinasyonu şu şekilde ayırıyor: “gerçeklerle uyuşmayan söylemler” (Factuality issue) ve “bilmediği halde biliyormuş gibi yapma” (Hallucination) Extrinsic Hallucination (eğitim verisiyle uyuşmama) ve Intrinsic Hallucination (girdi bağlamıyla uyuşmama) şeklinde net sınıflandırma ölçütleri sunuyor. Mevcut benchmark’lar data leakage riski taşırken, HalluLens’in extrinsic hallucination yaklaşımı her değerlendirmede yeni bir test seti kullanarak daha güvenilir değerlendirmeyi mümkün kıldı. KoHalluLens bunu Korece değerlendirme setine genişletti ve API hosting sayesinde ek hesaplama kaynağı olmadan kullanıcıların kendi modellerinin halüsinasyonlarını doğrudan değerlendirebilmesini sağladı.

(github.com/NomaDamas)

1 puan yazan ironman0722 2025-11-03 | Henüz yorum yok. | WhatsApp'ta paylaş

KoHalluLens, Facebook Research’ün HalluLens’ini Koreceye genişleten bir proje; her seferinde yeni üretilen Korece test setlerine dayanarak LLM’lerin halüsinasyonlarını sistematik olarak değerlendirdi.
Bu benchmark, halüsinasyonu şu şekilde ayırıyor:
- “gerçeklerle uyuşmayan söylemler” (Factuality issue) ve
- “bilmediği halde biliyormuş gibi yapma” (Hallucination)
Extrinsic Hallucination (eğitim verisiyle uyuşmama) ve Intrinsic Hallucination (girdi bağlamıyla uyuşmama) şeklinde net sınıflandırma ölçütleri sunuyor.
Mevcut benchmark’lar data leakage riski taşırken, HalluLens’in extrinsic hallucination yaklaşımı her değerlendirmede yeni bir test seti kullanarak daha güvenilir değerlendirmeyi mümkün kıldı.
KoHalluLens bunu Korece değerlendirme setine genişletti ve API hosting sayesinde ek hesaplama kaynağı olmadan kullanıcıların kendi modellerinin halüsinasyonlarını doğrudan değerlendirebilmesini sağladı.

KoHalluLens: Saçmalığın bile bir taksonomisi var?!

İlgili okumalar

Henüz yorum yok.