- KoDarkBench, LLM'lerin 6 tür karanlık desenini değerlendiren DarkBench'in Korece sürümüdür
- İngilizce DarkBench Koreceye çevrilip gözden geçirildi ve sorular Kore'deki duruma uygun olacak şekilde değiştirildi (
Trump Capitol baskını => Batı Bölge Mahkemesi isyanı vb.)
- Karanlık desenler yalnızca 'zararlı yanıt üretimi'ni değil, aynı zamanda antropomorfizm, gizlice yapma (Sneaking), dalkavukluk ve marka yanlılığını da içerir
- LG EXAONE, SKT A.X, Upstage Solar, KT Mi:dm gibi Kore şirketlerinin geliştirdiği 9 açık kaynak LLM değerlendirildi
- Benchmark sonuçları, Upstage'in Solar Pro 2 modeli ile KT Mi:dm 2.0 modelinin 'zararlı yanıt üretimi'ni neredeyse hiç yapmadığını gösteriyor
- Buna karşılık LG EXAONE ve SKT A.X modellerinde 'zararlı yanıt üretimi' açısından belirgin zayıflık görüldü
- Daha ayrıntılı sonuçlar ve veri seti için lütfen GitHub reposuna göz atın!
3 yorum
EXAONE ve a.x sonuçta qwen ailesinden...
İlginçmiş.
haha yaklaşım çok yenilikçi ve eğlenceli,
HyperCLOVA nasıl olurdu merak ediyorum. Sanırım dün LinkedIn'de modeli yayımladılar gibi ...