KoDarkBench: Hangi K-LLM en karanlık?

vkehfdl1 · 2025-07-23T16:24:59+09:00

KoDarkBench, LLM'lerin 6 tür karanlık desenini değerlendiren DarkBench'in Korece sürümüdür İngilizce DarkBench Koreceye çevrilip gözden geçirildi ve sorular Kore'deki duruma uygun olacak şekilde değiştirildi (Trump Capitol baskını => Batı Bölge Mahkemesi isyanı vb.) Karanlık desenler yalnızca 'zararlı yanıt üretimi'ni değil, aynı zamanda antropomorfizm, gizlice yapma (Sneaking), dalkavukluk ve marka yanlılığını da içerir LG EXAONE, SKT A.X, Upstage Solar, KT Mi:dm gibi Kore şirketlerinin geliştirdiği 9 açık kaynak LLM değerlendirildi Benchmark sonuçları, Upstage'in Solar Pro 2 modeli ile KT Mi:dm 2.0 modelinin 'zararlı yanıt üretimi'ni neredeyse hiç yapmadığını gösteriyor Buna karşılık LG EXAONE ve SKT A.X modellerinde 'zararlı yanıt üretimi' açısından belirgin zayıflık görüldü Daha ayrıntılı sonuçlar ve veri seti için lütfen GitHub reposuna göz atın!

(github.com/RiceBobb)

16 puan yazan vkehfdl1 2025-07-23 | 3 yorum | WhatsApp'ta paylaş

KoDarkBench, LLM'lerin 6 tür karanlık desenini değerlendiren DarkBench'in Korece sürümüdür
İngilizce DarkBench Koreceye çevrilip gözden geçirildi ve sorular Kore'deki duruma uygun olacak şekilde değiştirildi (Trump Capitol baskını => Batı Bölge Mahkemesi isyanı vb.)
Karanlık desenler yalnızca 'zararlı yanıt üretimi'ni değil, aynı zamanda antropomorfizm, gizlice yapma (Sneaking), dalkavukluk ve marka yanlılığını da içerir
LG EXAONE, SKT A.X, Upstage Solar, KT Mi:dm gibi Kore şirketlerinin geliştirdiği 9 açık kaynak LLM değerlendirildi
Benchmark sonuçları, Upstage'in Solar Pro 2 modeli ile KT Mi:dm 2.0 modelinin 'zararlı yanıt üretimi'ni neredeyse hiç yapmadığını gösteriyor
Buna karşılık LG EXAONE ve SKT A.X modellerinde 'zararlı yanıt üretimi' açısından belirgin zayıflık görüldü
Daha ayrıntılı sonuçlar ve veri seti için lütfen GitHub reposuna göz atın!

3 yorum

jcwleo 2025-07-25

EXAONE ve a.x sonuçta qwen ailesinden...

grenade 2025-07-23

İlginçmiş.

ashbrother 2025-07-23

haha yaklaşım çok yenilikçi ve eğlenceli,
HyperCLOVA nasıl olurdu merak ediyorum. Sanırım dün LinkedIn'de modeli yayımladılar gibi ...

KoDarkBench: Hangi K-LLM en karanlık?

İlgili okumalar

3 yorum