Korece yetkinliğini değerlendiren 3 VLM benchmark’ı yayımlandı (KO-VQA, KO-VDC, KO-OCRAG)
(github.com/Marker-Inc-Korea)Son dönemde VLM’lere olan ilgi artarken, VLM’lerin farklı alanlardaki Korece yetkinliğini doğrulayabilecek benchmark’lar yayımlandı.
Bu projede toplam 3 benchmark tanıtılıyor.
- KO-VQA: farklı alanlardaki Korece belgeleri anlama yeteneği ile belge tabanlı yanıt çıkarımı yeteneğini değerlendirir
- KO-VDC: Korece görselleştirilmiş şema/materyal anlama yeteneği ile şema tabanlı açıklama metni üretme/anlama yeteneğini değerlendirir
- KO-OCRAG: karmaşık yapılı Korece belgelerde OCR yeteneği ile belgede görünen görsel bağlamı ayrıştırma yeteneğini değerlendirir
Tüm veri kümelerindeki değerlendirmeler LLM-as-a-Judge’a dayanmıyor; tamamen çoktan seçmeli biçimde yapılıyor.
Tek bir A100 40GB veya 80GB üzerinde çalıştırılabilen çeşitli açık kaynak VLM’ler ile closed-source olan gemini karşılaştırılmış.
- gemini tüm benchmark’larda ezici bir performans gösteriyor.
- Açık kaynak tarafında Qwen3 öne çıkan bir performans sergiliyor.
- NCSoft’un VARCO-VISION-2.0 modeli de fena olmayan bir performans gösteriyor.
- Özetle, closed-source VLM’lerle open-source VLM’ler arasında Korece performansı açısından hâlâ oldukça büyük bir fark olduğu görülüyor.
- Ayrıca gemini’nin neredeyse kusursuz puanlar alması da şaşırtıcı olmuş;;
Veri kümeleriyle ilgili ayrıntılı açıklamalar için her bir README’ye bakabilirsiniz.
KO-VQA README
KO-VDC README
KO-OCRAG README
⭐⭐Github star⭐⭐ ile ilgi ve tanıtım, açık kaynak projelerin geliştirilmesi için büyük destek sağlıyor!!
Bu proje markrAI’nin desteğiyle yürütülüyor.
Henüz yorum yok.