VLM'ler Kore kamu kurumu belgelerini ne kadar iyi okuyabiliyor? KOLongDoc benchmark'ı yayınlandı
(github.com/Marker-Inc-Korea)🔥 Korece uzun belge VLM benchmark'ı KOLongDoc'u yayınladık!
Son dönemde ChatGPT, Claude, Gemini gibi multimodal yapay zekalar kamu ve idari işlerde de kullanılmaya başlandı, ancak "uzun Korece belgeleri ne kadar iyi anlıyorlar?" sorusunu değerlendirebilecek benchmark'lar neredeyse hiç yoktu.
Mevcut Korece VLM benchmark'ları OCR, VQA, grafik anlama ve görüntü anlama gibi alanlara odaklanıyordu, ancak
❌ onlarca sayfaya ulaşan yüksek çözünürlüklü belgeler
❌ sayfalar arasında gidip gelerek bilgiyi birleştiren multi-hop akıl yürütme
❌ long-context belge anlama
konularını kapsamlı biçimde değerlendirmekte yetersiz kalıyordu.
Bu yüzden biz de KOLongDoc 📄 benchmark'ını hazırlayıp açık kaynak olarak yayınladık!
✅ Kore kamu kurumu belgeleri tabanlı
✅ Multi-page / Multi-hop QA
✅ yüksek çözünürlüklü uzun belge anlama değerlendirmesi
✅ toplam 200 değerlendirme sorusu
KOLongDoc, yerli ve yabancı VLM'lerin gerçek Korece kamu belgelerini ne kadar doğru anlayıp akıl yürütebildiğini değerlendirmek için hazırlanmış bir benchmark'tır.
Daha fazla ayrıntı ve kullanım yöntemleri için Hugging Face ve GitHub sayfalarını ziyaret edebilirsiniz!
🤗 Veri kümesi:
https://huggingface.co/datasets/Markr-AI/KOLongDoc
📝 GitHub tanıtım yazısı:
https://github.com/Marker-Inc-Korea/KOLongDoc
*Geri bildirimleri ve benchmark kullanım örneklerini memnuniyetle karşılıyoruz!
Henüz yorum yok.