- OCR performansını analiz eden Omni OCR benchmark’ında, yakın zamanda piyasaya çıkan Qwen 2.5 VL (72B, 32B), Gemma-3-27B, DeepSeek-v3-0324, mistral-ocr gibi modeller de karşılaştırıldı
- Qwen 2.5 VL 72B/32B modelleri en yüksek doğruluk oranına ulaştı
- Her ikisi de yaklaşık %75 doğruluk ile GPT-4o seviyesinde performans gösterdi
- Qwen 72B, 32B’ye kıyasla %0,4 daha yüksek doğruluk kaydetti; pratikte hata payı içinde benzer performans sergiliyorlar
- İki Qwen modeli de mistral-ocr’un (%72,2) performansını geçti
- mistral-ocr, OCR için özel olarak eğitilmiş bir model olmasına rağmen Qwen’in gerisinde kaldı
- Gemma-3 (27B) modeli %42,9 gibi düşük bir doğruluk gösterdi
- Gemini 2.0 mimarisine dayanmasına rağmen düşük performans sergilemesi biraz şaşırtıcı bir sonuç oldu
Omni OCR Benchmark
- OCR ve veri çıkarma yeteneklerini karşılaştıran bir benchmark aracı olarak, GPT-4o gibi büyük multimodal modellerin metin ve JSON çıkarma doğruluğunu değerlendiriyor
- Bu benchmark’ın amacı, geleneksel OCR sağlayıcıları ve multimodal dil modelleri genelinde OCR doğruluğuna dair kapsamlı bir benchmark yayımlamak
- Değerlendirme veri kümesi ve metodoloji tamamen açık kaynak olarak sunuluyor ve bu benchmark’ın ek sağlayıcıları da kapsayacak şekilde genişletilmesi teşvik ediliyor
1 yorum
Hacker News görüşleri
Qwen2.5-VL-32b-Instruct -8bitiçin MLX sürümünü indiriyorum ve bunu bir OCR yan projesinde kullanmayı planlıyorum