Qwen-2.5-32B artık en iyi açık kaynak OCR modeli

(github.com/getomni-ai)

8 puan yazan GN⁺ 2025-04-04 | 1 yorum | WhatsApp'ta paylaş

OCR performansını analiz eden Omni OCR benchmark’ında, yakın zamanda piyasaya çıkan Qwen 2.5 VL (72B, 32B), Gemma-3-27B, DeepSeek-v3-0324, mistral-ocr gibi modeller de karşılaştırıldı
Qwen 2.5 VL 72B/32B modelleri en yüksek doğruluk oranına ulaştı
- Her ikisi de yaklaşık %75 doğruluk ile GPT-4o seviyesinde performans gösterdi
- Qwen 72B, 32B’ye kıyasla %0,4 daha yüksek doğruluk kaydetti; pratikte hata payı içinde benzer performans sergiliyorlar
İki Qwen modeli de mistral-ocr’un (%72,2) performansını geçti
- mistral-ocr, OCR için özel olarak eğitilmiş bir model olmasına rağmen Qwen’in gerisinde kaldı
Gemma-3 (27B) modeli %42,9 gibi düşük bir doğruluk gösterdi
- Gemini 2.0 mimarisine dayanmasına rağmen düşük performans sergilemesi biraz şaşırtıcı bir sonuç oldu
Reklam

Omni OCR Benchmark

OCR ve veri çıkarma yeteneklerini karşılaştıran bir benchmark aracı olarak, GPT-4o gibi büyük multimodal modellerin metin ve JSON çıkarma doğruluğunu değerlendiriyor
Bu benchmark’ın amacı, geleneksel OCR sağlayıcıları ve multimodal dil modelleri genelinde OCR doğruluğuna dair kapsamlı bir benchmark yayımlamak
Değerlendirme veri kümesi ve metodoloji tamamen açık kaynak olarak sunuluyor ve bu benchmark’ın ek sağlayıcıları da kapsayacak şekilde genişletilmesi teşvik ediliyor

1 yorum

GN⁺ 2025-04-04

Hacker News görüşleri

32b’nin çıktısı daha insan dostu görünüyor, matematiksel akıl yürütmesi daha iyi ve ince ayar işlevleri ayrıntılı anlamayı desteklemede faydalı görünüyor
Qwen2.5-VL-72b iki ay önce yayımlandı ve el yazısı tanıma hakkında coşkulu yorumlar vardı
- Bu model, yapay zekaya dair kuşkuculuğu ve memnuniyetsizliği aşmamı sağlayan ilginç bir sürümdü
- Sürüm notları iyi düzenlenmiş ve blog yazısı da harika
Qwen’in HTML çıktısı ilginçti
- Görsel geri bildirimi hızlıca oluşturmak veya yapılandırılmış veriyi kolayca kullanmak için HTML biçiminde sınır kutuları sağlıyor
- Geleneksel OCR, sınır kutusu koordinatları sağlama konusunda LLM’lere göre büyük bir avantaja sahip
%95’in üzerinde doğruluğa ulaşılana kadar insan tarafından çift kontrol ve düzeltme gerekiyor; sınır kutuları olmadan bu gerçekçi değil
LM Studio üzerinden Qwen2.5-VL-32b-Instruct -8bit için MLX sürümünü indiriyorum ve bunu bir OCR yan projesinde kullanmayı planlıyorum
Maliyet ve gecikmeyi doğruluğun yanında ölçtülerse, bu sonuçları da paylaşabilirler mi diye merak ediyorum
Gemini’nin OCR yetenekleri beni hâlâ şaşırtıyor ve Qwen hızla gelişiyor
Farklı görevleri yapmak için çeşitli modelleri karşılaştırıyorum; Qwen’in en yeni modeli öncekilere göre çok daha kararlı ve ince ayarı daha kolay
OpenAI’ın OCR performansı uzun süredir iyileşmedi; bu tuhaf ve sinir bozucu
Qwen 2.5 VL 72b, genel görsel anlama alanında Gemini’yi geride bırakıyor ve yerelde çalıştırılabiliyor
macOS üzerinde OCR API ile deneyler yapıyorum ve bunu bu LLM’lerle karşılaştırmak istiyorum
Tesseract, el yazısı dışında her şeyde %99 doğruluğa ulaşabiliyor
LLM kullanmanın gerçekten bir avantajı olup olmadığını merak ediyorum
Qwen’in test sonuçlarından çok etkilendim ve insanların bunu hafife aldığını düşünüyorum
Birden fazla dosyayı tek bir prompt ile işlemek için LLM arayüzünü nasıl yapılandırdıklarını merak ediyorum
Tyler ve ekibinin harika işi

Qwen-2.5-32B artık en iyi açık kaynak OCR modeli

Omni OCR Benchmark

İlgili okumalar

1 yorum

Hacker News görüşleri