25 puan yazan xguru 2025-03-03 | 2 yorum | WhatsApp'ta paylaş
  • PDF ve JPG/PNG belgelerini doğal okuma sırasını koruyarak düz metne dönüştüren açık kaynak bir araç
  • Büyük miktardaki belgeyi hızlıca işleyebilecek şekilde tasarlanmıştır; tabloları, formülleri, el yazısını vb. destekler
  • Akademik makaleler, teknik belgeler ve diğer referans materyalleri temel alınarak eğitilmiştir
  • Doğruluğu artırmak ve halüsinasyonu azaltmak için kendine özgü prompting teknikleri kullanır
  • Mevcut model İngilizce belgelere optimize edilmiştir; diğer dillerin düzgün desteklenmeme olasılığı yüksektir
  • Demo sayfasında belgeleri doğrudan test edebilirsiniz
  • 1 milyon sayfayı dönüştürme maliyeti yaklaşık $190 USD olduğundan ekonomik şekilde çalıştırılabilir
  • Güncel bir NVIDIA GPU gerekir (RTX 4090, L40S, A100, H100 ile test edilmiştir)
  • Çevrimiçi demo üzerinden test edin (PDF, JPG, PNG)

Araç setinin açık kaynak sürümüne dahil olan kodlar

  • ChatGPT 4o tabanlı prompting stratejisi (buildsilver.py) : doğal metin ayrıştırma performansını en üst düzeye çıkaran teknikler içerir
  • Pipeline karşılaştırmalı değerlendirme aracı (runeval.py)
  • Dil filtreleme ve SEO spam temizleme özelliği (filter.py)
  • Qwen2-VL ve Molmo-O fine-tuning kodu (train.py)
  • Büyük hacimli PDF işleme pipeline'ı (pipeline.py) : Sglang kullanarak milyonlarca PDF işlenebilir
  • Dolma belge görüntüleyicisi (dolmaviewer.py) : PDF'den dönüştürülen Dolma formatındaki belgeler görsel olarak incelenebilir

2 yorum

 
kleinstein 2025-03-06

Şu an için Windows'ta çalışmıyor gibi görünüyor..

 
kaydash 2025-03-03

GPU olmadan çalışan kütüphaneler şimdilik hâlâ işe yarıyor gibi görünüyor.