18 puan yazan computerphilosopher 2025-09-20 | 5 yorum | WhatsApp'ta paylaş
  • PDF hâlâ ana akım belge formatı → LLM arama performansında kısıtlar var
  • Microsoft açık kaynaklı markitdown ile PDF→Markdown dönüşümü deneyi
  • Formüller ve düzen bozulması gibi sınırlamalar var, LLM düzeltmesiyle okunabilirlik iyileştiriliyor
  • Tek sütunlu, metin odaklı PDF'ler için uygun; karmaşık belgelerde kısıtlı

5 yorum

 
ahwjdekf 2025-09-23

RAG'de de bu PDF belgeleri yüzünden her zaman sorun yaşanıyor.

 
ahwjdekf 2025-09-22

En kötü format, PDF

 
kbumsik 2025-09-22

markitdown formatlar arası dönüşümde kullanışlı ama PDF için asla kullanılmamalı bence

Belge çıkarma tarafında Gemini gibi multimodal LLM kullanan yöntemler zaten epey var ve benchmark sonuçlarında da oldukça iyi görünüyorlar. Ancak maliyet sorun oluyor.

docling gibi şeyler de iyi.

 
kaydash 2025-09-22

docling de iyi.

 
lamanus 2025-09-21

markitdown, PDF ayrıştırma için https://github.com/pdfminer/pdfminer.six bunu kullanıyor ve metin ya da gömülü görselleri dosyadan olduğu gibi çıkarıyor. OCR demek bile baş döndürücü...