Microsoft MarkItDown - Dosya ve Office belgelerini Markdown'a dönüştüren Python aracı

(github.com/microsoft)

31 puan yazan GN⁺ 2024-12-14 | 2 yorum | WhatsApp'ta paylaş

Çeşitli dosyaları Markdown'a dönüştüren yardımcı araç
Desteklenen formatlar:
- PDF (.pdf), PowerPoint (.pptx), Word (.docx), Excel (.xlsx)
- Görseller (EXIF meta verisi ve OCR), ses dosyaları (EXIF meta verisi ve konuşmayı metne dönüştürme)
- HTML (özellikle Wikipedia vb. için özel işleme) ve diğer çeşitli metin tabanlı formatlar (csv, json, xml vb.)

API kullanımı basittir:

from markitdown import MarkItDown  
markitdown = MarkItDown()  
result = markitdown.convert("test.xlsx")  
print(result.text_content)

2 yorum

kandk 2024-12-16

Vay, demek ki bunu Microsoft içinde de açık kaynak haline getirmeyi düşünüyorlar galiba?

GN⁺ 2024-12-14

Hacker News görüşleri

uv yüklüyse, dosyalar için ayrıca kurulum yapmadan uvx markitdown path-to-file.pdf komutuyla çalıştırılabiliyor
- İlk çalıştırmada gerekli paketleri önbelleğe alıyor, sonraki çalıştırmalarda ise önbelleğe alınan paketleri yeniden kullanıyor
- HTML ve PDF üzerinde denendiğinde oldukça iyi performans gösteriyor
İş yerinde dosyaları LLM dostu metne dönüştüren bir özellik geliştirme deneyimi olmuş
- Kaynak koda bakınca, bu uygulama oldukça makul görünüyor
- Görseller veya elektronik tablolar için kullanmamak daha iyi
- Görseller doğrudan LLM sağlayıcısına iletilebilir; elektronik tablolar ise Markdown tablolarını yorumlamada zayıf kalıyor
Birçok startup ve açık kaynak proje bu alanı karmaşık hale getiriyor, ancak nihai hedef anlaşılması ve dağıtılması kolay, basit bir proje
PDF işlemede "ne kadar işlem istediğinizi" ayarlayabilen bir özellik olması güzel olurdu
- PDF'ler metin çıkarımı sırasında, PDF'nin dışa aktarılma biçimine duyarlı sezgisel yöntemler kullanmayı ya da tamamen OCR kullanmayı gerektiriyor
- Projenin tek bir yönteme sabitlenmesi kullanışsız
- Ses-metin özelliği, metin-metin özelliğinden farklı performans karakteristiklerine sahip olabileceği için kullanılmayacak
PDF işleme açısından PDFMiner'ı doğrudan entegre etmek daha iyi olabilir
.docx dosyaları Pandoc kullanılarak Markdown'a ve diğer dosya biçimlerine dönüştürülebilir
- Pandoc, PowerPoint ve Excel dosyalarını dönüştüremiyor
Karmaşık görsel düzenlere ve çok sayıda tabloya sahip, PDF biçimindeki tabletop RPG kitaplarını indeksleme deneyimi paylaşılmış
- Eğer bu sadece PDFMiner için bir sarmalayıcıysa, aracın ek değerini görmek zor
- Tabloları tanımıyor ya da işlemiyor, ama en azından temel düzeyde tablo hücresi tanıma var
- Değişken genişlikli sütunları veya karmaşık biçimde satır sonuna taşınmış metni iyi işliyor
- Tam hizalanmış metne gereksiz boşluklar ekliyor ve cümle ortasında sütun bölünmelerinde gereksiz satır sonları oluşturuyor
- En büyük sorun, başlıkları tamamen kaçırması
README'de LLM'den hiç bahsedilmemesi beklenmedik ama olumlu
- Kodu okumak ilginç
- Büyük kısmı tek bir 1101 satırlık dosyadaki glue code'dan oluşuyor
Çevrim içi dil dersinde ödevin Slack üzerinden teslim edildiği bir deneyim paylaşılmış
- Ödev .md dosyası olarak gönderilmiş, ancak öğretmen bunu anlayamamış
- O zamandan beri Word belgesini tercih eden biriyle karşılaşılacağı düşünülmemiş
docling ile karşılaştırma merakı var
- docling, LLM kullanıyor
Markdown'dan PDF veya .docx'e dönüştürmek için iyi bir kütüphane olup olmadığı merak ediliyor
- Pandoc çoğu durumda iş görüyor, ancak tablolar gibi bazı öğelerde zorlanıyor
Microsoft söz konusuysa, Outlook HTML ve .docx için yaklaşık yarı yarıya düzgün sonuç verebilir
- Çoğu ücretli çözüm de değerlendirilmiş, ancak hiçbirinin prodüksiyonda çalıştırılacak kadar iyi olduğu düşünülmemiş
- Bu araç denenecek

Microsoft MarkItDown - Dosya ve Office belgelerini Markdown'a dönüştüren Python aracı

İlgili okumalar

2 yorum

Hacker News görüşleri