31 puan yazan GN⁺ 2024-12-14 | 2 yorum | WhatsApp'ta paylaş
  • Çeşitli dosyaları Markdown'a dönüştüren yardımcı araç
  • Desteklenen formatlar:
    • PDF (.pdf), PowerPoint (.pptx), Word (.docx), Excel (.xlsx)
    • Görseller (EXIF meta verisi ve OCR), ses dosyaları (EXIF meta verisi ve konuşmayı metne dönüştürme)
    • HTML (özellikle Wikipedia vb. için özel işleme) ve diğer çeşitli metin tabanlı formatlar (csv, json, xml vb.)
  • API kullanımı basittir:
    from markitdown import MarkItDown  
    markitdown = MarkItDown()  
    result = markitdown.convert("test.xlsx")  
    print(result.text_content)  
    

2 yorum

 
kandk 2024-12-16

Vay, demek ki bunu Microsoft içinde de açık kaynak haline getirmeyi düşünüyorlar galiba?

 
GN⁺ 2024-12-14
Hacker News görüşleri
  • uv yüklüyse, dosyalar için ayrıca kurulum yapmadan uvx markitdown path-to-file.pdf komutuyla çalıştırılabiliyor

    • İlk çalıştırmada gerekli paketleri önbelleğe alıyor, sonraki çalıştırmalarda ise önbelleğe alınan paketleri yeniden kullanıyor
    • HTML ve PDF üzerinde denendiğinde oldukça iyi performans gösteriyor
  • İş yerinde dosyaları LLM dostu metne dönüştüren bir özellik geliştirme deneyimi olmuş

    • Kaynak koda bakınca, bu uygulama oldukça makul görünüyor
    • Görseller veya elektronik tablolar için kullanmamak daha iyi
    • Görseller doğrudan LLM sağlayıcısına iletilebilir; elektronik tablolar ise Markdown tablolarını yorumlamada zayıf kalıyor
  • Birçok startup ve açık kaynak proje bu alanı karmaşık hale getiriyor, ancak nihai hedef anlaşılması ve dağıtılması kolay, basit bir proje

  • PDF işlemede "ne kadar işlem istediğinizi" ayarlayabilen bir özellik olması güzel olurdu

    • PDF'ler metin çıkarımı sırasında, PDF'nin dışa aktarılma biçimine duyarlı sezgisel yöntemler kullanmayı ya da tamamen OCR kullanmayı gerektiriyor
    • Projenin tek bir yönteme sabitlenmesi kullanışsız
    • Ses-metin özelliği, metin-metin özelliğinden farklı performans karakteristiklerine sahip olabileceği için kullanılmayacak
  • PDF işleme açısından PDFMiner'ı doğrudan entegre etmek daha iyi olabilir

  • .docx dosyaları Pandoc kullanılarak Markdown'a ve diğer dosya biçimlerine dönüştürülebilir

    • Pandoc, PowerPoint ve Excel dosyalarını dönüştüremiyor
  • Karmaşık görsel düzenlere ve çok sayıda tabloya sahip, PDF biçimindeki tabletop RPG kitaplarını indeksleme deneyimi paylaşılmış

    • Eğer bu sadece PDFMiner için bir sarmalayıcıysa, aracın ek değerini görmek zor
    • Tabloları tanımıyor ya da işlemiyor, ama en azından temel düzeyde tablo hücresi tanıma var
    • Değişken genişlikli sütunları veya karmaşık biçimde satır sonuna taşınmış metni iyi işliyor
    • Tam hizalanmış metne gereksiz boşluklar ekliyor ve cümle ortasında sütun bölünmelerinde gereksiz satır sonları oluşturuyor
    • En büyük sorun, başlıkları tamamen kaçırması
  • README'de LLM'den hiç bahsedilmemesi beklenmedik ama olumlu

    • Kodu okumak ilginç
    • Büyük kısmı tek bir 1101 satırlık dosyadaki glue code'dan oluşuyor
  • Çevrim içi dil dersinde ödevin Slack üzerinden teslim edildiği bir deneyim paylaşılmış

    • Ödev .md dosyası olarak gönderilmiş, ancak öğretmen bunu anlayamamış
    • O zamandan beri Word belgesini tercih eden biriyle karşılaşılacağı düşünülmemiş
  • docling ile karşılaştırma merakı var

    • docling, LLM kullanıyor
  • Markdown'dan PDF veya .docx'e dönüştürmek için iyi bir kütüphane olup olmadığı merak ediliyor

    • Pandoc çoğu durumda iş görüyor, ancak tablolar gibi bazı öğelerde zorlanıyor
  • Microsoft söz konusuysa, Outlook HTML ve .docx için yaklaşık yarı yarıya düzgün sonuç verebilir

    • Çoğu ücretli çözüm de değerlendirilmiş, ancak hiçbirinin prodüksiyonda çalıştırılacak kadar iyi olduğu düşünülmemiş
    • Bu araç denenecek