9 puan yazan GN⁺ 2024-11-10 | 1 yorum | WhatsApp'ta paylaş
  • HTML'i temiz ve okunabilir Markdown'a dönüştüren güçlü bir araç
  • Karmaşık biçimlendirmeyi destekler; özel seçenekler ve eklentiler aracılığıyla dönüştürme süreci üzerinde tam kontrol sağlar
  • Golang kütüphanesi veya CLI komutlarını kullanabilir ya da çevrimiçi demo ve REST API üzerinden doğrudan deneyebilirsiniz

Başlıca özellikler

  • Bold & Italic: Kelime içinde bile kalın ve italik biçimlendirmeyi destekler
  • List: Sıralı ve sırasız listelerde kusursuz iç içe geçmeyi destekler
  • Blockquote: Alıntıların içinde başka öğeler bulunabilir ve iç içe alıntılar da sorunsuz desteklenir
  • Inline Code & Code Block: Backtick'leri ve çok satırlı kod bloklarını doğru şekilde işleyerek kod yapısını korur
  • Link & Image: Çok satırlı bağlantıları doğru biçimlendirir ve boş satırlar için escape ekler
  • Smart Escaping: Özel karakterleri yalnızca gerektiğinde escape ederek istenmeyen Markdown render edilmesini önler
  • Remove/Keep HTML: Belirli HTML etiketlerini kaldırma veya koruma seçeneği sunar
  • Plugin: Eklentileri kolayca genişletebilir veya işlevleri geliştirmek için özel eklentiler oluşturabilirsiniz
    • Özel mantık gerektiğinde kod yazıp kaydedebilirsiniz
    • Varsayılan ayarlar hoşunuza gitmiyorsa, mantığın diğerlerinden önce çalışması için PriorityEarly kullanabilirsiniz
  • Converter birden fazla goroutine içinde kullanılabilir ve dahili olarak mutex kullanır

1 yorum

 
GN⁺ 2024-11-10
Hacker News görüşleri
  • Jina.ai'nin ücretsiz API'si kullanılarak kimlik doğrulama veya API anahtarı olmadan bir URL alınabiliyor ve Markdown belgesi elde edilebiliyor

    • Bazı web sitelerini işleyemese de, çoğu durumda işin %90'ını halledebiliyor
    • HTML'i Markdown'a dönüştürmek için Pandoc kullanılabiliyor
  • MIT lisanslı bu aracın, Kindle'da okumak için p2k ve Instapaper gibi seçeneklere alternatif olup olamayacağını merak ediyorum

    • Bu tür servislerde render doğruluğu düşük oluyor ve abonelik ücreti talep ediliyor
    • Proje aktif olarak bakım görürse, çeşitli makalelerle test edip sorun bildirebilirim
  • Bu kütüphaneyi bir Lambda fonksiyonunda kullanarak URL'leri Markdown'a dönüştürüyor ve S3'e kaydediyorum

    • Tüm yer imi uygulamalarıma webhook ile bağlayıp yer imlerine eklediğim her şeyi Markdown olarak saklıyorum
    • Obsidian'a aktarması kolay oluyor
  • LLM'lere web sayfası verisi sağlamak için faydalı

    • Elixir ekosistemi için benzer ama sınırlı bir araç yapmıştım
    • Buradaki fikri ödünç alabilirim
  • Araçta n-gram tekrarlarını kaldırma özelliği olsa iyi olurdu

    • Header ve footer'daki aynı içeriği temizlemeye yönelik bir işlev gerekli
  • Urlbox kullanarak web sayfasının birebir ekran görüntüsünü ve Markdown çıktısını almak mümkün

    • Bu özelliği ücretsiz araçlarla kullanabiliyorsunuz
  • RedditToMarkdown ve urltomarkdown.com, LLM ve AI uygulamaları geliştirmek için faydalı

  • Kotlin/Spring uygulamasında kullanmak için benzer bir kütüphane arıyorum

    • HTML'den Markdown'a dönüştürürken HTML belge string'i zaten temizlenmiş durumda
  • Bu tür araçları kullanırken zorluklardan biri, sözdizimi vurgulu kod bloklarını işlemek

    • html-to-markdown'ın bu senaryolarda nasıl davrandığını merak ediyorum