1 yorum

 
GN⁺ 2024-04-15
Hacker News görüşleri

Özetle şöyle:

  • Web sayfalarını Markdown'a dönüştüren bir araç geliştirirken yük yönetimi ve ücretsiz hizmetin sürdürülebilirliği gibi konular üzerine düşünülüyor
  • Web sayfasını Markdown'a dönüştürürken önemli sorunlar şunlar:
    1. Sayfa içeriğinin kapsamlı biçimde scrape edilmesi (yüksek recall)
    2. Reklamların/yardımcı içeriğin kaldırılması (yüksek precision)
    3. Doğru yerleşim/bölüm türlerinin çıkarılması (biçimlendirme)
  • Mevcut açık kaynak araçlar (Trafilatura, Newspaper4k, python-readability vb.) belli bir seviyenin üzerinde performans gösteriyor. Farklılaşma noktalarının veya geliştirme alanlarının ne olduğu merak ediliyor
  • Çerez mesajı çıkan sitelerde, gerçek içerik yerine yalnızca çerezle ilgili içeriğin parse edilmesi sorunu var (ör: cnbc.com)
  • GPT kullanarak görsel indirme ve filtreleme gibi fikirler iyi bulunuyor
  • Benzer araçlara örnekler:
    • url2text.com: JS ile render edilen HTML, metadata, ekran görüntüsü vb. birlikte çıkarılabiliyor
    • firecrawl.dev: Tek bir sayfa değil, sitenin tamamını crawl etme işlevi de sunuyor
    • substack-ai.vercel.app: Substack bülten içeriklerini çıkarmaya özel
    • content-parser.com: Markdown, HTML, metin, PDF vb. çeşitli formatları destekliyor
  • pandoc gibi genel amaçlı belge dönüştürme araçlarıyla da benzer işlevler gerçekleştirilebilir
  • Araçların çoğu Mozilla'nın readability projesi kullanılarak geliştirilmiş