Doğru yerleşim/bölüm türlerinin çıkarılması (biçimlendirme)
Mevcut açık kaynak araçlar (Trafilatura, Newspaper4k, python-readability vb.) belli bir seviyenin üzerinde performans gösteriyor. Farklılaşma noktalarının veya geliştirme alanlarının ne olduğu merak ediliyor
Çerez mesajı çıkan sitelerde, gerçek içerik yerine yalnızca çerezle ilgili içeriğin parse edilmesi sorunu var (ör: cnbc.com)
GPT kullanarak görsel indirme ve filtreleme gibi fikirler iyi bulunuyor
Benzer araçlara örnekler:
url2text.com: JS ile render edilen HTML, metadata, ekran görüntüsü vb. birlikte çıkarılabiliyor
firecrawl.dev: Tek bir sayfa değil, sitenin tamamını crawl etme işlevi de sunuyor
substack-ai.vercel.app: Substack bülten içeriklerini çıkarmaya özel
content-parser.com: Markdown, HTML, metin, PDF vb. çeşitli formatları destekliyor
pandoc gibi genel amaçlı belge dönüştürme araçlarıyla da benzer işlevler gerçekleştirilebilir
Araçların çoğu Mozilla'nın readability projesi kullanılarak geliştirilmiş
1 yorum
Hacker News görüşleri
Özetle şöyle:
Trafilatura,Newspaper4k,python-readabilityvb.) belli bir seviyenin üzerinde performans gösteriyor. Farklılaşma noktalarının veya geliştirme alanlarının ne olduğu merak ediliyorcnbc.com)url2text.com: JS ile render edilen HTML, metadata, ekran görüntüsü vb. birlikte çıkarılabiliyorfirecrawl.dev: Tek bir sayfa değil, sitenin tamamını crawl etme işlevi de sunuyorsubstack-ai.vercel.app: Substack bülten içeriklerini çıkarmaya özelcontent-parser.com: Markdown, HTML, metin, PDF vb. çeşitli formatları destekliyorpandocgibi genel amaçlı belge dönüştürme araçlarıyla da benzer işlevler gerçekleştirilebilirreadabilityprojesi kullanılarak geliştirilmiş