ArchiveBox - Self-hosted web arşivleme aracı
(archivebox.io)- Tüm web sitelerini çevrimdışı görüntülenebilecek şekilde kaydeden açık kaynaklı bir araç
- Manuel olarak eklenen URL’lerden, tarayıcı geçmişinden (eklenti desteğiyle), yer imlerinden, RSS, Pocket/Pinboard vb. kaynaklardan içe aktarım yaparak HTML/JS/PDF/medya gibi içerikleri kaydeder
- Tek tek eklenebilir veya düzenli içe aktarım için zamanlanabilir
- Linux, macOS, Windows (WSL2) üzerine kurulabilir ya da Docker ile çalıştırılabilir; ardından CLI aracı, web uygulaması, Python kütüphanesi veya tek seferlik komutlarla kullanılabilir
- URL anlık görüntülerini çeşitli yedekli formatlarda saklar ve sayfada yer alan tüm içeriği algılayıp klasör olarak dışa çıkarır
- HTML/tüm web siteleri: orijinal HTML+CSS+JS, singlefile HTML, PNG ekran görüntüsü, PDF, WARC, başlık, içerik metni, favicon, headers, …
- Sosyal medya/haber: makale içeriği TXT, yorumlar, başlık, kayıtlar, görseller, …
- YouTube/SoundCloud/vb.: MP3/MP4’ler, altyazılar, metadata, küçük resimler, …
- Github/Gitlab/vb. bağlantıları: GIT kaynak kod klonu, README, görseller, …
- Ayrı bir format kullanmadan Chrome, wget, yt-dlp gibi standart araçlarla verileri normal dosya/klasör yapısında kaydeder. Yani ArchiveBox olmadan da tüm veriler okunabilir
- Kaydedilen URL’leri archive.org’a göndererek ayrıca kaydetme isteği oluşturur (çift arşivleme için, yalnızca yerel modda devre dışı bırakılabilir)
3 yorum
Bu aralar Obsidian’ı denerken Instapaper -> Obsidian eklentisiyle markdown olarak kaydetmeyi deniyorum ama nedense içerikleri pek temiz şekilde çekemiyor.
AWS Lambda üzerinde bir Go-Readability örneği ayağa kaldırmıştım ama üşenip bırakmıştım; sanırım bunun gibi araçlarla iyi entegre olan bir şeyler var mı diye bakmam gerekecek. Teşekkürler!
Arşivleme anahtar kelimesini görünce daha yakından bakıyorum. Geçmiş GeekNews yazıları arasında bununla ilgili olanlar şunlar.
Ah, Shori'nin GeekNews bağlantısı https://tr.news.hada.io/topic?id=577 .