3 puan yazan GN⁺ 2025-08-18 | 1 yorum | WhatsApp'ta paylaş
  • ArchiveTeam, tüm goo.gl kısaltılmış bağlantılarını başarıyla arşivledi
  • ArchiveTeam Warrior adlı sanal arşivleme programı sayesinde herkes arşiv projesine katılabilir
  • Bu Warrior, Windows, OS X, Linux ortamlarında ek bir risk olmadan çalıştırılabilir
  • Kullanıcılar basit ayarlarla proje seçip etkinliklere katılabilir
  • Özel teknik bilgi gerektirmeden arşiv çalışmalarına yardımcı olmayı sağlayan kolay ve sezgisel bir yöntem sunar

ArchiveTeam Warrior'a giriş

  • ArchiveTeam Warrior, herkesin kolayca kullanabileceği bir sanal arşivleme appliance'ıdır
  • Kullanıcılar Warrior'u çalıştırarak web siteleri ve benzerlerini indirebilir ve bunları ArchiveTeam arşivine yükleme sürecine katkı sağlayabilir
  • Warrior, gerçek bilgisayar ortamına risk vermez ve yalnızca internet bant genişliği ile az miktarda disk alanı kullanır
  • Windows, OS X ve Linux'u destekler; VirtualBox, VMware gibi sanal makine programları gerekir

VirtualBox ile kullanım

  • Warrior appliance'ını (357MB) indirin
  • VirtualBox'ta File > Import Appliance menüsüne tıklayıp indirilen dosyayı içe aktarın
  • Sanal makineyi başlattığınızda en güncel güncellemeleri otomatik alır ve web tarayıcısını kullanma isteğinde bulunur

Warrior çalıştırıldıktan sonraki süreç

  • adresine girip Settings sayfasını kontrol edin
  • Leaderboard'da ilerlemenin görünmesi için bir kullanıcı adı seçin
  • All projects sekmesinden istediğiniz projeyi seçerek katılın; en acil projeye katılmak için ArchiveTeam’s Choice seçeneğini de kullanabilirsiniz

Katılımın faydaları

  • Özel teknik bilgi veya karmaşık süreçler olmadan herkes arşiv projelerine kolayca katkıda bulunabilir
  • Kullanıcının arşiv katkı geçmişi leaderboard'da görünür; bu da motivasyon ve iş birliği etkisi sağlar

1 yorum

 
GN⁺ 2025-08-18
Hacker News yorumları
  • ArchiveTeam böyle projeler yaptığında her seferinde gerçekten hayran kalıyorum. Birkaç yıl önce çalıştığım video platformu yakında hizmeti sonlandıracağını açıkladığında ArchiveTeam'den biriyle bağlantı kurmuştum; verileri koruma çalışmasıyla ilgilendiklerini duydum. Ona biraz tavsiye verdim (arşivleme sırasında sorun çıkarabilecek sunucu endpoint'leri hakkında) ve birkaç EC2 instance'ımı geçici olarak ödünç verdim. Sunucular bana ait olduğu için neler olduğunu görebiliyordum; 2 dakika içinde instance'lar tamamen hazır hale geldi ve hızla videoları arşivlemeye başladılar, her instance da çakışma olmadan farklı videoları verimli biçimde indiriyordu. ArchiveTeam'in misyonu zaten çok iyi ama işi yürütme verimlilikleri gerçekten etkileyici.

  • Başlık doğru değil. Aslında Archiveteam.org, Archive.org değil. The Internet Archive depolama alanı sağlıyor ama asıl arşivleme işini Archiveteam üyeleri yapıyor.

    • Archiveteam'in katkısının tam olarak ne olduğunu merak ediyorum. Pek anlayamadım. Sonuçta arşivlenecek hedef ile arşiv sunucusu arasında aslında gereksiz bir aracı gibi görünüyor. Acaba kaçırdığım bir şey mi var?
  • Bununla ilgili bir şey paylaşmak istiyorum: "Link çürümesine karşı savaşa katılın" (bağlantı), Google'ın goo.gl politika değişikliği hakkında çeşitli HN tartışma başlıkları (2018~2025 ilgili yazılar derlemesi, burada, burada, burada, burada, burada, burada). Çeşitli tartışmalar var, umarım faydalı olur.

  • Google'ın son güncellemesini paylaşıyorum: Google blog güncellemesi bağlantısı

    • Ah, Google gibi hiç güven vermeyen bir şirketten gelen son derece güvenilmez bilgi olarak gördüğüm için bu "güncelleme"ye de hiç güvenmiyorum.
    • Google'ın duyurusuna göre kısaltılmış bağlantılar (goo.gl bağlantıları) "25 Ağustos'tan sonra çalışmayacak ve başka bir URL kısaltma hizmetine geçmeniz önerilir" deniyor; o zaman bazı bağlantıları bırakmanın anlamı kalmıyor, öyle değil mi? Zaten belgelere gömülü olup değiştirilemeyen kısaltılmış bağlantılar sonuçta tamamen kopmuş olmayacak mı?
    • Sonuçta bunun ne anlamı olduğunu merak ediyorum. Zaten neredeyse hiç kullanılmayan (veya düşük etkinlikli) eski bağlantılar için yönlendirmeyi sürdürmenin maliyeti çok yüksek olmasa gerek; neden illa kapatmak gerekiyor anlamıyorum (bu tür politika değişikliğiyle sadece yüksek trafikli bağlantıları yönlendirmeye devam etmek de dahil).
    • Bunu pek anlamıyorum. Tüm veritabanını saklamak gerçekten bu kadar büyük bir maliyet mi, merak ediyorum. Neticede bir kısmını yine saklamak zorundalar.
  • reddit ya da twitter'ın tamamını arşivleyen biri var mı? Her ne kadar şartları artık buna izin vermeyecek şekilde değişmiş olsa da merak ediyorum.

    • reddit için eskiden Pushshift diye bir proje vardı. reddit API'si değişmeden önce bu veriler the-eye adlı başka bir veri arşivleme/koruma grubu üzerinden indirilebiliyordu. twitter tarafında ise bildiğim kadarıyla yok. Ayrıca Wayback Machine'in tweet arşivleyememesi de zaten yıllardır süren bir durum.
    • Academictorrents üzerinden, API kısıtlamalarından sonra bile reddit'in tüm submission ve comment verilerinin aylık dump'larını alabiliyorsunuz.
    • OpenAI'ye sormak da bir seçenek.
  • Sayfayı pek anlayamadım. Bir veri kümesi listesi (muhtemelen?) yayınlanmış ve boyut 91 TiB'e kadar çıkıyor gibi görünüyor. Sadece Google kısa bağlantıları ve hedef URL listesi için 91 TiB gerekmesi pek olası gelmiyor. Nasıl çalıştığını bilen var mı?

    • Hızlı bir hesap yaptım. Google aramasından rastgele seçtiğim bir URL 705 bayttı, goo.gl kısa bağlantısı 22 bayt, yalnızca basit ID tutulursa 6 bayt ediyor. Kısa ya da uzun örnekler olabilir ama kabaca hesaplayınca bunun on milyarlarca ila trilyonlarca URL'ye denk gelen bir hacim olduğu görülüyor.
  • Bu arşivleme işine az da olsa katkıda bulunabildiğim için mutluyum.

    • Ben de adımı liderlik tablosunda görünce sevindim. Aslında yaptığım tek şey bir günlüğüne docker container kurup sonra unutmak oldu.
  • Ne kadar çok bağlantının özel YouTube videolarına ya da Google dokümanlarına gittiğini merak ediyorum.

    • İçimden "artık indirip kendim arama yapabilirim" diye şaka yapacaktım ama aslında burada görüldüğü gibi "Access-restricted-item: true" şeklinde erişim kısıtlaması var. Ayrıca 10GB'lık parçalar halinde sunuluyor.
  • "all" ifadesinin gerçekten herkese açık tüm URL'leri mi kastettiğini, yoksa URL ad alanının tamamının tekrarlı biçimde denenmiş olduğunu mu merak ediyorum.

    • Aslında yöntem, gönüllülerin IP engeline takılmadan tüm URL ad alanını tekrar tekrar denemek için istemciyi bizzat çalıştırmasıydı.
    • Herkese açık goo.gl URL'leri zaten Internet Archive ve Common Crawl taramalarına dahil edilmiş durumda.