Internet Archive’ta 1 trilyon web sayfası arşivlendi

(blog.archive.org)

4 puan yazan GN⁺ 2025-10-07 | 1 yorum | WhatsApp'ta paylaş

Internet Archive tarafından işletilen Wayback Machine, dünya genelindeki web sayfalarından 1 trilyonunu koruma gibi tarihi bir dönüm noktasına ulaştı
1996’da başlayan bu proje, web’in kolektif hafızasını korumaya yönelik bir işbirliği olarak haberler, bloglar, kişisel ana sayfalar ve daha birçok içeriği arşivliyor
Bunu kutlamak için Ekim ayı boyunca San Francisco’da ve çevrimiçi olarak konserler, söyleşiler, forumlar ve açık kapı etkinliklerinden oluşan bir dizi program düzenleniyor
Etkinliklere web’in yaratıcısı Tim Berners-Lee, Internet Archive kurucusu Brewster Kahle, Google’dan Vint Cerf gibi internetin öncü isimleri katılıyor
Bu başarı, dijital çağda kolektif kayıtların korunmasının değerini yeniden hatırlatırken, özgür ve açık web’in geleceğini birlikte tartışmak açısından da anlam taşıyor

Internet Archive’ın 1 trilyon sayfaya ulaşmasının anlamı

Wayback Machine, 1996’dan bu yana dünya çapındaki web sitelerini otomatik olarak toplayıp koruyor ve herkesin geçmişteki web’i keşfetmesini sağlıyor
1 trilyonluk bu eşik, “insanlığın çevrimiçi tarihine ait ortak kütüphane” hedefinde büyük bir ilerleme anlamına geliyor
Proje, kütüphaneler, araştırma kurumları ve gönüllü bireylerle kurulan küresel işbirliği sayesinde sürdürülüyor
Arşiv; haber manşetleri, bloglar, forumlar ve kişisel ana sayfalar gibi yok olabilecek web izlerini gelecek nesiller için dijital hafıza olarak saklıyor

Ekim kutlama etkinlikleri takvimi

7 Ekim — The Vast Blue We: Del Sol Quartet at the Internet Archive

San Francisco merkezinde, Del Sol Quartet performansıyla insan işbirliğinin büyüklüğünü kutlayan bir konser düzenlenecek
Besteciler Erika Oba ve Sam Reider tarafından yeni bestelenen eserler seslendirilecek
- Milyarlarca bireyin eylemleriyle oluşan web işbirliğinin güzelliği müzikle ifade edilecek

9 Ekim — Sir Tim Berners-Lee ve Brewster Kahle söyleşisi

World Wide Web’in yaratıcısı Sir Tim Berners-Lee ile Internet Archive kurucusu Brewster Kahle arasında bir söyleşi yapılacak
İnternetin büyümesi, toplumsal değişim ve Internet Archive’ın rolü gibi çeşitli başlıklar ele alınacak
Etkinlik, internetin süregelen gelişimi ve gelecekteki temel meseleler üzerine derinlemesine bir konuşmadan oluşacak
San Francisco Commonwealth Club’da ve çevrimiçi canlı yayınla gerçekleştirilecek

16 Ekim — Library Leaders Forum 2025 (çevrimiçi)

Internet Archive ve ortak kurumların yeni kütüphane hizmetleri ile mevcut projelerinin durumu paylaşılacak
Dünyanın dört bir yanından kütüphane liderleri, dijital koruma ve araştırma desteğinin geleceğini tartışacak
Internet Archive’ın yeni hizmetleri ve araştırma desteği örnekleri tanıtılacak

21 Ekim — Doors Open 2025: fiziksel arşiv turu

California, Richmond’daki fiziksel arşivde kitap, müzik, video ve film gibi materyallerin gerçek saklama ortamı gösterilecek
Kitaplar, müzik, filmler ve mikrofiş gibi materyaller için fiziksel arşivleme süreci uygulamalı olarak sergilenecek
Bağış, koruma, dijitalleştirme ve erişilebilirlik dahil olmak üzere fiziksel materyallerin tüm yaşam döngüsünü doğrudan görme fırsatı sunulacak

22 Ekim — The Web We’ve Built: 1 Trillion Celebration

Wayback Machine’in 1 trilyon web sayfasına ulaşmasını kutlayan resmî etkinlik düzenlenecek
San Francisco merkezinde küresel streaming partisi ile eşzamanlı yapılacak
“1 trilyon anı, an ve hareketin korunması” temasıyla
açık web’in değeri ve kolektif kayıtların gücü kutlanacak

27 Ekim — Wayback to the Future: Celebrating the Open Web

Washington D.C.’deki Georgetown Üniversitesi Riggs Library’de düzenlenecek
Foundation for American Innovation, Massive Data Institute, Internet Archive ortak ev sahipliği yapacak
Geçmişin açık ve deneysel web’inin değeri hatırlatılırken, bugünün merkezileşme ve kapanma eğilimleri içinde özgür internet ekosisteminin sürdürülebilirliği ve web’in geleceği tartışılacak
Vint Cerf (Google), Cindy Cohn (EFF), Jon Stokes (Ars Technica) gibi konuşmacılar katılacak

Dijital hafızanın geleceği

1 trilyon web sayfasının arşivlenmesi, basit bir sayıdan çok daha fazlasını ifade ediyor
Bu veri, göç vakaları, kişisel tarih, akademik araştırma ve araştırmacı gazetecilik gibi birçok alanda Wayback Machine’in kamusal açıdan temel bir kaynak haline gelmesini sağlıyor
Internet Archive, bundan sonra da “herkesin erişebileceği kamusal bir web kütüphanesi” vizyonunu sürdürmeyi amaçlıyor
1 trilyon sayfaya ulaşılması bir son değil, yeni bir başlangıç noktası olarak görülüyor
Ayrıca yapay zeka çağında bilgiye erişim ve koruma yöntemlerine ilişkin tartışmaların da sürmesi bekleniyor
Brewster Kahle, “Birlikte inşa ettiğimiz web, kolektif zekânın devasa bir kaydıdır ve bunu korumak insanlığın sorumluluğudur” diye vurguladı

1 yorum

GN⁺ 2025-10-07

Hacker News görüşleri

Tek bir dileğim olacaksa, o da archive.org için bir eşler arası mirror ağı olurdu; IA'nın web uygulaması birden fazla tarihe tıklamaya çalışınca bağlantıyı çabucak kısıtlama eğiliminde oluyor. Torrent benzeri bir yapıyla archive.org içeriğini yavaş ama dağıtık biçimde mirror'layan, kullanıcıların veriyi seçerek inceleyip doğrulayabileceği alternatif bir kaynak ortaya çıksa harika olurdu. Şu anda ArchiveBox ile kendi arşivimi işletiyorum ama yalnızca kişisel ihtiyaçlarım için kullanıyorum; çoğu şey için hâlâ IA'yı kullanıyorum, çünkü gerçekten çok fazla materyal var.
- Archive Team, Internet Archive'dan ayrı olarak internet arşivinin bir bölümünü dağıtık biçimde yedeklemeye yönelik bir proje yürütmüştü. Ayrıntılar ve ilerleme durumu için INTERNETARCHIVE.BAK proje vikisine bakılabilir. Ancak son dönemde geçici olarak durdurulmuş durumda.
- Web arşivinin gerçekten çok yavaş olabildiğini bizzat gördüm. Yapay zeka scraper'ları bant genişliğinde darboğaz yaratıyor gibi de görünüyor. Bazı dijital arşivlerde, Common Crawl'da olduğu gibi, erişim için ayrı bilim insanı hesapları gerekiyor. Veri miktarı çok büyük ve saklama hedefi de devasa; yalnızca interneti değil, zaman diye ek bir boyutu da saklıyor. Veri o kadar fazla ki gezinmek ve aramak aşırı zorlaşıyor, pratikte neredeyse kullanılamaz hâle geliyor. Bu yüzden alan adı bilgisi elde etmek için Internet-Places-Database metadata bağlantı projesini kendim yaptım.
- Geçmişte bir scraping projesi yaparken eski snapshot'ları bulmaya çalışmıştım ve Internet Archive'dan veri çıkarmanın beklenmedik derecede zor olduğunu fark etmiştim. pywaybackup kullanınca durum belirgin biçimde iyileşti.
- IA'nın neden bir IPFS instance'ı işletmediğini ya da işletiyorsa neden pek ilgi görmediğini merak ediyorum. IPFS mirror hizmetleri arasında zaten oldukça hızlı çalışan yerler var. IA'da yaşadığım sorunlardan biri, çok eski web sitelerinin bazen JS ya da CSS sorunları yüzünden düzgün render edilmemesi. Bunları sonradan düzeltmenin bir yolu olup olmadığını da düşünüyorum. O dönemde mümkün olan tüm kod dışa aktarılabilse site daha eksiksiz biçimde kurtarılabilirdi. IA'da bir alan adına tıkladığınızda masaüstü istemcisi düşük öncelikli bir kuyrukta istediğiniz WAR dosyalarını yavaş yavaş indirip çevrimdışıyken bile kusursuz görüntüleme sağlayabilse gerçekten harika olurdu.
- Boş depolama alanını archive.org'a “bağışlama” sistemi tasarlamayı düşünmüştüm. İstemciyi çalıştırıp 1 TB vereceğinizi söylersiniz, sunucu da en nadir içeriği bilgisayarınıza gönderirdi. Yapı torrent tabanlı olurdu ve bunun üzerine kolay bir içerik aktarım sistemi de kurulabilirdi. Veriyi bu ağdan almak da mümkün olurdu. Birkaç arşiv ekibine e-posta attım ama kimse ilgi göstermedi, ben de sonunda yapmadım.
Internet Archive'da veri merkezi/altyapı ekibini yönetiyorum. Bu sonbaharda düzenlediğimiz çeşitli etkinliklere herkesi davet etmek isterim. Bilet ücreti sizi zorluyorsa lütfen e-postayla (profile bakın) iletişime geçin; katılım için elimizden geleni yapacağız.
- IA ekibi etkinlikleri dünyanın farklı yerlerine dağıtarak mı yapıyor, yoksa SF'de toplanıp mı düzenliyor, merak ediyorum. Ayrıca insanlık için gerçekten önemli bir iş yaptığınız için teşekkürler.
- IA'da çalışmak istemiştim ama işe alım fırsatları gerçekten çok seyrek.
- Bu başarının arkasındaki teknik hikâyeleri merak ediyorum; örneğin web crawling yöntemleri ya da depolama biçimi gibi teknik ayrıntıları duymak isterim.
- Tam olarak ne tür etkinlikler olduğunu merak ediyorum.
1 trilyon web sayfasını arşivlemek inanılmaz bir başarı. Ama... bunu aramanın bir yolu yok. Sonuçta URL'yi biliyorsanız doğrudan girip bulabiliyorsunuz, bu da hizmetin faydasını ciddi biçimde azaltıyor. Örneğin belirli bir sanatçı adını, dosya adını ya da görsel içeriğini bütünüyle arayabilmek güzel olurdu.
- Bunun tamamını indekslemek tam bir kâbus olurdu herhâlde.
- Bunun Kagi gibi bir yerde mümkün olduğunu hatırlıyorum ama şimdi nerede kullanıldığını bulamıyorum.
- Bu süreçte gizlilik sorunlarını da düşünmek gerekir. robots.txt kuralları fiilen anlamsız hâle gelir ve sitelerin silinmesi de geriye dönük olarak neredeyse imkânsız olur. Sonuçta kamuya açık içerik olduğu için engellemeye çalışsanız da çok şey değişmiyor ama IA'nın tamamını aranabilir kılmak gerçekten kötü bir fikir.
- Bazen ders kitaplarını IA'da bulması için GPT web aramasını kullanıyorum. Ders kitabı aramasında iyi iş çıkarıyor ama genel web sayfalarında ne kadar işe yaradığını bilmiyorum.
IA'ya ek materyal sağlamak istiyorsanız ilgili gönüllü grup ArchiveTeam'dir. IA'ya veri gönderen taraf onlar; daha fazla bilgi için archiveteam.org adresine bakabilirsiniz.
- Neyin korunmaya değer olduğuna birilerinin insan olarak karar vermesi gerekecek. Birinin IA'yı gezi fotoğrafları için ücretsiz depolama alanı gibi kullanmasını engellemek istiyorsanız filtre gerekir.
Bence Internet Archive, yapay zeka şirketleriyle büyük anlaşmalar yapmalı... Mesela, tüm verinin bulunduğu bir kamyonu yapay zeka şirketine veririz, karşılığında da IA'nın önümüzdeki birkaç yıl faaliyet göstermesini sağlayacak ciddi bir bağış isteriz. Para vermezlerse erişime yine izin verilir ama indirme hızı aşırı düşürülür ve tüm veriyi almak yıllar sürer.
- Bu, bugüne kadar oluşturdukları kamusal fayda güvenini zedelerdi. Çoğu insan ürettiği içeriğin IA tarafından korunmasına tamam der ama bundan para kazanmaya başlarlarsa kesinlikle büyük bir tepki doğar.
Internet Archive ile Common Crawl'un hiç iş birliği yapıp yapmadığını merak ediyorum. İki kurumun kapsamını ve altyapısını karşılaştırmak isterim. Amaçları farklı olsa da pratikte benzer işler yapıyorlar.
- IA, CC tarafından toplanan WARC'ler de dâhil olmak üzere ArchiveTeam gibi çeşitli gruplardan veri kabul ediyor.
Bu hafta düzenlenen fiziksel etkinlikte sahne alacak sanatçı Sam Reider gerçekten harika, çok heyecanlıyım.
Yani sonuçta tüm web'i kendiniz crawl etmeden de Archive'e para ödeyerek tüm veriyi elde etmek mümkün mü, diye merak ediyorum.
İlgili blog yazısında anılar toplanıyor, ilgilenenler bakabilir
https://blog.archive.org/2025/09/23/celebrating-1-trillion-webpages-archived-share-your-wayback-story/
İnternet tarihi açısından gerçekten muazzam bir kilometre taşı.

Internet Archive’ta 1 trilyon web sayfası arşivlendi

Internet Archive’ın 1 trilyon sayfaya ulaşmasının anlamı

Ekim kutlama etkinlikleri takvimi

7 Ekim — The Vast Blue We: Del Sol Quartet at the Internet Archive

9 Ekim — Sir Tim Berners-Lee ve Brewster Kahle söyleşisi

16 Ekim — Library Leaders Forum 2025 (çevrimiçi)

21 Ekim — Doors Open 2025: fiziksel arşiv turu

22 Ekim — The Web We’ve Built: 1 Trillion Celebration

27 Ekim — Wayback to the Future: Celebrating the Open Web

Dijital hafızanın geleceği

İlgili okumalar

1 yorum

Hacker News görüşleri