- Internet Archive tarafından işletilen Wayback Machine, dünya genelindeki web sayfalarından 1 trilyonunu koruma gibi tarihi bir dönüm noktasına ulaştı
- 1996’da başlayan bu proje, web’in kolektif hafızasını korumaya yönelik bir işbirliği olarak haberler, bloglar, kişisel ana sayfalar ve daha birçok içeriği arşivliyor
- Bunu kutlamak için Ekim ayı boyunca San Francisco’da ve çevrimiçi olarak konserler, söyleşiler, forumlar ve açık kapı etkinliklerinden oluşan bir dizi program düzenleniyor
- Etkinliklere web’in yaratıcısı Tim Berners-Lee, Internet Archive kurucusu Brewster Kahle, Google’dan Vint Cerf gibi internetin öncü isimleri katılıyor
- Bu başarı, dijital çağda kolektif kayıtların korunmasının değerini yeniden hatırlatırken, özgür ve açık web’in geleceğini birlikte tartışmak açısından da anlam taşıyor
Internet Archive’ın 1 trilyon sayfaya ulaşmasının anlamı
- Wayback Machine, 1996’dan bu yana dünya çapındaki web sitelerini otomatik olarak toplayıp koruyor ve herkesin geçmişteki web’i keşfetmesini sağlıyor
- 1 trilyonluk bu eşik, “insanlığın çevrimiçi tarihine ait ortak kütüphane” hedefinde büyük bir ilerleme anlamına geliyor
- Proje, kütüphaneler, araştırma kurumları ve gönüllü bireylerle kurulan küresel işbirliği sayesinde sürdürülüyor
- Arşiv; haber manşetleri, bloglar, forumlar ve kişisel ana sayfalar gibi yok olabilecek web izlerini gelecek nesiller için dijital hafıza olarak saklıyor
Ekim kutlama etkinlikleri takvimi
7 Ekim — The Vast Blue We: Del Sol Quartet at the Internet Archive
- San Francisco merkezinde, Del Sol Quartet performansıyla insan işbirliğinin büyüklüğünü kutlayan bir konser düzenlenecek
- Besteciler Erika Oba ve Sam Reider tarafından yeni bestelenen eserler seslendirilecek
- Milyarlarca bireyin eylemleriyle oluşan web işbirliğinin güzelliği müzikle ifade edilecek
9 Ekim — Sir Tim Berners-Lee ve Brewster Kahle söyleşisi
- World Wide Web’in yaratıcısı Sir Tim Berners-Lee ile Internet Archive kurucusu Brewster Kahle arasında bir söyleşi yapılacak
- İnternetin büyümesi, toplumsal değişim ve Internet Archive’ın rolü gibi çeşitli başlıklar ele alınacak
- Etkinlik, internetin süregelen gelişimi ve gelecekteki temel meseleler üzerine derinlemesine bir konuşmadan oluşacak
- San Francisco Commonwealth Club’da ve çevrimiçi canlı yayınla gerçekleştirilecek
16 Ekim — Library Leaders Forum 2025 (çevrimiçi)
- Internet Archive ve ortak kurumların yeni kütüphane hizmetleri ile mevcut projelerinin durumu paylaşılacak
- Dünyanın dört bir yanından kütüphane liderleri, dijital koruma ve araştırma desteğinin geleceğini tartışacak
- Internet Archive’ın yeni hizmetleri ve araştırma desteği örnekleri tanıtılacak
21 Ekim — Doors Open 2025: fiziksel arşiv turu
- California, Richmond’daki fiziksel arşivde kitap, müzik, video ve film gibi materyallerin gerçek saklama ortamı gösterilecek
- Kitaplar, müzik, filmler ve mikrofiş gibi materyaller için fiziksel arşivleme süreci uygulamalı olarak sergilenecek
- Bağış, koruma, dijitalleştirme ve erişilebilirlik dahil olmak üzere fiziksel materyallerin tüm yaşam döngüsünü doğrudan görme fırsatı sunulacak
22 Ekim — The Web We’ve Built: 1 Trillion Celebration
- Wayback Machine’in 1 trilyon web sayfasına ulaşmasını kutlayan resmî etkinlik düzenlenecek
- San Francisco merkezinde küresel streaming partisi ile eşzamanlı yapılacak
- “1 trilyon anı, an ve hareketin korunması” temasıyla
açık web’in değeri ve kolektif kayıtların gücü kutlanacak
27 Ekim — Wayback to the Future: Celebrating the Open Web
- Washington D.C.’deki Georgetown Üniversitesi Riggs Library’de düzenlenecek
- Foundation for American Innovation, Massive Data Institute, Internet Archive ortak ev sahipliği yapacak
- Geçmişin açık ve deneysel web’inin değeri hatırlatılırken, bugünün merkezileşme ve kapanma eğilimleri içinde özgür internet ekosisteminin sürdürülebilirliği ve web’in geleceği tartışılacak
- Vint Cerf (Google), Cindy Cohn (EFF), Jon Stokes (Ars Technica) gibi konuşmacılar katılacak
Dijital hafızanın geleceği
- 1 trilyon web sayfasının arşivlenmesi, basit bir sayıdan çok daha fazlasını ifade ediyor
- Bu veri, göç vakaları, kişisel tarih, akademik araştırma ve araştırmacı gazetecilik gibi birçok alanda Wayback Machine’in kamusal açıdan temel bir kaynak haline gelmesini sağlıyor
- Internet Archive, bundan sonra da “herkesin erişebileceği kamusal bir web kütüphanesi” vizyonunu sürdürmeyi amaçlıyor
- 1 trilyon sayfaya ulaşılması bir son değil, yeni bir başlangıç noktası olarak görülüyor
- Ayrıca yapay zeka çağında bilgiye erişim ve koruma yöntemlerine ilişkin tartışmaların da sürmesi bekleniyor
- Brewster Kahle, “Birlikte inşa ettiğimiz web, kolektif zekânın devasa bir kaydıdır ve bunu korumak insanlığın sorumluluğudur” diye vurguladı
1 yorum
Hacker News görüşleri
Tek bir dileğim olacaksa, o da archive.org için bir eşler arası mirror ağı olurdu; IA'nın web uygulaması birden fazla tarihe tıklamaya çalışınca bağlantıyı çabucak kısıtlama eğiliminde oluyor. Torrent benzeri bir yapıyla archive.org içeriğini yavaş ama dağıtık biçimde mirror'layan, kullanıcıların veriyi seçerek inceleyip doğrulayabileceği alternatif bir kaynak ortaya çıksa harika olurdu. Şu anda ArchiveBox ile kendi arşivimi işletiyorum ama yalnızca kişisel ihtiyaçlarım için kullanıyorum; çoğu şey için hâlâ IA'yı kullanıyorum, çünkü gerçekten çok fazla materyal var.
Archive Team, Internet Archive'dan ayrı olarak internet arşivinin bir bölümünü dağıtık biçimde yedeklemeye yönelik bir proje yürütmüştü. Ayrıntılar ve ilerleme durumu için INTERNETARCHIVE.BAK proje vikisine bakılabilir. Ancak son dönemde geçici olarak durdurulmuş durumda.
Web arşivinin gerçekten çok yavaş olabildiğini bizzat gördüm. Yapay zeka scraper'ları bant genişliğinde darboğaz yaratıyor gibi de görünüyor. Bazı dijital arşivlerde, Common Crawl'da olduğu gibi, erişim için ayrı bilim insanı hesapları gerekiyor. Veri miktarı çok büyük ve saklama hedefi de devasa; yalnızca interneti değil, zaman diye ek bir boyutu da saklıyor. Veri o kadar fazla ki gezinmek ve aramak aşırı zorlaşıyor, pratikte neredeyse kullanılamaz hâle geliyor. Bu yüzden alan adı bilgisi elde etmek için Internet-Places-Database metadata bağlantı projesini kendim yaptım.
Geçmişte bir scraping projesi yaparken eski snapshot'ları bulmaya çalışmıştım ve Internet Archive'dan veri çıkarmanın beklenmedik derecede zor olduğunu fark etmiştim. pywaybackup kullanınca durum belirgin biçimde iyileşti.
IA'nın neden bir IPFS instance'ı işletmediğini ya da işletiyorsa neden pek ilgi görmediğini merak ediyorum. IPFS mirror hizmetleri arasında zaten oldukça hızlı çalışan yerler var. IA'da yaşadığım sorunlardan biri, çok eski web sitelerinin bazen JS ya da CSS sorunları yüzünden düzgün render edilmemesi. Bunları sonradan düzeltmenin bir yolu olup olmadığını da düşünüyorum. O dönemde mümkün olan tüm kod dışa aktarılabilse site daha eksiksiz biçimde kurtarılabilirdi. IA'da bir alan adına tıkladığınızda masaüstü istemcisi düşük öncelikli bir kuyrukta istediğiniz WAR dosyalarını yavaş yavaş indirip çevrimdışıyken bile kusursuz görüntüleme sağlayabilse gerçekten harika olurdu.
Boş depolama alanını archive.org'a “bağışlama” sistemi tasarlamayı düşünmüştüm. İstemciyi çalıştırıp 1 TB vereceğinizi söylersiniz, sunucu da en nadir içeriği bilgisayarınıza gönderirdi. Yapı torrent tabanlı olurdu ve bunun üzerine kolay bir içerik aktarım sistemi de kurulabilirdi. Veriyi bu ağdan almak da mümkün olurdu. Birkaç arşiv ekibine e-posta attım ama kimse ilgi göstermedi, ben de sonunda yapmadım.
Internet Archive'da veri merkezi/altyapı ekibini yönetiyorum. Bu sonbaharda düzenlediğimiz çeşitli etkinliklere herkesi davet etmek isterim. Bilet ücreti sizi zorluyorsa lütfen e-postayla (profile bakın) iletişime geçin; katılım için elimizden geleni yapacağız.
IA ekibi etkinlikleri dünyanın farklı yerlerine dağıtarak mı yapıyor, yoksa SF'de toplanıp mı düzenliyor, merak ediyorum. Ayrıca insanlık için gerçekten önemli bir iş yaptığınız için teşekkürler.
IA'da çalışmak istemiştim ama işe alım fırsatları gerçekten çok seyrek.
Bu başarının arkasındaki teknik hikâyeleri merak ediyorum; örneğin web crawling yöntemleri ya da depolama biçimi gibi teknik ayrıntıları duymak isterim.
Tam olarak ne tür etkinlikler olduğunu merak ediyorum.
1 trilyon web sayfasını arşivlemek inanılmaz bir başarı. Ama... bunu aramanın bir yolu yok. Sonuçta URL'yi biliyorsanız doğrudan girip bulabiliyorsunuz, bu da hizmetin faydasını ciddi biçimde azaltıyor. Örneğin belirli bir sanatçı adını, dosya adını ya da görsel içeriğini bütünüyle arayabilmek güzel olurdu.
Bunun tamamını indekslemek tam bir kâbus olurdu herhâlde.
Bunun Kagi gibi bir yerde mümkün olduğunu hatırlıyorum ama şimdi nerede kullanıldığını bulamıyorum.
Bu süreçte gizlilik sorunlarını da düşünmek gerekir. robots.txt kuralları fiilen anlamsız hâle gelir ve sitelerin silinmesi de geriye dönük olarak neredeyse imkânsız olur. Sonuçta kamuya açık içerik olduğu için engellemeye çalışsanız da çok şey değişmiyor ama IA'nın tamamını aranabilir kılmak gerçekten kötü bir fikir.
Bazen ders kitaplarını IA'da bulması için GPT web aramasını kullanıyorum. Ders kitabı aramasında iyi iş çıkarıyor ama genel web sayfalarında ne kadar işe yaradığını bilmiyorum.
IA'ya ek materyal sağlamak istiyorsanız ilgili gönüllü grup ArchiveTeam'dir. IA'ya veri gönderen taraf onlar; daha fazla bilgi için archiveteam.org adresine bakabilirsiniz.
Bence Internet Archive, yapay zeka şirketleriyle büyük anlaşmalar yapmalı... Mesela, tüm verinin bulunduğu bir kamyonu yapay zeka şirketine veririz, karşılığında da IA'nın önümüzdeki birkaç yıl faaliyet göstermesini sağlayacak ciddi bir bağış isteriz. Para vermezlerse erişime yine izin verilir ama indirme hızı aşırı düşürülür ve tüm veriyi almak yıllar sürer.
Internet Archive ile Common Crawl'un hiç iş birliği yapıp yapmadığını merak ediyorum. İki kurumun kapsamını ve altyapısını karşılaştırmak isterim. Amaçları farklı olsa da pratikte benzer işler yapıyorlar.
Bu hafta düzenlenen fiziksel etkinlikte sahne alacak sanatçı Sam Reider gerçekten harika, çok heyecanlıyım.
Yani sonuçta tüm web'i kendiniz crawl etmeden de Archive'e para ödeyerek tüm veriyi elde etmek mümkün mü, diye merak ediyorum.
İlgili blog yazısında anılar toplanıyor, ilgilenenler bakabilir
https://blog.archive.org/2025/09/23/celebrating-1-trillion-webpages-archived-share-your-wayback-story/
İnternet tarihi açısından gerçekten muazzam bir kilometre taşı.