- Büyük haber kuruluşları, yapay zeka eğitimi için veri toplanmasını engellemek amacıyla Internet Archive erişimini engelliyor veya kısıtlıyor
- The Guardian, makale sayfalarını Internet Archive API'si ve Wayback Machine'den çıkarırken, yalnızca bazı ana sayfa ve konu sayfalarını bırakıyor
- The New York Times, 2025 sonlarından itibaren robots.txt'ye archive.org_bot ekleyerek taramayı tamamen engelledi
- Gannett (USA Today Co.) dahil 241 haber sitesi, en az bir Internet Archive botunu engelledi; bunların çoğu Common Crawl, OpenAI ve Google AI'ı da birlikte engelliyor
- Bu adımlar, yapay zeka şirketlerinin verileri izinsiz kullanmasına karşı bir yanıt olmasının yanı sıra, dijital kayıtların korunması ile bilgiye erişim arasındaki denge sorununu da ortaya koyuyor
Başlıca medya kuruluşlarının Internet Archive erişim kısıtlamaları
- The Guardian, yapay zeka şirketlerinin Internet Archive üzerinden içerik toplama olasılığından endişe duyduğu için erişimi kısıtladı
- Kendi makale sayfalarını API ve Wayback Machine'in makale URL arayüzünden çıkardı
- Buna karşın yerel ana sayfalar ve konu sayfaları gibi bölümler Wayback Machine üzerinden hâlâ erişilebilir
- Robert Hahn, “Yapay zeka şirketleri yapılandırılmış veritabanlarını tercih ediyor ve Internet Archive'ın API'si bu yol olabilir” dedi
- The Guardian, tamamen engelleme yoluna gitmediğini ve Internet Archive'ın bilginin demokratikleşmesi misyonuna saygı duyduğunu belirtti
- Ancak gelecekte bot yönetimi politikalarını gözden geçirirken tutumunu yeniden değerlendirdiğini söyledi
The New York Times ve Financial Times'ın yaklaşımı
- The New York Times, archive.org_bot'u robots.txt'ye ekleyerek Internet Archive tarayıcılarını “hard block” ile engelledi
- Gazete, “Wayback Machine'in Times içeriğini yapay zeka şirketleri de dahil olmak üzere üçüncü taraflara sınırsız biçimde sunduğunu” belirtti
- Financial Times, ücretli içeriği korumak için OpenAI, Anthropic, Perplexity ve Internet Archive dahil ilgili tüm botları engelledi
- FT makalelerinin çoğu ücretli olduğundan, Wayback Machine'de yalnızca herkese açık makaleler kaldı
Reddit ile Internet Archive arasındaki gerilim
- Reddit, 2025 Ağustos'unda Internet Archive erişimini engelledi
- Gerekçe, yapay zeka şirketlerinin Wayback Machine üzerinden Reddit verilerini scrape etmesi oldu
- Reddit, bunu “platform politikalarını ihlal eden yapay zeka şirketlerinin faaliyetlerini önlemeye yönelik bir kısıtlama” olarak açıkladı
- Reddit'in, Google ile yapay zeka eğitimi için veri lisans anlaşması yaptığı biliniyor
Internet Archive'ın tutumu ve yanıtı
- Kurucu Brewster Kahle, “Yayıncılar Internet Archive gibi kütüphaneleri kısıtlarsa, kamunun tarihsel kayıtlara erişimi azalır” uyarısında bulundu
- Kahle, Mastodon'da “Bazı koleksiyonlarda toplu indirme yapılamıyor; ayrıca hız sınırlama, filtreleme ve Cloudflare güvenlik hizmetleri kullanıyoruz” dedi
- 2023 Mayıs'ında, bir yapay zeka şirketinin yoğun istekleri sunucularda aşırı yük oluşturarak Internet Archive'ın geçici olarak durmasına yol açtığı bir olay yaşandı
- Daha sonra ilgili şirket özür diledi ve bağış yaptı
Veri analizi: dünya genelinde haber sitelerindeki engelleme durumu
- Nieman Lab, Ben Welsh'in 1.167 haber sitesinden oluşan veritabanını analiz ederek Internet Archive ile ilgili engelleme durumunu inceledi
- 241 haber sitesi, en az bir Internet Archive botunu engelliyor
- Bunların %87'si USA Today Co. (Gannett) bünyesindeki yayınlardan oluşuyor; bu yayınlar 2025'te robots.txt dosyalarına archive.org_bot ve ia_archiver-web.archive.org ekledi
- Bazı Gannett siteleri, Wayback Machine'de “Bu URL hariç tutuldu” mesajını gösteriyor
- Gannett, “izinsiz veri toplamayı önlemek için yeni protokoller uyguladığını” söyledi ve 2025 Eylül ayında 75 milyon yapay zeka botunu engellediğini, bunların 70 milyonunun OpenAI kaynaklı olduğunu bildirdi
- Group Le Monde bünyesindeki Le Monde, Le Huffington Post dahil 3 site, Internet Archive'ın üç tarayıcısının tamamını engelledi
Yapay zeka ile ilişkili crawler engellemelerinin yayılması
- Sadece Internet Archive değil, Common Crawl, OpenAI ve Google AI gibi başlıca yapay zeka crawler'ları da giderek daha fazla engelleniyor
- 241 sitenin 240'ı Common Crawl'ı, 231'i ise OpenAI ve Google AI botlarını engelliyor
- Common Crawl'ın, ticari LLM geliştirmeyle bağlantısının özellikle güçlü olduğu değerlendiriliyor
İnternet arşivleme ile bilgiye erişim arasında denge sorunu
- Internet Archive, ABD'deki en kapsamlı web arşivleme projelerinden biri ve birçok haber kuruluşunun kendi arşivleme kapasitesi bulunmuyor
- 2025 Aralık ayında Poynter ile Internet Archive, yerel haberlerin korunmasına yönelik bir eğitim programını birlikte duyurdu
- Hahn, “Internet Archive iyi niyetle çalışıyor, ancak iyi niyetin kötüye kullanılmasının yan etkileri ortaya çıkıyor” dedi
1 yorum
Hacker News yorumları
AI scraping'e izin verip vermemeleri umurumda değil, ama içerik mutlaka haricen ve bağımsız biçimde arşivlenebilir olmalı
SOC 2 ve HIPAA gibi düzenlemeler audit trail ve kanıt saklamayı zorunlu kılıyor
Ama güvenlik belgeleri ya da olay müdahale raporları web'den kaybolduğunda, denetim kanıt zinciri kopuyor ve şirketlerin sertifikasyon denetiminden kaldığını gördüm
Sonuçta web'in arşivlenemez hale gelmesi, kültürel kaybın ötesinde bir operasyonel risk haline geliyor
AWS Compliance Reports sayfası tam böyle bir örnek
Basit bir log temizliği işi bile önem tartışmasına dönüşebiliyor
Birkaç büyük kayıp vakası yaşansın, gerçek olur
Son zamanlarda HN'de böyle hesaplar çoğaldı, bu da endişe verici
Sonuçta zarar, tüm web'i scrape edecek kaynağı olmayan sıradan kullanıcılara dokunuyor
Ben hep içeriğin hash tabanlı olarak yeniden host edildiği bir web hayal ettim — IPFS bunu denedi ama ne yazık ki başarılı olamadı
Ama Common Crawl varken AI şirketleri neden hâlâ doğrudan crawl etmeye devam ediyor, onu merak ediyorum
Ayrı bir arşivleme olmazsa medya kuruluşlarının haberleri de sonunda yok olup gidecek
Mesela bir Wikipedia editörü bir Times makalesinin bağlantısını güvenilir biçimde koruyamazsa, sonunda onu WaPo makalesiyle değiştirecek
İşte bu tam anlamıyla ortakların trajedisi
Ekiplerin harici servislere bağlı kalmadan URL'leri güvenilir biçimde saklamasına yardımcı olan bir araç
HTML snapshot, ekran görüntüsü, PDF, okuma görünümü gibi çeşitli formatlarda kayıt tutuyor
Bulut barındırmalı sürümü (linkwarden.app) ve self-hosted sürümü (GitHub deposu) var
Yalnız UX tarafında 'okundu/arşivlendi' işaretleme özelliği olsa güzel olur
Metadata hataları artıyor ve Google Scholar gibi bilimsel arama motorları da bozuluyor
Bazı büyük bilimsel yayıncılar da AI botlarını engelliyor gibi görünüyor
Tüm haber sitelerinin %20'si bu ikisini de engelliyor
Örneğin realtor.com'daki bu haber IA üzerinde 429 hatası verdiği için arşivlenemiyor
Sonuçta iyiler engelleniyor, kötüler kalıyor
Ama kişisel veri içeren sayfaların nasıl eleneceği ayrı bir sorun
AI şirketleri proxy kullanmaya başlayınca hedef dışı ülkelerin tamamını engelledim
İnternet hastalıklı bir ekosisteme dönüştü
Kurumsal model eğitimi için kesinlikle kullanılmaması şartıyla belki mümkün olabilir
Sorun şu ki LLM'ler değer zincirini emiyor ve geri dönen bir değer bırakmıyor
Yalnızca kullanıcının izin verdiği alan adlarını kaydeder ve açık kaynak olursa gizlilik kaygısı da azalır
Otomatik crawling değil, gerçek kullanıcıların görüntülemelerinin küçük bir kısmını yükleme modeli olur
Ama siteler kullanıcıyı tanımlayan bilgileri gizlice yerleştirebilir; bu da mahremiyet sızıntısı riski doğurur
Tarihsel kayıt olarak kullanılacaksa güvenilirliği sağlamak kolay değil