Haber kuruluşları, yapay zeka scraping endişeleri nedeniyle Internet Archive erişimini kısıtlıyor

(niemanlab.org)

2 puan yazan GN⁺ 2026-02-15 | 1 yorum | WhatsApp'ta paylaş

Büyük haber kuruluşları, yapay zeka eğitimi için veri toplanmasını engellemek amacıyla Internet Archive erişimini engelliyor veya kısıtlıyor
The Guardian, makale sayfalarını Internet Archive API'si ve Wayback Machine'den çıkarırken, yalnızca bazı ana sayfa ve konu sayfalarını bırakıyor
The New York Times, 2025 sonlarından itibaren robots.txt'ye archive.org_bot ekleyerek taramayı tamamen engelledi
Gannett (USA Today Co.) dahil 241 haber sitesi, en az bir Internet Archive botunu engelledi; bunların çoğu Common Crawl, OpenAI ve Google AI'ı da birlikte engelliyor
Bu adımlar, yapay zeka şirketlerinin verileri izinsiz kullanmasına karşı bir yanıt olmasının yanı sıra, dijital kayıtların korunması ile bilgiye erişim arasındaki denge sorununu da ortaya koyuyor

Başlıca medya kuruluşlarının Internet Archive erişim kısıtlamaları

The Guardian, yapay zeka şirketlerinin Internet Archive üzerinden içerik toplama olasılığından endişe duyduğu için erişimi kısıtladı
- Kendi makale sayfalarını API ve Wayback Machine'in makale URL arayüzünden çıkardı
- Buna karşın yerel ana sayfalar ve konu sayfaları gibi bölümler Wayback Machine üzerinden hâlâ erişilebilir
- Robert Hahn, “Yapay zeka şirketleri yapılandırılmış veritabanlarını tercih ediyor ve Internet Archive'ın API'si bu yol olabilir” dedi
The Guardian, tamamen engelleme yoluna gitmediğini ve Internet Archive'ın bilginin demokratikleşmesi misyonuna saygı duyduğunu belirtti
- Ancak gelecekte bot yönetimi politikalarını gözden geçirirken tutumunu yeniden değerlendirdiğini söyledi

The New York Times ve Financial Times'ın yaklaşımı

The New York Times, archive.org_bot'u robots.txt'ye ekleyerek Internet Archive tarayıcılarını “hard block” ile engelledi
- Gazete, “Wayback Machine'in Times içeriğini yapay zeka şirketleri de dahil olmak üzere üçüncü taraflara sınırsız biçimde sunduğunu” belirtti
Financial Times, ücretli içeriği korumak için OpenAI, Anthropic, Perplexity ve Internet Archive dahil ilgili tüm botları engelledi
- FT makalelerinin çoğu ücretli olduğundan, Wayback Machine'de yalnızca herkese açık makaleler kaldı

Reddit ile Internet Archive arasındaki gerilim

Reddit, 2025 Ağustos'unda Internet Archive erişimini engelledi
- Gerekçe, yapay zeka şirketlerinin Wayback Machine üzerinden Reddit verilerini scrape etmesi oldu
- Reddit, bunu “platform politikalarını ihlal eden yapay zeka şirketlerinin faaliyetlerini önlemeye yönelik bir kısıtlama” olarak açıkladı
Reddit'in, Google ile yapay zeka eğitimi için veri lisans anlaşması yaptığı biliniyor

Internet Archive'ın tutumu ve yanıtı

Kurucu Brewster Kahle, “Yayıncılar Internet Archive gibi kütüphaneleri kısıtlarsa, kamunun tarihsel kayıtlara erişimi azalır” uyarısında bulundu
Kahle, Mastodon'da “Bazı koleksiyonlarda toplu indirme yapılamıyor; ayrıca hız sınırlama, filtreleme ve Cloudflare güvenlik hizmetleri kullanıyoruz” dedi
2023 Mayıs'ında, bir yapay zeka şirketinin yoğun istekleri sunucularda aşırı yük oluşturarak Internet Archive'ın geçici olarak durmasına yol açtığı bir olay yaşandı
- Daha sonra ilgili şirket özür diledi ve bağış yaptı

Veri analizi: dünya genelinde haber sitelerindeki engelleme durumu

Nieman Lab, Ben Welsh'in 1.167 haber sitesinden oluşan veritabanını analiz ederek Internet Archive ile ilgili engelleme durumunu inceledi
- 241 haber sitesi, en az bir Internet Archive botunu engelliyor
- Bunların %87'si USA Today Co. (Gannett) bünyesindeki yayınlardan oluşuyor; bu yayınlar 2025'te robots.txt dosyalarına archive.org_bot ve ia_archiver-web.archive.org ekledi
- Bazı Gannett siteleri, Wayback Machine'de “Bu URL hariç tutuldu” mesajını gösteriyor
Gannett, “izinsiz veri toplamayı önlemek için yeni protokoller uyguladığını” söyledi ve 2025 Eylül ayında 75 milyon yapay zeka botunu engellediğini, bunların 70 milyonunun OpenAI kaynaklı olduğunu bildirdi
Group Le Monde bünyesindeki Le Monde, Le Huffington Post dahil 3 site, Internet Archive'ın üç tarayıcısının tamamını engelledi

Yapay zeka ile ilişkili crawler engellemelerinin yayılması

Sadece Internet Archive değil, Common Crawl, OpenAI ve Google AI gibi başlıca yapay zeka crawler'ları da giderek daha fazla engelleniyor
- 241 sitenin 240'ı Common Crawl'ı, 231'i ise OpenAI ve Google AI botlarını engelliyor
Common Crawl'ın, ticari LLM geliştirmeyle bağlantısının özellikle güçlü olduğu değerlendiriliyor

İnternet arşivleme ile bilgiye erişim arasında denge sorunu

Internet Archive, ABD'deki en kapsamlı web arşivleme projelerinden biri ve birçok haber kuruluşunun kendi arşivleme kapasitesi bulunmuyor
2025 Aralık ayında Poynter ile Internet Archive, yerel haberlerin korunmasına yönelik bir eğitim programını birlikte duyurdu
Hahn, “Internet Archive iyi niyetle çalışıyor, ancak iyi niyetin kötüye kullanılmasının yan etkileri ortaya çıkıyor” dedi

1 yorum

GN⁺ 2026-02-15

Hacker News yorumları

Bağımsız arşivlemeyi reddeden bir medya kuruluşunun haberlerine güvenemem
AI scraping'e izin verip vermemeleri umurumda değil, ama içerik mutlaka haricen ve bağımsız biçimde arşivlenebilir olmalı
- Ben de aynı fikirdeyim. Bağımsız kayıt tutma şart
- Güvenilir tek bir haber kaynağı yokmuş gibi geliyor. Çoğu kasıtlı bir ajandayı iteliyor ve artık bunu gizleme gereği de duymuyor
Bu meselenin bir de compliance (mevzuata uyum) tarafı var
SOC 2 ve HIPAA gibi düzenlemeler audit trail ve kanıt saklamayı zorunlu kılıyor
Ama güvenlik belgeleri ya da olay müdahale raporları web'den kaybolduğunda, denetim kanıt zinciri kopuyor ve şirketlerin sertifikasyon denetiminden kaldığını gördüm
Sonuçta web'in arşivlenemez hale gelmesi, kültürel kaybın ötesinde bir operasyonel risk haline geliyor
- Örnek aradım, ilk sonuç bile 404'tü
  AWS Compliance Reports sayfası tam böyle bir örnek
- Büyük finans şirketlerinde birkaç kez SOC denetiminden geçtim; hangi işin 'kritik' sayılacağını tanımlarken departmanlar arasında ciddi çatışmalar oluyordu
  Basit bir log temizliği işi bile önem tartışmasına dönüşebiliyor
- Sonunda sigorta şirketleri bu tür sorunlardan kaçınmak için belgelerin kağıt kopyalarını saklamayı şart koşacak gibi geliyor
  Birkaç büyük kayıp vakası yaşansın, gerçek olur
- Page Vault gibi şirketler zaten tam da bu sorunu çözmek için var
- Ama bu yorumu yazan kişinin bir AI araç hesabı gibi göründüğüne dair şüphe de var
  Son zamanlarda HN'de böyle hesaplar çoğaldı, bu da endişe verici
AI şirketleri Internet Archive'ı bir kez taramak yerine residential proxy kullanıp siteleri tekrar tekrar tarayacak gibi görünüyor
Sonuçta zarar, tüm web'i scrape edecek kaynağı olmayan sıradan kullanıcılara dokunuyor
Ben hep içeriğin hash tabanlı olarak yeniden host edildiği bir web hayal ettim — IPFS bunu denedi ama ne yazık ki başarılı olamadı
- Gerçekte AI şirketleri aynı sayfayı tekrar tekrar scrape ediyor. Kişisel sitemde hiçbir değişiklik olmasa bile sürekli istek geliyor
- IPFS böyle bir yapıyı hedefleyen bir projeydi
- Vietnam ve Kore'den gelen proxy trafiği sunucumu çökertiyor. Saniyede 3500 isteği kaldırmak imkansız
- AI şirketleri zaten enfekte cihazlar veya uygulamalar üzerinden kurulan proxy ağlarını kullanıyor
- Bu tür proxy'lerin uzun ömürlü olacağını sanmıyorum. Ticari baskıyla azalacaklardır
  Ama Common Crawl varken AI şirketleri neden hâlâ doğrudan crawl etmeye devam ediyor, onu merak ediyorum
Brewster'ın tarihsel kayıtların korunmasına dair kaygısı gayet gerçekçi
Ayrı bir arşivleme olmazsa medya kuruluşlarının haberleri de sonunda yok olup gidecek
Mesela bir Wikipedia editörü bir Times makalesinin bağlantısını güvenilir biçimde koruyamazsa, sonunda onu WaPo makalesiyle değiştirecek
İşte bu tam anlamıyla ortakların trajedisi
Linkwarden adlı bir açık kaynak projeyi yürütüyorum
Ekiplerin harici servislere bağlı kalmadan URL'leri güvenilir biçimde saklamasına yardımcı olan bir araç
HTML snapshot, ekran görüntüsü, PDF, okuma görünümü gibi çeşitli formatlarda kayıt tutuyor
Bulut barındırmalı sürümü (linkwarden.app) ve self-hosted sürümü (GitHub deposu) var
- Linkwarden harika. SingleFile eklentisiyle birlikte kullanınca scraper'ların engellendiği sayfalar bile kaydedilebiliyor
  Yalnız UX tarafında 'okundu/arşivlendi' işaretleme özelliği olsa güzel olur
- archive.org ile entegrasyonunun nasıl çalıştığını merak ediyorum. Sadece URL mi gönderiliyor, yoksa istemcide çekilen veri doğrudan mı saklanıyor?
Bu sorun bilim dünyasını da etkiliyor
Metadata hataları artıyor ve Google Scholar gibi bilimsel arama motorları da bozuluyor
Bazı büyük bilimsel yayıncılar da AI botlarını engelliyor gibi görünüyor
- Üstelik Google'ın kendi arama kalitesi de çöktü. Sanki bilgi ufku giderek daralıyor
- Kamu fonuyla üretilen bilimsel sonuçları AI engelleri yüzünden erişilemez kılmak, kamu yararına zarar veriyor
- Yine de PubMed ve doğru arama operatörleri sayesinde şimdilik idare ediyoruz
The Guardian ve NYT gibi yayıncılar Internet Archive ve Common Crawl'ı engelliyor
Tüm haber sitelerinin %20'si bu ikisini de engelliyor
Örneğin realtor.com'daki bu haber IA üzerinde 429 hatası verdiği için arşivlenemiyor
- IA istek geldiğinde arşivlemeyi durduruyor ama kötü niyetli scraper'lar bunu yapmıyor
  Sonuçta iyiler engelleniyor, kötüler kalıyor
- The Guardian'ın gerçekten IA'yı engelleyip engellemediğine dair kanıt istendi. Doğrudan kontrol edildiğinde düzgün çalışıyordu
- Tarayıcı eklentisi tabanlı, crowdsourced bir arşiv olsa güzel olurdu diye düşünüyorum
  Ama kişisel veri içeren sayfaların nasıl eleneceği ayrı bir sorun
İlk izlenimim, haber şirketlerinin telif meseleleri için AI'ı bahane ettiği yönünde
- Bir site yöneticisi olarak trafiğimin %90'ından fazlası bot ve spam
  AI şirketleri proxy kullanmaya başlayınca hedef dışı ülkelerin tamamını engelledim
  İnternet hastalıklı bir ekosisteme dönüştü
Medya kuruluşlarının akademik ve gazetecilik araştırmaları için kapalı arşivlere daha sıcak bakıp bakmayacağını merak ediyorum
Kurumsal model eğitimi için kesinlikle kullanılmaması şartıyla belki mümkün olabilir
- Zaten kütüphanelere ücretli lisanslı arşivler sunuyorlar. Suistimali önlemek mümkün
- Çoğu medya kuruluşunun içerik dağıtım anlaşmaları (syndication) var
  Sorun şu ki LLM'ler değer zincirini emiyor ve geri dönen bir değer bırakmıyor
- Muhtemelen içeride kendi arşivleri vardır, ama mesele kamusal erişilebilirlik
Kullanıcının gördüğü sayfayı otomatik olarak arşive gönderen bir crowdsourced tarayıcı eklentisi fikri aklıma geldi
Yalnızca kullanıcının izin verdiği alan adlarını kaydeder ve açık kaynak olursa gizlilik kaygısı da azalır
Otomatik crawling değil, gerçek kullanıcıların görüntülemelerinin küçük bir kısmını yükleme modeli olur
- SingleFile bu tür arşivlemeyi oldukça iyi yapıyor
  Ama siteler kullanıcıyı tanımlayan bilgileri gizlice yerleştirebilir; bu da mahremiyet sızıntısı riski doğurur
- Bir diğer sorun da kullanıcının gönderdiği verinin manipüle edilmediğini garanti etmenin zor olması
  Tarihsel kayıt olarak kullanılacaksa güvenilirliği sağlamak kolay değil

Haber kuruluşları, yapay zeka scraping endişeleri nedeniyle Internet Archive erişimini kısıtlıyor

Başlıca medya kuruluşlarının Internet Archive erişim kısıtlamaları

The New York Times ve Financial Times'ın yaklaşımı

Reddit ile Internet Archive arasındaki gerilim

Internet Archive'ın tutumu ve yanıtı

Veri analizi: dünya genelinde haber sitelerindeki engelleme durumu

Yapay zeka ile ilişkili crawler engellemelerinin yayılması

İnternet arşivleme ile bilgiye erişim arasında denge sorunu

İlgili okumalar

1 yorum

Hacker News yorumları