2 puan yazan GN⁺ 2026-02-15 | 1 yorum | WhatsApp'ta paylaş
  • Büyük haber kuruluşları, yapay zeka eğitimi için veri toplanmasını engellemek amacıyla Internet Archive erişimini engelliyor veya kısıtlıyor
  • The Guardian, makale sayfalarını Internet Archive API'si ve Wayback Machine'den çıkarırken, yalnızca bazı ana sayfa ve konu sayfalarını bırakıyor
  • The New York Times, 2025 sonlarından itibaren robots.txt'ye archive.org_bot ekleyerek taramayı tamamen engelledi
  • Gannett (USA Today Co.) dahil 241 haber sitesi, en az bir Internet Archive botunu engelledi; bunların çoğu Common Crawl, OpenAI ve Google AI'ı da birlikte engelliyor
  • Bu adımlar, yapay zeka şirketlerinin verileri izinsiz kullanmasına karşı bir yanıt olmasının yanı sıra, dijital kayıtların korunması ile bilgiye erişim arasındaki denge sorununu da ortaya koyuyor

Başlıca medya kuruluşlarının Internet Archive erişim kısıtlamaları

  • The Guardian, yapay zeka şirketlerinin Internet Archive üzerinden içerik toplama olasılığından endişe duyduğu için erişimi kısıtladı
    • Kendi makale sayfalarını API ve Wayback Machine'in makale URL arayüzünden çıkardı
    • Buna karşın yerel ana sayfalar ve konu sayfaları gibi bölümler Wayback Machine üzerinden hâlâ erişilebilir
    • Robert Hahn, “Yapay zeka şirketleri yapılandırılmış veritabanlarını tercih ediyor ve Internet Archive'ın API'si bu yol olabilir” dedi
  • The Guardian, tamamen engelleme yoluna gitmediğini ve Internet Archive'ın bilginin demokratikleşmesi misyonuna saygı duyduğunu belirtti
    • Ancak gelecekte bot yönetimi politikalarını gözden geçirirken tutumunu yeniden değerlendirdiğini söyledi

The New York Times ve Financial Times'ın yaklaşımı

  • The New York Times, archive.org_bot'u robots.txt'ye ekleyerek Internet Archive tarayıcılarını “hard block” ile engelledi
    • Gazete, “Wayback Machine'in Times içeriğini yapay zeka şirketleri de dahil olmak üzere üçüncü taraflara sınırsız biçimde sunduğunu” belirtti
  • Financial Times, ücretli içeriği korumak için OpenAI, Anthropic, Perplexity ve Internet Archive dahil ilgili tüm botları engelledi
    • FT makalelerinin çoğu ücretli olduğundan, Wayback Machine'de yalnızca herkese açık makaleler kaldı

Reddit ile Internet Archive arasındaki gerilim

  • Reddit, 2025 Ağustos'unda Internet Archive erişimini engelledi
    • Gerekçe, yapay zeka şirketlerinin Wayback Machine üzerinden Reddit verilerini scrape etmesi oldu
    • Reddit, bunu “platform politikalarını ihlal eden yapay zeka şirketlerinin faaliyetlerini önlemeye yönelik bir kısıtlama” olarak açıkladı
  • Reddit'in, Google ile yapay zeka eğitimi için veri lisans anlaşması yaptığı biliniyor

Internet Archive'ın tutumu ve yanıtı

  • Kurucu Brewster Kahle, “Yayıncılar Internet Archive gibi kütüphaneleri kısıtlarsa, kamunun tarihsel kayıtlara erişimi azalır” uyarısında bulundu
  • Kahle, Mastodon'da “Bazı koleksiyonlarda toplu indirme yapılamıyor; ayrıca hız sınırlama, filtreleme ve Cloudflare güvenlik hizmetleri kullanıyoruz” dedi
  • 2023 Mayıs'ında, bir yapay zeka şirketinin yoğun istekleri sunucularda aşırı yük oluşturarak Internet Archive'ın geçici olarak durmasına yol açtığı bir olay yaşandı
    • Daha sonra ilgili şirket özür diledi ve bağış yaptı

Veri analizi: dünya genelinde haber sitelerindeki engelleme durumu

  • Nieman Lab, Ben Welsh'in 1.167 haber sitesinden oluşan veritabanını analiz ederek Internet Archive ile ilgili engelleme durumunu inceledi
    • 241 haber sitesi, en az bir Internet Archive botunu engelliyor
    • Bunların %87'si USA Today Co. (Gannett) bünyesindeki yayınlardan oluşuyor; bu yayınlar 2025'te robots.txt dosyalarına archive.org_bot ve ia_archiver-web.archive.org ekledi
    • Bazı Gannett siteleri, Wayback Machine'de “Bu URL hariç tutuldu” mesajını gösteriyor
  • Gannett, “izinsiz veri toplamayı önlemek için yeni protokoller uyguladığını” söyledi ve 2025 Eylül ayında 75 milyon yapay zeka botunu engellediğini, bunların 70 milyonunun OpenAI kaynaklı olduğunu bildirdi
  • Group Le Monde bünyesindeki Le Monde, Le Huffington Post dahil 3 site, Internet Archive'ın üç tarayıcısının tamamını engelledi

Yapay zeka ile ilişkili crawler engellemelerinin yayılması

  • Sadece Internet Archive değil, Common Crawl, OpenAI ve Google AI gibi başlıca yapay zeka crawler'ları da giderek daha fazla engelleniyor
    • 241 sitenin 240'ı Common Crawl'ı, 231'i ise OpenAI ve Google AI botlarını engelliyor
  • Common Crawl'ın, ticari LLM geliştirmeyle bağlantısının özellikle güçlü olduğu değerlendiriliyor

İnternet arşivleme ile bilgiye erişim arasında denge sorunu

  • Internet Archive, ABD'deki en kapsamlı web arşivleme projelerinden biri ve birçok haber kuruluşunun kendi arşivleme kapasitesi bulunmuyor
  • 2025 Aralık ayında Poynter ile Internet Archive, yerel haberlerin korunmasına yönelik bir eğitim programını birlikte duyurdu
  • Hahn, “Internet Archive iyi niyetle çalışıyor, ancak iyi niyetin kötüye kullanılmasının yan etkileri ortaya çıkıyor” dedi

1 yorum

 
GN⁺ 2026-02-15
Hacker News yorumları
  • Bağımsız arşivlemeyi reddeden bir medya kuruluşunun haberlerine güvenemem
    AI scraping'e izin verip vermemeleri umurumda değil, ama içerik mutlaka haricen ve bağımsız biçimde arşivlenebilir olmalı
    • Ben de aynı fikirdeyim. Bağımsız kayıt tutma şart
    • Güvenilir tek bir haber kaynağı yokmuş gibi geliyor. Çoğu kasıtlı bir ajandayı iteliyor ve artık bunu gizleme gereği de duymuyor
  • Bu meselenin bir de compliance (mevzuata uyum) tarafı var
    SOC 2 ve HIPAA gibi düzenlemeler audit trail ve kanıt saklamayı zorunlu kılıyor
    Ama güvenlik belgeleri ya da olay müdahale raporları web'den kaybolduğunda, denetim kanıt zinciri kopuyor ve şirketlerin sertifikasyon denetiminden kaldığını gördüm
    Sonuçta web'in arşivlenemez hale gelmesi, kültürel kaybın ötesinde bir operasyonel risk haline geliyor
    • Örnek aradım, ilk sonuç bile 404'tü
      AWS Compliance Reports sayfası tam böyle bir örnek
    • Büyük finans şirketlerinde birkaç kez SOC denetiminden geçtim; hangi işin 'kritik' sayılacağını tanımlarken departmanlar arasında ciddi çatışmalar oluyordu
      Basit bir log temizliği işi bile önem tartışmasına dönüşebiliyor
    • Sonunda sigorta şirketleri bu tür sorunlardan kaçınmak için belgelerin kağıt kopyalarını saklamayı şart koşacak gibi geliyor
      Birkaç büyük kayıp vakası yaşansın, gerçek olur
    • Page Vault gibi şirketler zaten tam da bu sorunu çözmek için var
    • Ama bu yorumu yazan kişinin bir AI araç hesabı gibi göründüğüne dair şüphe de var
      Son zamanlarda HN'de böyle hesaplar çoğaldı, bu da endişe verici
  • AI şirketleri Internet Archive'ı bir kez taramak yerine residential proxy kullanıp siteleri tekrar tekrar tarayacak gibi görünüyor
    Sonuçta zarar, tüm web'i scrape edecek kaynağı olmayan sıradan kullanıcılara dokunuyor
    Ben hep içeriğin hash tabanlı olarak yeniden host edildiği bir web hayal ettim — IPFS bunu denedi ama ne yazık ki başarılı olamadı
    • Gerçekte AI şirketleri aynı sayfayı tekrar tekrar scrape ediyor. Kişisel sitemde hiçbir değişiklik olmasa bile sürekli istek geliyor
    • IPFS böyle bir yapıyı hedefleyen bir projeydi
    • Vietnam ve Kore'den gelen proxy trafiği sunucumu çökertiyor. Saniyede 3500 isteği kaldırmak imkansız
    • AI şirketleri zaten enfekte cihazlar veya uygulamalar üzerinden kurulan proxy ağlarını kullanıyor
    • Bu tür proxy'lerin uzun ömürlü olacağını sanmıyorum. Ticari baskıyla azalacaklardır
      Ama Common Crawl varken AI şirketleri neden hâlâ doğrudan crawl etmeye devam ediyor, onu merak ediyorum
  • Brewster'ın tarihsel kayıtların korunmasına dair kaygısı gayet gerçekçi
    Ayrı bir arşivleme olmazsa medya kuruluşlarının haberleri de sonunda yok olup gidecek
    Mesela bir Wikipedia editörü bir Times makalesinin bağlantısını güvenilir biçimde koruyamazsa, sonunda onu WaPo makalesiyle değiştirecek
    İşte bu tam anlamıyla ortakların trajedisi
  • Linkwarden adlı bir açık kaynak projeyi yürütüyorum
    Ekiplerin harici servislere bağlı kalmadan URL'leri güvenilir biçimde saklamasına yardımcı olan bir araç
    HTML snapshot, ekran görüntüsü, PDF, okuma görünümü gibi çeşitli formatlarda kayıt tutuyor
    Bulut barındırmalı sürümü (linkwarden.app) ve self-hosted sürümü (GitHub deposu) var
    • Linkwarden harika. SingleFile eklentisiyle birlikte kullanınca scraper'ların engellendiği sayfalar bile kaydedilebiliyor
      Yalnız UX tarafında 'okundu/arşivlendi' işaretleme özelliği olsa güzel olur
    • archive.org ile entegrasyonunun nasıl çalıştığını merak ediyorum. Sadece URL mi gönderiliyor, yoksa istemcide çekilen veri doğrudan mı saklanıyor?
  • Bu sorun bilim dünyasını da etkiliyor
    Metadata hataları artıyor ve Google Scholar gibi bilimsel arama motorları da bozuluyor
    Bazı büyük bilimsel yayıncılar da AI botlarını engelliyor gibi görünüyor
    • Üstelik Google'ın kendi arama kalitesi de çöktü. Sanki bilgi ufku giderek daralıyor
    • Kamu fonuyla üretilen bilimsel sonuçları AI engelleri yüzünden erişilemez kılmak, kamu yararına zarar veriyor
    • Yine de PubMed ve doğru arama operatörleri sayesinde şimdilik idare ediyoruz
  • The Guardian ve NYT gibi yayıncılar Internet Archive ve Common Crawl'ı engelliyor
    Tüm haber sitelerinin %20'si bu ikisini de engelliyor
    Örneğin realtor.com'daki bu haber IA üzerinde 429 hatası verdiği için arşivlenemiyor
    • IA istek geldiğinde arşivlemeyi durduruyor ama kötü niyetli scraper'lar bunu yapmıyor
      Sonuçta iyiler engelleniyor, kötüler kalıyor
    • The Guardian'ın gerçekten IA'yı engelleyip engellemediğine dair kanıt istendi. Doğrudan kontrol edildiğinde düzgün çalışıyordu
    • Tarayıcı eklentisi tabanlı, crowdsourced bir arşiv olsa güzel olurdu diye düşünüyorum
      Ama kişisel veri içeren sayfaların nasıl eleneceği ayrı bir sorun
  • İlk izlenimim, haber şirketlerinin telif meseleleri için AI'ı bahane ettiği yönünde
    • Bir site yöneticisi olarak trafiğimin %90'ından fazlası bot ve spam
      AI şirketleri proxy kullanmaya başlayınca hedef dışı ülkelerin tamamını engelledim
      İnternet hastalıklı bir ekosisteme dönüştü
  • Medya kuruluşlarının akademik ve gazetecilik araştırmaları için kapalı arşivlere daha sıcak bakıp bakmayacağını merak ediyorum
    Kurumsal model eğitimi için kesinlikle kullanılmaması şartıyla belki mümkün olabilir
    • Zaten kütüphanelere ücretli lisanslı arşivler sunuyorlar. Suistimali önlemek mümkün
    • Çoğu medya kuruluşunun içerik dağıtım anlaşmaları (syndication) var
      Sorun şu ki LLM'ler değer zincirini emiyor ve geri dönen bir değer bırakmıyor
    • Muhtemelen içeride kendi arşivleri vardır, ama mesele kamusal erişilebilirlik
  • Kullanıcının gördüğü sayfayı otomatik olarak arşive gönderen bir crowdsourced tarayıcı eklentisi fikri aklıma geldi
    Yalnızca kullanıcının izin verdiği alan adlarını kaydeder ve açık kaynak olursa gizlilik kaygısı da azalır
    Otomatik crawling değil, gerçek kullanıcıların görüntülemelerinin küçük bir kısmını yükleme modeli olur
    • SingleFile bu tür arşivlemeyi oldukça iyi yapıyor
      Ama siteler kullanıcıyı tanımlayan bilgileri gizlice yerleştirebilir; bu da mahremiyet sızıntısı riski doğurur
    • Bir diğer sorun da kullanıcının gönderdiği verinin manipüle edilmediğini garanti etmenin zor olması
      Tarihsel kayıt olarak kullanılacaksa güvenilirliği sağlamak kolay değil