İnternet Archive’ı engellemek yapay zekayı durdurmaz, ama web’in tarihsel kaydını siler

(eff.org)

6 puan yazan GN⁺ 2026-03-22 | 1 yorum | WhatsApp'ta paylaş

1990’ların ortalarından bu yana web’i ve gazeteleri koruyan Internet Archive, Wayback Machine aracılığıyla 1 trilyondan fazla web sayfasını saklıyor
Son dönemde The New York Times ve The Guardian gibi büyük medya kuruluşları, yapay zeka scraping’i endişeleri nedeniyle arşivin taranmasını engellemeye başladı
Bu tür adımlar, web’in tarihsel kaydında kopuşa yol açıyor ve haberlerde yapılan düzeltme ya da silme işlemlerinden önce ve sonraki değişimleri doğrulamayı mümkün kılan tek kayıtların kaybolması riskini doğuruyor
Yapay zeka eğitimiyle ilgili hukuki ihtilaflardan ayrı olarak, kâr amacı gütmeyen bir koruma kurumunu engellemenin kamu yararına zarar verdiği belirtiliyor
Arama ve web arşivleme zaten fair use kapsamında hukuken meşru kabul edilen alanlar; bunların engellenmesi, gelecekteki araştırmacıların web’in tarihsel kayıtlarını kaybetmesine yol açabilir

İnternet Archive’ı engellemek yapay zekayı durdurmaz, ama web’in tarihsel kaydını siler

Internet Archive, 1990’ların ortalarından bu yana web’i ve gazeteleri koruyan, dünyanın en büyük dijital kütüphanesi; Wayback Machine aracılığıyla 1 trilyondan fazla web sayfasını saklıyor
Son birkaç ay içinde The New York Times, yapay zeka içerik scraping’i konusundaki endişeleri gerekçe göstererek arşivin taranmasını engellemeye başladı; The Guardian gibi başka medya kuruluşları da benzer bir çizgiye yöneliyor
Bu engelleme, basit bir teknik kısıtlama olmanın ötesinde tarihsel kayıtta bir kopuşa neden oluyor
- Internet Archive, bir haberin düzeltilmeden ya da silinmeden önceki ve sonraki değişimlerini doğrulamayı sağlayan tek kayıt olabiliyor
- Medya kuruluşları erişimi kapattığında, onlarca yılda birikmiş web kayıtlarının kaybolma riski ortaya çıkıyor
Yapay zeka eğitimiyle ilgili hukuki anlaşmazlıklar sürse de, kâr amacı gütmeyen bir koruma kurumunu engellemenin yanlış bir tepki olduğu belirtiliyor
- Internet Archive ticari yapay zeka sistemleri geliştirmiyor; bunun yerine tarihsel koruma gibi kamusal yarara dönük bir amaç taşıyor
- Yapay zeka erişimini kontrol etmeye çalışırken, kütüphanelerin kayıt koruma işlevinin de zedelenmesi gibi bir sonuç doğabilir

Arşivleme ve aramanın hukuki meşruiyeti

İçeriği aranabilir hale getirmek, uzun süredir fair use olarak hukuken tanınıyor
- Mahkemeler, arama indeksi oluşturmak için özgün materyalin kopyalanmasının kaçınılmaz olduğuna hükmetti
- Google’ın tüm kitapları kopyalayarak bir arama veritabanı oluşturduğu örnekte de bunun transformative purpose taşıdığı kabul edildi
Internet Archive da aynı ilkeye göre çalışıyor
- Fiziksel kütüphanelerin gazeteleri koruması gibi, arşiv de web’in tarihsel kayıtlarını koruyor
- Araştırmacılar ve gazeteciler bunu her gün kullanıyor; Wikipedia bile 249 dilde 2,6 milyon haber makalesini arşive bağlıyor
- Sayısız blog yazarı, araştırmacı ve gazeteci buna istikrarlı ve güvenilir bir kaynak olarak güveniyor
Arama motorlarını koruyan hukuki ilkeler, arşivler ve kütüphaneler için de aynı şekilde geçerli olmalı
- Mahkemeler yapay zeka eğitimi konusunda kısıtlamalar getirse bile, arama ve web arşivlemenin hukuki meşruiyeti zaten yerleşmiş durumda

Tarihsel kayıtların korunmasında kriz

Internet Archive yaklaşık 30 yıldır web’in tarihsel kayıtlarını koruyor
Büyük medya kuruluşları bunu engellemeye başlarsa, gelecekteki araştırmacıların devasa bir kaydı kaybetme ihtimali çok yüksek
Yapay zeka eğitimiyle ilgili hukuki tartışmalar mahkemede çözülmeli; ancak kamusal kaydı feda etmek ciddi ve geri döndürülemez bir hata olarak uyarılıyor

1 yorum

GN⁺ 2026-03-22

Hacker News yorumları

Site işletmecisi olarak agresif AI crawler'larla mücadele ediyorum
Acaba engelleme kurallarım Internet Archive'ı da mı bloke etti diye endişeleniyorum
Facebook, robots.txt'yi yok sayıyor ve crawl delay'i aşmak için istekleri birden fazla IP'ye dağıtıyor
Bu yüzden nginx'te Facebook'a özel ayrı kurallar tuttum
Şimdiye kadar JA3 hash engellemesi en etkili yöntem oldu
Ama TCP parmak izi tespiti için hugin-net'i nginx'e saran bir wrapper olmasını isterdim
Rust bilmediğim için bunu LLM'e yaptırmaya da çekiniyorum
Yalnız bu yöntemin race condition sorunu var. İlk bağlantıda JA4 hash olmuyor ve AI crawler'lar IP başına yalnızca bir kez istek attığı için ikinci isteği engelleme fırsatı olmuyor
- Internet Archive da robots.txt'ye uymuyor
  Resmi blog yazılarında “web arşivlemenin geleceği robots.txt'ye daha az bağımlı olacak” dediler
  Bir başka topluluk olan Archiveteam de robots.txt'yi yok saydığını söylüyor
  Günümüzde büyük arşivleme kuruluşları site işletmecilerinin bakış açısını neredeyse hiç dikkate almıyor gibi görünüyor
- JA3 rastgeleleştirme veya kamuflaj gibi kaçınma teknikleri, tespiti kolayca atlatıyor
- Sadece whitelist anahtarıyla imzalanmış isteklere izin veren bir bot engelleme baypas mekanizması mümkün olabilir mi diye merak ediyorum
  Böylece yalnızca Internet Archive crawler'ına izin verilebilir gibi duruyor
Artık AI scraper'ları tamamen durduramayacağımızı kabul edenlerin ne düşündüğünü merak ediyorum
İnsan tarayıcılarla LLM ajanları arasındaki ayrımın ortadan kalkacağı gün çok uzak değil
Bunlar gerçek GUI oturumları açıp tarayıcıyla sayfalarda gezinebiliyor ve içerikleri geri oluşturmak için OS düzeyinde snapshot alabiliyor
Sonuçta açık webde erişimi engelleme fikrinin kendisi modası geçmiş hale gelecek gibi görünüyor
Öyleyse tek tek hostların yükünü azaltmanın yolu ne olabilir?
Güvenilir merkezi bir arşivleme kurumu mu ortaya çıkar, yoksa LLM'lerin ‘kötü davranışını’ cezalandıran bir model mi gelir?
- İnternet hukukunda gerçek anlamda yaptırım gücü neredeyse olmadığını şimdiye kadar öğrenmiş olmamız gerekirdi
- İçerik hash'leri sunulup gerçek verinin IPFS veya BitTorrent gibi yerlerden alınması, site yükünü azaltabilir
  Tarayıcılar bunu desteklerse, CDN verimliliği merkezileşme olmadan elde edilebilir
- Hatta açık webde yayımlamazsanız scraping endişesi de ortadan kalkar
  Belki de CDN'lerin veriyi doğrudan sattığı bir model daha verimli olur
- Şu an binlerce AI şirketi bütün webi kazıyor ama AI balonu söndüğünde sonunda yalnızca birkaçı kalacak
  O zaman sürekli scraping talebi de azalacak
- Asıl sorun trafik yükü ve bant genişliği maliyeti
  Temel mühendislik sezgisiyle muhasebe kavramları unutulmuş gibi
Medya kuruluşları, kendi içeriklerinin AI gelişimine etkisini abartıyor
Onlar hiç var olmasaydı bile LLM kalitesinde büyük bir fark olmazdı
- Sadece Wikipedia, Reddit ve akademik makaleler yetmez
  Sonuçta haber yazıları gibi çeşitli metinlere ihtiyaç var
- Web AI üretimi içerikle doldukça insan eliyle yazılmış metnin değeri artıyor
  AI şirketlerinin bunu rıza olmadan kullanmasını engelleme stratejisi makul
Şu anda kundakçıyı cezalandırmaya çalışırken kütüphaneyi yakıyoruz
Kundakçı çoktan gitti
- Ama aslında kütüphane ziyaretçilerinin %90'ı kundakçı olabilir
İşte bu yüzden archive.is ortaya çıktı
Kurucusunun peşine düşüp onu cezalandırmaya çalışmak yerine, faydalı bir proje olarak desteklenmesi gerekmez mi?
- Katılıyorum. archive.is ortadan kalkarsa archive.org tekel haline gelir
  archive.org, site sahiplerinin silme taleplerini kabul ettiği için eski bir domain satın alıp geçmiş kayıtları sildirmek de mümkün olabilir
- Ama archive.is'in kurucusunun geçmişte gazetecilere DDoS saldırısı düzenlediği biliniyor
  Kullanıcıları saldırıya dahil etmiş olması nedeniyle övülecek biri değil
Eskiden spam önleme sistemleri geliştiren biri olarak, ileride site erişiminde de ‘taksi ruhsatı’ benzeri bir kimlik doğrulama sistemi olacağını düşünüyorum
Örneğin Internet Archive imzalı HTTPS istekleri gönderirse, site bunun gerçek olduğunu doğrulayabilir
Bu, açık internet ruhuna aykırı ama güvenilir crawler'ları ayırt etmenin bir yoluna ihtiyaç var
- İnsan gibi görünmeyen crawler'lardan şunları talep ediyorum
  - Reverse DNS kayıtları olacak ve o domainde bir davranış politikası sayfası bulunacak
  - IP tabanlı bir TXT kaydı ile kim oldukları, ne zaman ve ne sıklıkta eriştikleri belirtilecek
    Bu bilgilere dayanarak otomatik engelleme kararları veriyorum
    Hatta Amazon isteklerini varsayılan olarak engelleme politikamı blogumda zaten yazdım
New York Times'ın berbat olduğunu düşünüyorum. Bu yüzden tam da geleceğe kalması için korunması gerektiğini düşünüyorum
- Tüm medyanın opinion yazıları sonuçta propaganda
  Her yayın kendi ideolojisine uyan yazıları basıyor
- Neden bu kadar kötü olduğunu düşündüğünü merak ediyorum. Ben okumuyorum
EFF AI konusunda yumuşak davranıyor
AI interneti ve işleri bozarken bile sert bir tutum almıyor
Sponsor listesine bakınca çok sayıda kurumsal destekçi görülüyor, bu da özgürlükçü bir kuruluş olarak güvenilirliğini zedeliyor
OSI ya da EFF gibi kuruluşlar artık şirketlerce ele geçirilmiş durumda ve hatta zararlı hale geldiler
Internet Archive'ın dağıtık konut IP crawler programı olsaydı memnuniyetle katılırdım
Yalnız manipülasyonu önleyecek mekanizmalara ihtiyaç var
- Internet Archive'ın böyle bir şeyi yok ama Archive Team Warrior var
- IA her şeyi kamuya açık biçimde yürütüyor ve haksız DMCA taleplerine bile uyuyor
- TLS onların tarafında sonlandırılırsa iş kolaylaşır. Sonuçta konut proxy'si gibi çalışmış olur
Gübre ve dizeli birlikte satıyorsanız bunun tarımsal tedarik için olduğunu varsaymak makuldür
Ama çiftçi olmayan birine kamyon dolusu satış yapıyorsanız şüphe duymak da doğaldır

İnternet Archive’ı engellemek yapay zekayı durdurmaz, ama web’in tarihsel kaydını siler

İnternet Archive’ı engellemek yapay zekayı durdurmaz, ama web’in tarihsel kaydını siler

Arşivleme ve aramanın hukuki meşruiyeti

Arama motorlarını koruyan hukuki ilkeler, arşivler ve kütüphaneler için de aynı şekilde geçerli olmalı

Tarihsel kayıtların korunmasında kriz

İlgili okumalar

1 yorum

Hacker News yorumları