6 puan yazan GN⁺ 2026-03-22 | 1 yorum | WhatsApp'ta paylaş
  • 1990’ların ortalarından bu yana web’i ve gazeteleri koruyan Internet Archive, Wayback Machine aracılığıyla 1 trilyondan fazla web sayfasını saklıyor
  • Son dönemde The New York Times ve The Guardian gibi büyük medya kuruluşları, yapay zeka scraping’i endişeleri nedeniyle arşivin taranmasını engellemeye başladı
  • Bu tür adımlar, web’in tarihsel kaydında kopuşa yol açıyor ve haberlerde yapılan düzeltme ya da silme işlemlerinden önce ve sonraki değişimleri doğrulamayı mümkün kılan tek kayıtların kaybolması riskini doğuruyor
  • Yapay zeka eğitimiyle ilgili hukuki ihtilaflardan ayrı olarak, kâr amacı gütmeyen bir koruma kurumunu engellemenin kamu yararına zarar verdiği belirtiliyor
  • Arama ve web arşivleme zaten fair use kapsamında hukuken meşru kabul edilen alanlar; bunların engellenmesi, gelecekteki araştırmacıların web’in tarihsel kayıtlarını kaybetmesine yol açabilir

İnternet Archive’ı engellemek yapay zekayı durdurmaz, ama web’in tarihsel kaydını siler

  • Internet Archive, 1990’ların ortalarından bu yana web’i ve gazeteleri koruyan, dünyanın en büyük dijital kütüphanesi; Wayback Machine aracılığıyla 1 trilyondan fazla web sayfasını saklıyor
  • Son birkaç ay içinde The New York Times, yapay zeka içerik scraping’i konusundaki endişeleri gerekçe göstererek arşivin taranmasını engellemeye başladı; The Guardian gibi başka medya kuruluşları da benzer bir çizgiye yöneliyor
  • Bu engelleme, basit bir teknik kısıtlama olmanın ötesinde tarihsel kayıtta bir kopuşa neden oluyor
    • Internet Archive, bir haberin düzeltilmeden ya da silinmeden önceki ve sonraki değişimlerini doğrulamayı sağlayan tek kayıt olabiliyor
    • Medya kuruluşları erişimi kapattığında, onlarca yılda birikmiş web kayıtlarının kaybolma riski ortaya çıkıyor
  • Yapay zeka eğitimiyle ilgili hukuki anlaşmazlıklar sürse de, kâr amacı gütmeyen bir koruma kurumunu engellemenin yanlış bir tepki olduğu belirtiliyor
    • Internet Archive ticari yapay zeka sistemleri geliştirmiyor; bunun yerine tarihsel koruma gibi kamusal yarara dönük bir amaç taşıyor
    • Yapay zeka erişimini kontrol etmeye çalışırken, kütüphanelerin kayıt koruma işlevinin de zedelenmesi gibi bir sonuç doğabilir

Arşivleme ve aramanın hukuki meşruiyeti

  • İçeriği aranabilir hale getirmek, uzun süredir fair use olarak hukuken tanınıyor
    • Mahkemeler, arama indeksi oluşturmak için özgün materyalin kopyalanmasının kaçınılmaz olduğuna hükmetti
    • Google’ın tüm kitapları kopyalayarak bir arama veritabanı oluşturduğu örnekte de bunun transformative purpose taşıdığı kabul edildi
  • Internet Archive da aynı ilkeye göre çalışıyor
    • Fiziksel kütüphanelerin gazeteleri koruması gibi, arşiv de web’in tarihsel kayıtlarını koruyor
    • Araştırmacılar ve gazeteciler bunu her gün kullanıyor; Wikipedia bile 249 dilde 2,6 milyon haber makalesini arşive bağlıyor
    • Sayısız blog yazarı, araştırmacı ve gazeteci buna istikrarlı ve güvenilir bir kaynak olarak güveniyor
  • Arama motorlarını koruyan hukuki ilkeler, arşivler ve kütüphaneler için de aynı şekilde geçerli olmalı

    • Mahkemeler yapay zeka eğitimi konusunda kısıtlamalar getirse bile, arama ve web arşivlemenin hukuki meşruiyeti zaten yerleşmiş durumda

Tarihsel kayıtların korunmasında kriz

  • Internet Archive yaklaşık 30 yıldır web’in tarihsel kayıtlarını koruyor
  • Büyük medya kuruluşları bunu engellemeye başlarsa, gelecekteki araştırmacıların devasa bir kaydı kaybetme ihtimali çok yüksek
  • Yapay zeka eğitimiyle ilgili hukuki tartışmalar mahkemede çözülmeli; ancak kamusal kaydı feda etmek ciddi ve geri döndürülemez bir hata olarak uyarılıyor

1 yorum

 
GN⁺ 2026-03-22
Hacker News yorumları
  • Site işletmecisi olarak agresif AI crawler'larla mücadele ediyorum
    Acaba engelleme kurallarım Internet Archive'ı da mı bloke etti diye endişeleniyorum
    Facebook, robots.txt'yi yok sayıyor ve crawl delay'i aşmak için istekleri birden fazla IP'ye dağıtıyor
    Bu yüzden nginx'te Facebook'a özel ayrı kurallar tuttum
    Şimdiye kadar JA3 hash engellemesi en etkili yöntem oldu
    Ama TCP parmak izi tespiti için hugin-net'i nginx'e saran bir wrapper olmasını isterdim
    Rust bilmediğim için bunu LLM'e yaptırmaya da çekiniyorum
    Yalnız bu yöntemin race condition sorunu var. İlk bağlantıda JA4 hash olmuyor ve AI crawler'lar IP başına yalnızca bir kez istek attığı için ikinci isteği engelleme fırsatı olmuyor

    • Internet Archive da robots.txt'ye uymuyor
      Resmi blog yazılarında “web arşivlemenin geleceği robots.txt'ye daha az bağımlı olacak” dediler
      Bir başka topluluk olan Archiveteam de robots.txt'yi yok saydığını söylüyor
      Günümüzde büyük arşivleme kuruluşları site işletmecilerinin bakış açısını neredeyse hiç dikkate almıyor gibi görünüyor
    • JA3 rastgeleleştirme veya kamuflaj gibi kaçınma teknikleri, tespiti kolayca atlatıyor
    • Sadece whitelist anahtarıyla imzalanmış isteklere izin veren bir bot engelleme baypas mekanizması mümkün olabilir mi diye merak ediyorum
      Böylece yalnızca Internet Archive crawler'ına izin verilebilir gibi duruyor
  • Artık AI scraper'ları tamamen durduramayacağımızı kabul edenlerin ne düşündüğünü merak ediyorum
    İnsan tarayıcılarla LLM ajanları arasındaki ayrımın ortadan kalkacağı gün çok uzak değil
    Bunlar gerçek GUI oturumları açıp tarayıcıyla sayfalarda gezinebiliyor ve içerikleri geri oluşturmak için OS düzeyinde snapshot alabiliyor
    Sonuçta açık webde erişimi engelleme fikrinin kendisi modası geçmiş hale gelecek gibi görünüyor
    Öyleyse tek tek hostların yükünü azaltmanın yolu ne olabilir?
    Güvenilir merkezi bir arşivleme kurumu mu ortaya çıkar, yoksa LLM'lerin ‘kötü davranışını’ cezalandıran bir model mi gelir?

    • İnternet hukukunda gerçek anlamda yaptırım gücü neredeyse olmadığını şimdiye kadar öğrenmiş olmamız gerekirdi
    • İçerik hash'leri sunulup gerçek verinin IPFS veya BitTorrent gibi yerlerden alınması, site yükünü azaltabilir
      Tarayıcılar bunu desteklerse, CDN verimliliği merkezileşme olmadan elde edilebilir
    • Hatta açık webde yayımlamazsanız scraping endişesi de ortadan kalkar
      Belki de CDN'lerin veriyi doğrudan sattığı bir model daha verimli olur
    • Şu an binlerce AI şirketi bütün webi kazıyor ama AI balonu söndüğünde sonunda yalnızca birkaçı kalacak
      O zaman sürekli scraping talebi de azalacak
    • Asıl sorun trafik yükü ve bant genişliği maliyeti
      Temel mühendislik sezgisiyle muhasebe kavramları unutulmuş gibi
  • Medya kuruluşları, kendi içeriklerinin AI gelişimine etkisini abartıyor
    Onlar hiç var olmasaydı bile LLM kalitesinde büyük bir fark olmazdı

    • Sadece Wikipedia, Reddit ve akademik makaleler yetmez
      Sonuçta haber yazıları gibi çeşitli metinlere ihtiyaç var
    • Web AI üretimi içerikle doldukça insan eliyle yazılmış metnin değeri artıyor
      AI şirketlerinin bunu rıza olmadan kullanmasını engelleme stratejisi makul
  • Şu anda kundakçıyı cezalandırmaya çalışırken kütüphaneyi yakıyoruz
    Kundakçı çoktan gitti

    • Ama aslında kütüphane ziyaretçilerinin %90'ı kundakçı olabilir
  • İşte bu yüzden archive.is ortaya çıktı
    Kurucusunun peşine düşüp onu cezalandırmaya çalışmak yerine, faydalı bir proje olarak desteklenmesi gerekmez mi?

    • Katılıyorum. archive.is ortadan kalkarsa archive.org tekel haline gelir
      archive.org, site sahiplerinin silme taleplerini kabul ettiği için eski bir domain satın alıp geçmiş kayıtları sildirmek de mümkün olabilir
    • Ama archive.is'in kurucusunun geçmişte gazetecilere DDoS saldırısı düzenlediği biliniyor
      Kullanıcıları saldırıya dahil etmiş olması nedeniyle övülecek biri değil
  • Eskiden spam önleme sistemleri geliştiren biri olarak, ileride site erişiminde de ‘taksi ruhsatı’ benzeri bir kimlik doğrulama sistemi olacağını düşünüyorum
    Örneğin Internet Archive imzalı HTTPS istekleri gönderirse, site bunun gerçek olduğunu doğrulayabilir
    Bu, açık internet ruhuna aykırı ama güvenilir crawler'ları ayırt etmenin bir yoluna ihtiyaç var

    • İnsan gibi görünmeyen crawler'lardan şunları talep ediyorum
      • Reverse DNS kayıtları olacak ve o domainde bir davranış politikası sayfası bulunacak
      • IP tabanlı bir TXT kaydı ile kim oldukları, ne zaman ve ne sıklıkta eriştikleri belirtilecek
        Bu bilgilere dayanarak otomatik engelleme kararları veriyorum
        Hatta Amazon isteklerini varsayılan olarak engelleme politikamı blogumda zaten yazdım
  • New York Times'ın berbat olduğunu düşünüyorum. Bu yüzden tam da geleceğe kalması için korunması gerektiğini düşünüyorum

    • Tüm medyanın opinion yazıları sonuçta propaganda
      Her yayın kendi ideolojisine uyan yazıları basıyor
    • Neden bu kadar kötü olduğunu düşündüğünü merak ediyorum. Ben okumuyorum
  • EFF AI konusunda yumuşak davranıyor
    AI interneti ve işleri bozarken bile sert bir tutum almıyor
    Sponsor listesine bakınca çok sayıda kurumsal destekçi görülüyor, bu da özgürlükçü bir kuruluş olarak güvenilirliğini zedeliyor
    OSI ya da EFF gibi kuruluşlar artık şirketlerce ele geçirilmiş durumda ve hatta zararlı hale geldiler

  • Internet Archive'ın dağıtık konut IP crawler programı olsaydı memnuniyetle katılırdım
    Yalnız manipülasyonu önleyecek mekanizmalara ihtiyaç var

    • Internet Archive'ın böyle bir şeyi yok ama Archive Team Warrior var
    • IA her şeyi kamuya açık biçimde yürütüyor ve haksız DMCA taleplerine bile uyuyor
    • TLS onların tarafında sonlandırılırsa iş kolaylaşır. Sonuçta konut proxy'si gibi çalışmış olur
  • Gübre ve dizeli birlikte satıyorsanız bunun tarımsal tedarik için olduğunu varsaymak makuldür
    Ama çiftçi olmayan birine kamyon dolusu satış yapıyorsanız şüphe duymak da doğaldır