- 1990’ların ortalarından bu yana web’i ve gazeteleri koruyan Internet Archive, Wayback Machine aracılığıyla 1 trilyondan fazla web sayfasını saklıyor
- Son dönemde The New York Times ve The Guardian gibi büyük medya kuruluşları, yapay zeka scraping’i endişeleri nedeniyle arşivin taranmasını engellemeye başladı
- Bu tür adımlar, web’in tarihsel kaydında kopuşa yol açıyor ve haberlerde yapılan düzeltme ya da silme işlemlerinden önce ve sonraki değişimleri doğrulamayı mümkün kılan tek kayıtların kaybolması riskini doğuruyor
- Yapay zeka eğitimiyle ilgili hukuki ihtilaflardan ayrı olarak, kâr amacı gütmeyen bir koruma kurumunu engellemenin kamu yararına zarar verdiği belirtiliyor
- Arama ve web arşivleme zaten fair use kapsamında hukuken meşru kabul edilen alanlar; bunların engellenmesi, gelecekteki araştırmacıların web’in tarihsel kayıtlarını kaybetmesine yol açabilir
İnternet Archive’ı engellemek yapay zekayı durdurmaz, ama web’in tarihsel kaydını siler
- Internet Archive, 1990’ların ortalarından bu yana web’i ve gazeteleri koruyan, dünyanın en büyük dijital kütüphanesi; Wayback Machine aracılığıyla 1 trilyondan fazla web sayfasını saklıyor
- Son birkaç ay içinde The New York Times, yapay zeka içerik scraping’i konusundaki endişeleri gerekçe göstererek arşivin taranmasını engellemeye başladı; The Guardian gibi başka medya kuruluşları da benzer bir çizgiye yöneliyor
- Bu engelleme, basit bir teknik kısıtlama olmanın ötesinde tarihsel kayıtta bir kopuşa neden oluyor
- Internet Archive, bir haberin düzeltilmeden ya da silinmeden önceki ve sonraki değişimlerini doğrulamayı sağlayan tek kayıt olabiliyor
- Medya kuruluşları erişimi kapattığında, onlarca yılda birikmiş web kayıtlarının kaybolma riski ortaya çıkıyor
- Yapay zeka eğitimiyle ilgili hukuki anlaşmazlıklar sürse de, kâr amacı gütmeyen bir koruma kurumunu engellemenin yanlış bir tepki olduğu belirtiliyor
- Internet Archive ticari yapay zeka sistemleri geliştirmiyor; bunun yerine tarihsel koruma gibi kamusal yarara dönük bir amaç taşıyor
- Yapay zeka erişimini kontrol etmeye çalışırken, kütüphanelerin kayıt koruma işlevinin de zedelenmesi gibi bir sonuç doğabilir
Arşivleme ve aramanın hukuki meşruiyeti
- İçeriği aranabilir hale getirmek, uzun süredir fair use olarak hukuken tanınıyor
- Mahkemeler, arama indeksi oluşturmak için özgün materyalin kopyalanmasının kaçınılmaz olduğuna hükmetti
- Google’ın tüm kitapları kopyalayarak bir arama veritabanı oluşturduğu örnekte de bunun transformative purpose taşıdığı kabul edildi
- Internet Archive da aynı ilkeye göre çalışıyor
- Fiziksel kütüphanelerin gazeteleri koruması gibi, arşiv de web’in tarihsel kayıtlarını koruyor
- Araştırmacılar ve gazeteciler bunu her gün kullanıyor; Wikipedia bile 249 dilde 2,6 milyon haber makalesini arşive bağlıyor
- Sayısız blog yazarı, araştırmacı ve gazeteci buna istikrarlı ve güvenilir bir kaynak olarak güveniyor
-
Arama motorlarını koruyan hukuki ilkeler, arşivler ve kütüphaneler için de aynı şekilde geçerli olmalı
- Mahkemeler yapay zeka eğitimi konusunda kısıtlamalar getirse bile, arama ve web arşivlemenin hukuki meşruiyeti zaten yerleşmiş durumda
Tarihsel kayıtların korunmasında kriz
- Internet Archive yaklaşık 30 yıldır web’in tarihsel kayıtlarını koruyor
- Büyük medya kuruluşları bunu engellemeye başlarsa, gelecekteki araştırmacıların devasa bir kaydı kaybetme ihtimali çok yüksek
- Yapay zeka eğitimiyle ilgili hukuki tartışmalar mahkemede çözülmeli; ancak kamusal kaydı feda etmek ciddi ve geri döndürülemez bir hata olarak uyarılıyor
1 yorum
Hacker News yorumları
Site işletmecisi olarak agresif AI crawler'larla mücadele ediyorum
Acaba engelleme kurallarım Internet Archive'ı da mı bloke etti diye endişeleniyorum
Facebook, robots.txt'yi yok sayıyor ve crawl delay'i aşmak için istekleri birden fazla IP'ye dağıtıyor
Bu yüzden nginx'te Facebook'a özel ayrı kurallar tuttum
Şimdiye kadar JA3 hash engellemesi en etkili yöntem oldu
Ama TCP parmak izi tespiti için hugin-net'i nginx'e saran bir wrapper olmasını isterdim
Rust bilmediğim için bunu LLM'e yaptırmaya da çekiniyorum
Yalnız bu yöntemin race condition sorunu var. İlk bağlantıda JA4 hash olmuyor ve AI crawler'lar IP başına yalnızca bir kez istek attığı için ikinci isteği engelleme fırsatı olmuyor
Resmi blog yazılarında “web arşivlemenin geleceği robots.txt'ye daha az bağımlı olacak” dediler
Bir başka topluluk olan Archiveteam de robots.txt'yi yok saydığını söylüyor
Günümüzde büyük arşivleme kuruluşları site işletmecilerinin bakış açısını neredeyse hiç dikkate almıyor gibi görünüyor
Böylece yalnızca Internet Archive crawler'ına izin verilebilir gibi duruyor
Artık AI scraper'ları tamamen durduramayacağımızı kabul edenlerin ne düşündüğünü merak ediyorum
İnsan tarayıcılarla LLM ajanları arasındaki ayrımın ortadan kalkacağı gün çok uzak değil
Bunlar gerçek GUI oturumları açıp tarayıcıyla sayfalarda gezinebiliyor ve içerikleri geri oluşturmak için OS düzeyinde snapshot alabiliyor
Sonuçta açık webde erişimi engelleme fikrinin kendisi modası geçmiş hale gelecek gibi görünüyor
Öyleyse tek tek hostların yükünü azaltmanın yolu ne olabilir?
Güvenilir merkezi bir arşivleme kurumu mu ortaya çıkar, yoksa LLM'lerin ‘kötü davranışını’ cezalandıran bir model mi gelir?
Tarayıcılar bunu desteklerse, CDN verimliliği merkezileşme olmadan elde edilebilir
Belki de CDN'lerin veriyi doğrudan sattığı bir model daha verimli olur
O zaman sürekli scraping talebi de azalacak
Temel mühendislik sezgisiyle muhasebe kavramları unutulmuş gibi
Medya kuruluşları, kendi içeriklerinin AI gelişimine etkisini abartıyor
Onlar hiç var olmasaydı bile LLM kalitesinde büyük bir fark olmazdı
Sonuçta haber yazıları gibi çeşitli metinlere ihtiyaç var
AI şirketlerinin bunu rıza olmadan kullanmasını engelleme stratejisi makul
Şu anda kundakçıyı cezalandırmaya çalışırken kütüphaneyi yakıyoruz
Kundakçı çoktan gitti
İşte bu yüzden archive.is ortaya çıktı
Kurucusunun peşine düşüp onu cezalandırmaya çalışmak yerine, faydalı bir proje olarak desteklenmesi gerekmez mi?
archive.org, site sahiplerinin silme taleplerini kabul ettiği için eski bir domain satın alıp geçmiş kayıtları sildirmek de mümkün olabilir
Kullanıcıları saldırıya dahil etmiş olması nedeniyle övülecek biri değil
Eskiden spam önleme sistemleri geliştiren biri olarak, ileride site erişiminde de ‘taksi ruhsatı’ benzeri bir kimlik doğrulama sistemi olacağını düşünüyorum
Örneğin Internet Archive imzalı HTTPS istekleri gönderirse, site bunun gerçek olduğunu doğrulayabilir
Bu, açık internet ruhuna aykırı ama güvenilir crawler'ları ayırt etmenin bir yoluna ihtiyaç var
Bu bilgilere dayanarak otomatik engelleme kararları veriyorum
Hatta Amazon isteklerini varsayılan olarak engelleme politikamı blogumda zaten yazdım
New York Times'ın berbat olduğunu düşünüyorum. Bu yüzden tam da geleceğe kalması için korunması gerektiğini düşünüyorum
Her yayın kendi ideolojisine uyan yazıları basıyor
EFF AI konusunda yumuşak davranıyor
AI interneti ve işleri bozarken bile sert bir tutum almıyor
Sponsor listesine bakınca çok sayıda kurumsal destekçi görülüyor, bu da özgürlükçü bir kuruluş olarak güvenilirliğini zedeliyor
OSI ya da EFF gibi kuruluşlar artık şirketlerce ele geçirilmiş durumda ve hatta zararlı hale geldiler
Internet Archive'ın dağıtık konut IP crawler programı olsaydı memnuniyetle katılırdım
Yalnız manipülasyonu önleyecek mekanizmalara ihtiyaç var
Gübre ve dizeli birlikte satıyorsanız bunun tarımsal tedarik için olduğunu varsaymak makuldür
Ama çiftçi olmayan birine kamyon dolusu satış yapıyorsanız şüphe duymak da doğaldır