AI scraper’ları yüzünden neden iyi hizmetleri sürdüremiyoruz

(blog.metabrainz.org)

1 puan yazan GN⁺ 2026-01-14 | 1 yorum | WhatsApp'ta paylaş

Son dönemde yapay zeka şirketlerinin izinsiz veri toplaması nedeniyle MetaBrainz sunucuları aşırı yük altında kalıyor
Bu şirketler robots.txt kurallarını yok sayıyor ve MusicBrainz verilerini sayfa sayfa tarıyor; bu da yüzlerce yıl sürecek kadar verimsiz bir yöntem
Aynı davranış ListenBrainz API’sine de yayılmış durumda; hizmeti korumak için kimlik doğrulama tokenı zorunluluğu ve bazı API’lerin kapatılması önlemleri devreye alındı
LB Radio artık yalnızca giriş yapmış kullanıcılar tarafından kullanılabiliyor ve API çağrılarında da Authorization header gerekiyor
Bu önlemlerin, normal kullanıcıların erişilebilirliğini korumak için gerekli bir müdahale olduğu belirtiliyor

AI scraper’larının yol açtığı sunucu aşırı yüklenmesi sorunu

MetaBrainz ekibi son birkaç aydır yapay zeka modeli eğitimi için veri toplamak amacıyla yapılan izinsiz taramalara karşı mücadele ediyor
- Bazı yapay zeka şirketleri robots.txt gibi temel internet nezaket kurallarını yok sayarak veri çekiyor
- MusicBrainz verilerine her seferinde tek bir sayfa isteyerek erişiyorlar; bu, toplu indirmeye göre daha verimsiz ve sunucuda yük oluşturuyor
Bu yaklaşım yüzlerce yıl sürecek düzeyde verimsiz ve sonuç olarak gerçek kullanıcıların erişimini engelliyor

ListenBrainz API’yi koruma önlemleri

AI scraper’ları ListenBrainz’in çeşitli API endpoint’lerinden veri toplamaya çalışıyor
Bunun üzerine şu değişiklikler yapıldı:
- /metadata/lookup API’si (GET ve POST) artık yalnızca Authorization tokenı ile çalışıyor
- ListenBrainz Labs API içindeki mbid-mapping, mbid-mapping-release, mbid-mapping-explain endpoint’leri kaldırıldı
  - Bu API’ler aslında debugging amacıyla sunuluyordu ve ileride yeni mapper için endpoint’lerle değiştirilecek
- LB Radio artık yalnızca giriş yapmış kullanıcılar tarafından kullanılabiliyor ve API çağrılarında Authorization header gerekiyor

Hizmet kararlılığını korumak için acil önlem

MetaBrainz, bu kararların hizmetin aşırı yüklenmesini önlemek ve normal çalışmayı sürdürmek için kaçınılmaz olduğunu söylüyor
Kullanıcılardan önceden haber verilmeyen değişiklikler nedeniyle özür dileniyor; yıl sonu projesi tamamlandıktan sonra hata mesajlarının iyileştirileceği belirtiliyor

Topluluk tepkisi

Yorumlarda AI scraper’larının verimsiz yaklaşımı ve otomatik web spider yapısı üzerine tartışmalar sürüyor
- Bazı kullanıcılar “yapay zeka çalışanlarının beceriksizliğine” dikkat çekiyor
- Diğerleri ise “otomatik crawler’ların yalnızca bağlantıları takip ederek veri topladığını” söylüyor

Genel anlamı

MetaBrainz’in attığı adımlar, yapay zeka için veri toplamanın açık veri projelerine verdiği zararı gösteren bir örnek
Kamusal API’lerin sürdürülebilirliği için daha güçlü kimlik doğrulama ve erişim kısıtlamaları kaçınılmaz hale geliyor

1 yorum

GN⁺ 2026-01-14

Hacker News görüşleri

Metabrainz gerçekten harika bir kamu yararına veritabanı
Geçmişte EFF blog yazısında bu konu hakkında yazmıştım
Metabrainz gibi kamusal verilerin AI botları tarafından alınması sorun değil, ama şu anki gibi verimsiz yöntemlerle kazınması sorun
Sonuçta bu bir koordinasyon başarısızlığı meselesi. Metabrainz botların iyi niyetli olduğunu varsayıyor, ama botlar sitenin veriyi sakladığını düşünüyor
“API'ye vurmayı bırakın, burada duran gzipped tar dosyasını tek seferde indirin” deseniz bile inanmıyorlar
Hatta torrent dosyası olarak sunulsa botlar veriyi daha iyi paylaşabilir
- Ben de AI scraper'lar yüzünden tvnfo.com sitemi kapattım
  2016'dan beri herkese açıktı ama kaynak tüketimi çok arttığı için artık sadece destekçilere açık
  Aylık 60 dolarlık bir hobi projesi olduğu için sürdürmek zor. İleride destek artarsa bot savunma çözümü ekleyip yeniden açabilirim
  Ama bunun sadece benim yaşadığım bir sorun olmadığını öğrenince şaşırdım. Sonunda internet giderek daha kapalı bir yere dönüşüyor gibi görünüyor
- robots.txt ile “tar dosyasını buradan alın” demenin bir yolu var mı diye merak ediyorum
  Standartta böyle bir özellik var mı bilmiyorum
- Botlar torrent kullanırsa paylaşım istatistikleri manipülasyonu da mümkün olur
  Ben de zamanında özel tracker'dan atılmamak için upload oranımı şişirmiştim
- Botların siteyi düşmanca bir varlık olarak görmesi ciddi bir sorun
  Site sahibinin iradesini yok saymak yanlış bir yaklaşım
- Aslında çoğu “AI scraper” sadece basit bir özyinelemeli crawler script'i
  Gerçek bir yapay zekanın sayfayı okuyup karar vermesi değil, linkleri takip ederek belge toplayan otomasyon kodu sadece
AI, özgür web ekosistemini yok ediyor
Web hostum, bir anda patlayan bot trafiği yüzünden hesabımı askıya aldı
Sonunda yeni bir hosta taşındım ama bireysel işletmecilerin bu durumda umudu yok
AI şirketlerinin sonsuz kaynakları var ve verdikleri zararla ilgilenmiyorlar
Alaycı bakarsak bu kasıtlı bir strateji bile olabilir — ücretsiz siteleri ortadan kaldırıp insanların sonunda bilgiye yalnızca AI modelleri üzerinden ulaşmasını sağlamak
- AI özet servisleri bağımsız webin trafiğinin yarısından fazlasını çalıyor
  Bilgi paylaşımının ekonomik zemini çöküyor
  Sonunda değeri az sayıda şirket tekelleştirecek ve sonra enshittification başlayacak
Çocuğumun okulunun PTA web sitesini yönetiyorum ve OpenAI botu etkinlik takvimini rastgele kazıyordu
1000 yılından 3000 yılına kadar istekler geldi
User-Agent'i engelleyince ancak 4 saat kadar sonra durdu
Google Cloud'un e2-micro VPS'i üzerinde statik web sitesi ve cgit instance'ı çalıştırıyorum
160 gün içinde OpenAI ve Claude'dan 8,5 milyondan fazla istek aldım
Bu yüzden lighttpd'de User-Agent içinde “claude|openai” varsa 403 döndürecek şekilde ayarladım ve nftables ile hız sınırlaması uyguladım
- Bu botlar yine nispeten “vicdanlı” sayılır
  Asıl sorun konut tipi proxy kullanan botnet'ler. Normal bir tarayıcıymış gibi geliyorlar
- OpenAI resmî bot IP listesini yayımlıyor ama Anthropic yayımlamıyor
- İlginç olan, GitHub blogumda böyle bir scraping hiç yok
  Bunu Microsoft mu engelliyor, yoksa blogum botların ilgilenmeyeceği kadar önemsiz mi diye düşünüyorum
Cloudflare artık AI scraper tespit hizmeti sunuyor
Tespit edilen botları sonsuz döngüde AI üretimi sayfalara yönlendiriyor
- Ama bunu yapmak için tüm trafiğin Cloudflare üzerinden geçmesi gerekiyor
  Sonuçta üçüncü bir tarafın içeriğime erişimi kimin belirleyeceği konusunda söz sahibi olması rahatsız edici
- Cloudflare, VPN ve nadir tarayıcı kullanıcıları için sık sık erişim sorunları çıkarıyor
  Ben de çok şikâyet ettiğim için sonunda kaldırdım
- Bir “TLS ekleme ve çıkarma hizmeti” olarak uygun olduğunu düşünmüyorum
- İlgili bir fikir olarak Poison Fountain projesi var
- Cloudflare yeterince çok siteyi bünyesine katarsa, AI şirketlerinden cache erişim ücreti de talep edebilir
SQLite ekibi de benzer bir sorun yaşadı
Kurucusu Richard Hipp, “zaten tüm depoyu klonlayabilirsiniz, yine de başkalarına zarar vererek kazıyorsunuz” diyerek bunu “bencilce davranış” diye eleştirdi
Ayrıntı için ilgili forum yazısına bakılabilir
- Ama bir başkası da “kötücül demek fazla abartılı” diye itiraz etti
Zaman geçtikçe tüm crawling işinin Common Crawl gibi ortak kanallarda toplanması gerektiğini daha çok düşünüyorum
Sunucu yükünü azaltırken webin açıklığını ve scrape edilebilirliğini korumak gerek
Örneğin /well-known/ altında zaman damgalı veri dökümü bağlantıları koymayı standartlaştırabiliriz
- MetaBrainz zaten bunu yapıyor — tüm veritabanını tarball olarak sunuyor
  Ben de yaklaşık bir saatte indirip sonrasında yerelde sorguladım
  Ama çoğu kişi hâlâ scraping daha kolay olduğu için dump kullanmıyor
- Bence telif hakkı sisteminde reform gerekiyor
  Belli bir süreden sonra veriler “ulusal veri kümesine” bağışlanır, AI eğitimi için kullanılır ve gelir telif sahiplerine dağıtılır şeklinde bir yapı öneriyorum
  Böylece AI geliştiricileri, telif sahipleri ve kamu aynı anda fayda görebilir
- Ben de kişisel olarak Tampermonkey script'i ile küçük ölçekli scraping yapıyorum
  AI ile kod ürettirip VPS fiyat listesi gibi şeyleri otomatik topluyorum
  Eskiden lowendtalk'taki tüm başlıkları çekip LLM analizi için veri kümesi de oluşturmuştum
- /llms.txt gibi standart bir dosya oluşturup, LLM'lere gereken yalnızca saf metin verisini sunmak da bir yol olabilir
  URL, adres, telefon numarası gibi şeyler çıkarılır; yalnızca <item> ve <subitem> gibi asgari işaretleme korunur
  Tabii birçok site biçime uyan boş dosyalar koyabilir
- Aslında bu teknik bir mesele değil, ekonomik yapının sorunu
  Büyük sermaye kısa vadeli kâr için webi bozuyor
  Ama sonunda uyum ve denge oluşacağına inanıyorum
Artık yalnızca AI scraper'lar değil, kullanıcıların kendisi de özet istekleriyle dolaylı scraping yapıyor
Örneğin Firefox, bağlantıya tıklamadan da özet önizleme sunuyor
İlgili görsel
- Bu özellik, yerelde llama.cpp(wllama) ile çalışan SmolLM2-360M modelinin özet üretmesiyle çalışıyor
  Sonuçta tarayıcı sayfayı doğrudan getirip özetlediği için site açısından aynı istek gibi görünüyor
  Ayrıntı için Mozilla'nın resmî açıklamasına bakılabilir
- Sorun üç parçalı
  1. AI şirketlerinin etik dışı crawling'i
  2. kullanıcıların ajan tabanlı özet istekleri
  3. bu ajanların insanlardan daha verimsiz ama çok daha hızlı olması
- Ama kullanıcılar “eğitildikleri” için değil, sadece LLM'ler gerçekten çok iyi çalıştığı için bunu kullanıyor
Bu günlerin scraper'ları konut tipi IP havuzları kullanarak tespitten kaçıyor
- Bu IP havuzlarını sağlayan ISP'lerin yeni bir gelir modeli oluşturup oluşturmadığından şüpheleniyorum
- Üstelik artık gerçek tarayıcı çalıştıran botlar da çok, bu yüzden Cloudflare captcha'larını da geçiyorlar
  Böyle bir durumda savunmaların ne kadar süre etkili kalacağını bilmiyorum

AI scraper’ları yüzünden neden iyi hizmetleri sürdüremiyoruz

AI scraper’larının yol açtığı sunucu aşırı yüklenmesi sorunu

ListenBrainz API’yi koruma önlemleri

Hizmet kararlılığını korumak için acil önlem

Topluluk tepkisi

Genel anlamı

İlgili okumalar

1 yorum

Hacker News görüşleri