1 puan yazan GN⁺ 2026-01-14 | 1 yorum | WhatsApp'ta paylaş
  • Son dönemde yapay zeka şirketlerinin izinsiz veri toplaması nedeniyle MetaBrainz sunucuları aşırı yük altında kalıyor
  • Bu şirketler robots.txt kurallarını yok sayıyor ve MusicBrainz verilerini sayfa sayfa tarıyor; bu da yüzlerce yıl sürecek kadar verimsiz bir yöntem
  • Aynı davranış ListenBrainz API’sine de yayılmış durumda; hizmeti korumak için kimlik doğrulama tokenı zorunluluğu ve bazı API’lerin kapatılması önlemleri devreye alındı
  • LB Radio artık yalnızca giriş yapmış kullanıcılar tarafından kullanılabiliyor ve API çağrılarında da Authorization header gerekiyor
  • Bu önlemlerin, normal kullanıcıların erişilebilirliğini korumak için gerekli bir müdahale olduğu belirtiliyor

AI scraper’larının yol açtığı sunucu aşırı yüklenmesi sorunu

  • MetaBrainz ekibi son birkaç aydır yapay zeka modeli eğitimi için veri toplamak amacıyla yapılan izinsiz taramalara karşı mücadele ediyor
    • Bazı yapay zeka şirketleri robots.txt gibi temel internet nezaket kurallarını yok sayarak veri çekiyor
    • MusicBrainz verilerine her seferinde tek bir sayfa isteyerek erişiyorlar; bu, toplu indirmeye göre daha verimsiz ve sunucuda yük oluşturuyor
  • Bu yaklaşım yüzlerce yıl sürecek düzeyde verimsiz ve sonuç olarak gerçek kullanıcıların erişimini engelliyor

ListenBrainz API’yi koruma önlemleri

  • AI scraper’ları ListenBrainz’in çeşitli API endpoint’lerinden veri toplamaya çalışıyor
  • Bunun üzerine şu değişiklikler yapıldı:
    • /metadata/lookup API’si (GET ve POST) artık yalnızca Authorization tokenı ile çalışıyor
    • ListenBrainz Labs API içindeki mbid-mapping, mbid-mapping-release, mbid-mapping-explain endpoint’leri kaldırıldı
      • Bu API’ler aslında debugging amacıyla sunuluyordu ve ileride yeni mapper için endpoint’lerle değiştirilecek
    • LB Radio artık yalnızca giriş yapmış kullanıcılar tarafından kullanılabiliyor ve API çağrılarında Authorization header gerekiyor

Hizmet kararlılığını korumak için acil önlem

  • MetaBrainz, bu kararların hizmetin aşırı yüklenmesini önlemek ve normal çalışmayı sürdürmek için kaçınılmaz olduğunu söylüyor
  • Kullanıcılardan önceden haber verilmeyen değişiklikler nedeniyle özür dileniyor; yıl sonu projesi tamamlandıktan sonra hata mesajlarının iyileştirileceği belirtiliyor

Topluluk tepkisi

  • Yorumlarda AI scraper’larının verimsiz yaklaşımı ve otomatik web spider yapısı üzerine tartışmalar sürüyor
    • Bazı kullanıcılar “yapay zeka çalışanlarının beceriksizliğine” dikkat çekiyor
    • Diğerleri ise “otomatik crawler’ların yalnızca bağlantıları takip ederek veri topladığını” söylüyor

Genel anlamı

  • MetaBrainz’in attığı adımlar, yapay zeka için veri toplamanın açık veri projelerine verdiği zararı gösteren bir örnek
  • Kamusal API’lerin sürdürülebilirliği için daha güçlü kimlik doğrulama ve erişim kısıtlamaları kaçınılmaz hale geliyor

1 yorum

 
GN⁺ 2026-01-14
Hacker News görüşleri
  • Metabrainz gerçekten harika bir kamu yararına veritabanı
    Geçmişte EFF blog yazısında bu konu hakkında yazmıştım
    Metabrainz gibi kamusal verilerin AI botları tarafından alınması sorun değil, ama şu anki gibi verimsiz yöntemlerle kazınması sorun
    Sonuçta bu bir koordinasyon başarısızlığı meselesi. Metabrainz botların iyi niyetli olduğunu varsayıyor, ama botlar sitenin veriyi sakladığını düşünüyor
    “API'ye vurmayı bırakın, burada duran gzipped tar dosyasını tek seferde indirin” deseniz bile inanmıyorlar
    Hatta torrent dosyası olarak sunulsa botlar veriyi daha iyi paylaşabilir

    • Ben de AI scraper'lar yüzünden tvnfo.com sitemi kapattım
      2016'dan beri herkese açıktı ama kaynak tüketimi çok arttığı için artık sadece destekçilere açık
      Aylık 60 dolarlık bir hobi projesi olduğu için sürdürmek zor. İleride destek artarsa bot savunma çözümü ekleyip yeniden açabilirim
      Ama bunun sadece benim yaşadığım bir sorun olmadığını öğrenince şaşırdım. Sonunda internet giderek daha kapalı bir yere dönüşüyor gibi görünüyor
    • robots.txt ile “tar dosyasını buradan alın” demenin bir yolu var mı diye merak ediyorum
      Standartta böyle bir özellik var mı bilmiyorum
    • Botlar torrent kullanırsa paylaşım istatistikleri manipülasyonu da mümkün olur
      Ben de zamanında özel tracker'dan atılmamak için upload oranımı şişirmiştim
    • Botların siteyi düşmanca bir varlık olarak görmesi ciddi bir sorun
      Site sahibinin iradesini yok saymak yanlış bir yaklaşım
    • Aslında çoğu “AI scraper” sadece basit bir özyinelemeli crawler script'i
      Gerçek bir yapay zekanın sayfayı okuyup karar vermesi değil, linkleri takip ederek belge toplayan otomasyon kodu sadece
  • AI, özgür web ekosistemini yok ediyor
    Web hostum, bir anda patlayan bot trafiği yüzünden hesabımı askıya aldı
    Sonunda yeni bir hosta taşındım ama bireysel işletmecilerin bu durumda umudu yok
    AI şirketlerinin sonsuz kaynakları var ve verdikleri zararla ilgilenmiyorlar
    Alaycı bakarsak bu kasıtlı bir strateji bile olabilir — ücretsiz siteleri ortadan kaldırıp insanların sonunda bilgiye yalnızca AI modelleri üzerinden ulaşmasını sağlamak

    • AI özet servisleri bağımsız webin trafiğinin yarısından fazlasını çalıyor
      Bilgi paylaşımının ekonomik zemini çöküyor
      Sonunda değeri az sayıda şirket tekelleştirecek ve sonra enshittification başlayacak
  • Çocuğumun okulunun PTA web sitesini yönetiyorum ve OpenAI botu etkinlik takvimini rastgele kazıyordu
    1000 yılından 3000 yılına kadar istekler geldi
    User-Agent'i engelleyince ancak 4 saat kadar sonra durdu

  • Google Cloud'un e2-micro VPS'i üzerinde statik web sitesi ve cgit instance'ı çalıştırıyorum
    160 gün içinde OpenAI ve Claude'dan 8,5 milyondan fazla istek aldım
    Bu yüzden lighttpd'de User-Agent içinde “claude|openai” varsa 403 döndürecek şekilde ayarladım ve nftables ile hız sınırlaması uyguladım

    • Bu botlar yine nispeten “vicdanlı” sayılır
      Asıl sorun konut tipi proxy kullanan botnet'ler. Normal bir tarayıcıymış gibi geliyorlar
    • OpenAI resmî bot IP listesini yayımlıyor ama Anthropic yayımlamıyor
    • İlginç olan, GitHub blogumda böyle bir scraping hiç yok
      Bunu Microsoft mu engelliyor, yoksa blogum botların ilgilenmeyeceği kadar önemsiz mi diye düşünüyorum
  • Cloudflare artık AI scraper tespit hizmeti sunuyor
    Tespit edilen botları sonsuz döngüde AI üretimi sayfalara yönlendiriyor

    • Ama bunu yapmak için tüm trafiğin Cloudflare üzerinden geçmesi gerekiyor
      Sonuçta üçüncü bir tarafın içeriğime erişimi kimin belirleyeceği konusunda söz sahibi olması rahatsız edici
    • Cloudflare, VPN ve nadir tarayıcı kullanıcıları için sık sık erişim sorunları çıkarıyor
      Ben de çok şikâyet ettiğim için sonunda kaldırdım
    • Bir “TLS ekleme ve çıkarma hizmeti” olarak uygun olduğunu düşünmüyorum
    • İlgili bir fikir olarak Poison Fountain projesi var
    • Cloudflare yeterince çok siteyi bünyesine katarsa, AI şirketlerinden cache erişim ücreti de talep edebilir
  • SQLite ekibi de benzer bir sorun yaşadı
    Kurucusu Richard Hipp, “zaten tüm depoyu klonlayabilirsiniz, yine de başkalarına zarar vererek kazıyorsunuz” diyerek bunu “bencilce davranış” diye eleştirdi
    Ayrıntı için ilgili forum yazısına bakılabilir

    • Ama bir başkası da “kötücül demek fazla abartılı” diye itiraz etti
  • Zaman geçtikçe tüm crawling işinin Common Crawl gibi ortak kanallarda toplanması gerektiğini daha çok düşünüyorum
    Sunucu yükünü azaltırken webin açıklığını ve scrape edilebilirliğini korumak gerek
    Örneğin /well-known/ altında zaman damgalı veri dökümü bağlantıları koymayı standartlaştırabiliriz

    • MetaBrainz zaten bunu yapıyor — tüm veritabanını tarball olarak sunuyor
      Ben de yaklaşık bir saatte indirip sonrasında yerelde sorguladım
      Ama çoğu kişi hâlâ scraping daha kolay olduğu için dump kullanmıyor
    • Bence telif hakkı sisteminde reform gerekiyor
      Belli bir süreden sonra veriler “ulusal veri kümesine” bağışlanır, AI eğitimi için kullanılır ve gelir telif sahiplerine dağıtılır şeklinde bir yapı öneriyorum
      Böylece AI geliştiricileri, telif sahipleri ve kamu aynı anda fayda görebilir
    • Ben de kişisel olarak Tampermonkey script'i ile küçük ölçekli scraping yapıyorum
      AI ile kod ürettirip VPS fiyat listesi gibi şeyleri otomatik topluyorum
      Eskiden lowendtalk'taki tüm başlıkları çekip LLM analizi için veri kümesi de oluşturmuştum
    • /llms.txt gibi standart bir dosya oluşturup, LLM'lere gereken yalnızca saf metin verisini sunmak da bir yol olabilir
      URL, adres, telefon numarası gibi şeyler çıkarılır; yalnızca <item> ve <subitem> gibi asgari işaretleme korunur
      Tabii birçok site biçime uyan boş dosyalar koyabilir
    • Aslında bu teknik bir mesele değil, ekonomik yapının sorunu
      Büyük sermaye kısa vadeli kâr için webi bozuyor
      Ama sonunda uyum ve denge oluşacağına inanıyorum
  • Artık yalnızca AI scraper'lar değil, kullanıcıların kendisi de özet istekleriyle dolaylı scraping yapıyor
    Örneğin Firefox, bağlantıya tıklamadan da özet önizleme sunuyor
    İlgili görsel

    • Bu özellik, yerelde llama.cpp(wllama) ile çalışan SmolLM2-360M modelinin özet üretmesiyle çalışıyor
      Sonuçta tarayıcı sayfayı doğrudan getirip özetlediği için site açısından aynı istek gibi görünüyor
      Ayrıntı için Mozilla'nın resmî açıklamasına bakılabilir
    • Sorun üç parçalı
      1. AI şirketlerinin etik dışı crawling'i
      2. kullanıcıların ajan tabanlı özet istekleri
      3. bu ajanların insanlardan daha verimsiz ama çok daha hızlı olması
    • Ama kullanıcılar “eğitildikleri” için değil, sadece LLM'ler gerçekten çok iyi çalıştığı için bunu kullanıyor
  • Bu günlerin scraper'ları konut tipi IP havuzları kullanarak tespitten kaçıyor

    • Bu IP havuzlarını sağlayan ISP'lerin yeni bir gelir modeli oluşturup oluşturmadığından şüpheleniyorum
    • Üstelik artık gerçek tarayıcı çalıştıran botlar da çok, bu yüzden Cloudflare captcha'larını da geçiyorlar
      Böyle bir durumda savunmaların ne kadar süre etkili kalacağını bilmiyorum