- Son dönemde yapay zeka şirketlerinin izinsiz veri toplaması nedeniyle MetaBrainz sunucuları aşırı yük altında kalıyor
- Bu şirketler robots.txt kurallarını yok sayıyor ve MusicBrainz verilerini sayfa sayfa tarıyor; bu da yüzlerce yıl sürecek kadar verimsiz bir yöntem
- Aynı davranış ListenBrainz API’sine de yayılmış durumda; hizmeti korumak için kimlik doğrulama tokenı zorunluluğu ve bazı API’lerin kapatılması önlemleri devreye alındı
- LB Radio artık yalnızca giriş yapmış kullanıcılar tarafından kullanılabiliyor ve API çağrılarında da Authorization header gerekiyor
- Bu önlemlerin, normal kullanıcıların erişilebilirliğini korumak için gerekli bir müdahale olduğu belirtiliyor
AI scraper’larının yol açtığı sunucu aşırı yüklenmesi sorunu
- MetaBrainz ekibi son birkaç aydır yapay zeka modeli eğitimi için veri toplamak amacıyla yapılan izinsiz taramalara karşı mücadele ediyor
- Bazı yapay zeka şirketleri robots.txt gibi temel internet nezaket kurallarını yok sayarak veri çekiyor
- MusicBrainz verilerine her seferinde tek bir sayfa isteyerek erişiyorlar; bu, toplu indirmeye göre daha verimsiz ve sunucuda yük oluşturuyor
- Bu yaklaşım yüzlerce yıl sürecek düzeyde verimsiz ve sonuç olarak gerçek kullanıcıların erişimini engelliyor
ListenBrainz API’yi koruma önlemleri
- AI scraper’ları ListenBrainz’in çeşitli API endpoint’lerinden veri toplamaya çalışıyor
- Bunun üzerine şu değişiklikler yapıldı:
/metadata/lookup API’si (GET ve POST) artık yalnızca Authorization tokenı ile çalışıyor
- ListenBrainz Labs API içindeki
mbid-mapping, mbid-mapping-release, mbid-mapping-explain endpoint’leri kaldırıldı
- Bu API’ler aslında debugging amacıyla sunuluyordu ve ileride yeni mapper için endpoint’lerle değiştirilecek
- LB Radio artık yalnızca giriş yapmış kullanıcılar tarafından kullanılabiliyor ve API çağrılarında Authorization header gerekiyor
Hizmet kararlılığını korumak için acil önlem
- MetaBrainz, bu kararların hizmetin aşırı yüklenmesini önlemek ve normal çalışmayı sürdürmek için kaçınılmaz olduğunu söylüyor
- Kullanıcılardan önceden haber verilmeyen değişiklikler nedeniyle özür dileniyor; yıl sonu projesi tamamlandıktan sonra hata mesajlarının iyileştirileceği belirtiliyor
Topluluk tepkisi
- Yorumlarda AI scraper’larının verimsiz yaklaşımı ve otomatik web spider yapısı üzerine tartışmalar sürüyor
- Bazı kullanıcılar “yapay zeka çalışanlarının beceriksizliğine” dikkat çekiyor
- Diğerleri ise “otomatik crawler’ların yalnızca bağlantıları takip ederek veri topladığını” söylüyor
Genel anlamı
- MetaBrainz’in attığı adımlar, yapay zeka için veri toplamanın açık veri projelerine verdiği zararı gösteren bir örnek
- Kamusal API’lerin sürdürülebilirliği için daha güçlü kimlik doğrulama ve erişim kısıtlamaları kaçınılmaz hale geliyor
1 yorum
Hacker News görüşleri
Metabrainz gerçekten harika bir kamu yararına veritabanı
Geçmişte EFF blog yazısında bu konu hakkında yazmıştım
Metabrainz gibi kamusal verilerin AI botları tarafından alınması sorun değil, ama şu anki gibi verimsiz yöntemlerle kazınması sorun
Sonuçta bu bir koordinasyon başarısızlığı meselesi. Metabrainz botların iyi niyetli olduğunu varsayıyor, ama botlar sitenin veriyi sakladığını düşünüyor
“API'ye vurmayı bırakın, burada duran gzipped tar dosyasını tek seferde indirin” deseniz bile inanmıyorlar
Hatta torrent dosyası olarak sunulsa botlar veriyi daha iyi paylaşabilir
2016'dan beri herkese açıktı ama kaynak tüketimi çok arttığı için artık sadece destekçilere açık
Aylık 60 dolarlık bir hobi projesi olduğu için sürdürmek zor. İleride destek artarsa bot savunma çözümü ekleyip yeniden açabilirim
Ama bunun sadece benim yaşadığım bir sorun olmadığını öğrenince şaşırdım. Sonunda internet giderek daha kapalı bir yere dönüşüyor gibi görünüyor
Standartta böyle bir özellik var mı bilmiyorum
Ben de zamanında özel tracker'dan atılmamak için upload oranımı şişirmiştim
Site sahibinin iradesini yok saymak yanlış bir yaklaşım
Gerçek bir yapay zekanın sayfayı okuyup karar vermesi değil, linkleri takip ederek belge toplayan otomasyon kodu sadece
AI, özgür web ekosistemini yok ediyor
Web hostum, bir anda patlayan bot trafiği yüzünden hesabımı askıya aldı
Sonunda yeni bir hosta taşındım ama bireysel işletmecilerin bu durumda umudu yok
AI şirketlerinin sonsuz kaynakları var ve verdikleri zararla ilgilenmiyorlar
Alaycı bakarsak bu kasıtlı bir strateji bile olabilir — ücretsiz siteleri ortadan kaldırıp insanların sonunda bilgiye yalnızca AI modelleri üzerinden ulaşmasını sağlamak
Bilgi paylaşımının ekonomik zemini çöküyor
Sonunda değeri az sayıda şirket tekelleştirecek ve sonra enshittification başlayacak
Çocuğumun okulunun PTA web sitesini yönetiyorum ve OpenAI botu etkinlik takvimini rastgele kazıyordu
1000 yılından 3000 yılına kadar istekler geldi
User-Agent'i engelleyince ancak 4 saat kadar sonra durdu
Google Cloud'un e2-micro VPS'i üzerinde statik web sitesi ve cgit instance'ı çalıştırıyorum
160 gün içinde OpenAI ve Claude'dan 8,5 milyondan fazla istek aldım
Bu yüzden lighttpd'de User-Agent içinde “claude|openai” varsa 403 döndürecek şekilde ayarladım ve nftables ile hız sınırlaması uyguladım
Asıl sorun konut tipi proxy kullanan botnet'ler. Normal bir tarayıcıymış gibi geliyorlar
Bunu Microsoft mu engelliyor, yoksa blogum botların ilgilenmeyeceği kadar önemsiz mi diye düşünüyorum
Cloudflare artık AI scraper tespit hizmeti sunuyor
Tespit edilen botları sonsuz döngüde AI üretimi sayfalara yönlendiriyor
Sonuçta üçüncü bir tarafın içeriğime erişimi kimin belirleyeceği konusunda söz sahibi olması rahatsız edici
Ben de çok şikâyet ettiğim için sonunda kaldırdım
SQLite ekibi de benzer bir sorun yaşadı
Kurucusu Richard Hipp, “zaten tüm depoyu klonlayabilirsiniz, yine de başkalarına zarar vererek kazıyorsunuz” diyerek bunu “bencilce davranış” diye eleştirdi
Ayrıntı için ilgili forum yazısına bakılabilir
Zaman geçtikçe tüm crawling işinin Common Crawl gibi ortak kanallarda toplanması gerektiğini daha çok düşünüyorum
Sunucu yükünü azaltırken webin açıklığını ve scrape edilebilirliğini korumak gerek
Örneğin
/well-known/altında zaman damgalı veri dökümü bağlantıları koymayı standartlaştırabilirizBen de yaklaşık bir saatte indirip sonrasında yerelde sorguladım
Ama çoğu kişi hâlâ scraping daha kolay olduğu için dump kullanmıyor
Belli bir süreden sonra veriler “ulusal veri kümesine” bağışlanır, AI eğitimi için kullanılır ve gelir telif sahiplerine dağıtılır şeklinde bir yapı öneriyorum
Böylece AI geliştiricileri, telif sahipleri ve kamu aynı anda fayda görebilir
AI ile kod ürettirip VPS fiyat listesi gibi şeyleri otomatik topluyorum
Eskiden lowendtalk'taki tüm başlıkları çekip LLM analizi için veri kümesi de oluşturmuştum
/llms.txtgibi standart bir dosya oluşturup, LLM'lere gereken yalnızca saf metin verisini sunmak da bir yol olabilirURL, adres, telefon numarası gibi şeyler çıkarılır; yalnızca
<item>ve<subitem>gibi asgari işaretleme korunurTabii birçok site biçime uyan boş dosyalar koyabilir
Büyük sermaye kısa vadeli kâr için webi bozuyor
Ama sonunda uyum ve denge oluşacağına inanıyorum
Artık yalnızca AI scraper'lar değil, kullanıcıların kendisi de özet istekleriyle dolaylı scraping yapıyor
Örneğin Firefox, bağlantıya tıklamadan da özet önizleme sunuyor
İlgili görsel
Sonuçta tarayıcı sayfayı doğrudan getirip özetlediği için site açısından aynı istek gibi görünüyor
Ayrıntı için Mozilla'nın resmî açıklamasına bakılabilir
Bu günlerin scraper'ları konut tipi IP havuzları kullanarak tespitten kaçıyor
Böyle bir durumda savunmaların ne kadar süre etkili kalacağını bilmiyorum