2 puan yazan GN⁺ 2024-07-31 | 1 yorum | WhatsApp'ta paylaş

en.osm.town tanıtımı

  • en.osm.town, Mastodon tabanlı dağıtık sosyal ağın bir parçasıdır
  • OpenStreetMap topluluğunun bağımsız bir topluluğudur ve OpenStreetMap Foundation tarafından finanse edilir
  • Sunucu istatistikleri: 257 aktif kullanıcı

Ana içerik

  • Grant Slater, AI şirketlerine OpenStreetMap verilerini gizlice scrape etmek yerine 10.000 dolar bağış yapmalarını öneriyor
  • 50.000 dolar bağış yapılması durumunda gerçek zamanlı akış güncellemelerinin de sağlanabileceğini belirtiyor
  • Bart Louwers, OpenStreetMap scrape etmenin yaygın olduğunu söylüyor
  • wikiyu, planet.osm verisini kullanmanın daha verimli olduğunu savunuyor
  • Josua, yapay zekanın verimsiz yöntemlerle eğitildiğini eleştiriyor
  • Juan Luis, Read the Docs tarafında da benzer bir AI crawler istismarı sorunu yaşandığını belirtiyor
  • Simon Poole, makul bir yöntemin AI şirketlerinin imajına zarar verebileceğini savunuyor
  • Michał, belirli bir ülkedeki yüklenicilere OSM verisini indirme görevi verilmiş olabileceğini öne sürüyor
  • leadingzero, OSM lisans gerekliliklerinin düzgün şekilde uygulanmadığını eleştiriyor
  • Grant Slater, tile özelliklerini takip etmek için bir GitHub deposu oluşturduğunu belirtiyor
  • Guillaume Rischard, yakın zamanda Almanya'da hukuki bir sorunu çözdüklerini söylüyor
  • Adderall girl grindset (Jes), AI crawler’larını engellemeyi öneriyor

GN⁺ özeti

  • Bu yazı, OpenStreetMap verilerini scrape eden AI şirketleriyle ilgili sorunu ele alıyor
  • OpenStreetMap verisini verimli kullanma yolları ile bağış karşılığında veri erişimi yaklaşımını öneriyor
  • AI crawler’larının kötüye kullanımı sorununu ve buna verilecek yanıtları tartışıyor
  • Benzer işleve sahip projeler arasında Google Maps ve Bing Maps bulunuyor

1 yorum

 
GN⁺ 2024-07-31
Hacker News görüşü
  • Yapay zeka tarayıcıları robots.txt dosyasını yok sayıyor, genel API'leri kullanmıyor ve yoğun saat yükünü gözetmediği için altyapı maliyetleri artıyor
  • OpenStreetMap Foundation başkanı, OpenStreetMap verilerinin ücretsiz olarak toplu indirilebildiğini ve scraping yerine bunun kullanılmasını öneriyor
    • Scraping, bağışlanan kaynaklara yüksek yük bindiriyor ve scraping IP'lerini engellemek de zaman ve emek gerektiriyor
    • Kaynaklara ve zamana saygı göstermek, hizmetin ücretsiz kalmasına yardımcı oluyor
  • Bir OpenStreetMap instance'ı 10 dakikada kurulabilir; bu da basit bir docker run komutuyla mümkün
    • İndeksleme zaman alıyor, ancak kullanılan kaynaklara kıyasla çok uzun sürmüyor
  • OSM verisine ihtiyaç vardı, ancak verinin nasıl alınacağı tam olarak anlaşılmamıştı
    • 100 GB'lık büyük bir dosya indirmek ve belirsiz formatlar ile kütüphaneler kullanmak gerekiyor
    • Bilgiler dağınık durumda ve HTTP API sınırlı ya da hız limiti uyguluyor
    • Sonunda, önceden dönüştürülmüş OSM verisi sağlayan ücretsiz bir proje kullanıldı
  • OP, web sitesi ve haritalama API'sini agresif biçimde scrape eden tarayıcıları sınırlayıp engelledikten sonra alaycı bir tepki verdi
    • OpenStreetMap verisi ücretsiz olarak indirilebilir; AWS S3 ve torrent üzerinden sunuluyor
    • İlk kez başlıyorsanız, küçük bölgesel extract verilerini kullanmak daha iyi olur
  • planet.osm dosyasını torrent'e koyup scraping'i yalnızca torrent üzerinden mümkün kılmak, ağ yükünü dağıtabilir
  • Yapay zeka tarayıcılarının web arayüzü üzerinden tüm dosyaların tüm revizyonlarını istemesi verimsiz
    • Bu, elektrik ve kaynak israfına yol açıyor
  • Yapay zeka şirketleri için, sonsuz döngüde anlamsız içerik üreten bir honeypot yapılması öneriliyor
  • CommonCrawl gibi projelerin, farklı şirketlerin sunucuları scrape etme ihtiyacını ortadan kaldıramamış olması üzücü
    • Bunun nedeni, daha sık ziyaret etmek istemeleri ya da yatırımcıları etkilemek için çok miktarda VC fonu harcamaları olabilir
  • Yapay zeka şirketlerinin OSM'den tam olarak ne scrape ettiğine dair bir soru var