8 puan yazan GN⁺ 2024-07-25 | 1 yorum | WhatsApp'ta paylaş
  • Google artık Reddit sonuçlarını gösterebilen tek arama motoru
  • Reddit kısa süre önce robots.txt dosyasını güncelleyerek Google dışındaki tüm arama motorlarının taramasını engelledi
  • Bing, DuckDuckGo, Mojeek, Qwant gibi Google'ın indekslemesine bağlı olmayan alternatif arama motorlarında son 1 haftaya ait Reddit arama sonuçları görülemiyor
    • DuckDuckGo, Reddit aramalarında 7 bağlantı gösteriyor ancak bağlantıların hedefi ya da neden gösterildiğine dair bilgi vermiyor
    • Kagi, Google'ın arama indeksinin bir kısmını satın aldığı için Reddit araması yapabiliyor
  • Bu gelişme, Google'ın arama tekeli nedeniyle diğer şirketlerin rekabet etme kabiliyetinin zayıfladığı bir dönemde yaşanıyor
  • Reddit ve Google basının yorum taleplerine yanıt vermedi ancak diğer arama motorlarının dışlanmasının, Google'a yapay zeka ürünlerini eğitmek için Reddit verisini kazıma hakkı veren milyonlarca dolarlık anlaşmadan kaynaklandığı görülüyor

Mojeek CEO'sunun tepkisi

  • Mojeek CEO'su Colin Hayhurst, haziran başında Mojeek'in Reddit'i taramasının engellendiğini fark ettiklerini ve e-postayla iletişime geçtiklerini ancak yanıt alamadıklarını söyledi
  • Hayhurst, "Bazen cehalet ya da aptallık yüzünden engellendiğimiz olur ama iletişime geçtiğimizde çözülebilirdi; bu kez ise kimseden yanıt alamamamız emsalsiz bir durum" dedi
  • Reddit'in yalnızca tarayıcıları engellemekle kalmayıp, Mojeek'in tarayıcısını da aktif biçimde engellediği belirtiliyor

Yapay zeka şirketlerinin veri kazımasına karşı artan engelleme eğilimi

  • Çok sayıda web sitesi, eğitim verisi kazıyan botları engellemek için robots.txt dosyalarını güncelliyor ve bu yöndeki girişimler belirgin biçimde artıyor
  • Google yakın zamanda, arama sonuçlarını iyileştirmek için Googlebot'u ve Gemini uygulamasını geliştirmek için Google-Extended adlı iki tarayıcıyı devreye aldı
  • robots.txt dosyaları yalnızca bir yönergeden ibaret ve tarayıcılar bunu görmezden gelebilir

Reddit'in adımının arka planı

  • Reddit, büyük dil modellerini eğitmek amacıyla siteyi kazıyan yapay zeka şirketlerinden rahatsızdı ve bunu durdurmak için açık ve agresif adımlar atıyordu
  • Geçen yıl API erişimini ücretli hale getirmesiyle birçok üçüncü taraf uygulama çalıştırılamayacak kadar pahalı hale gelerek kapandı
  • Bu yılın başında ise Google ile 60 milyon dolarlık bir anlaşma imzaladı ve Google'ın yapay zeka ürünlerini eğitmek için Reddit içeriğini lisanslamasına izin verdi

Reddit'in robots.txt dosyasındaki değişiklik

  • Önceden şakalar içeren karmaşık bir yapısı varken kısa süre önce sade ve katı hale geldi
  • Şu anda yalnızca User-agent: *, Disallow: / yönergesini içeriyor; bu da hiçbir botun sitenin hiçbir bölümünü kazımaması gerektiği anlamına geliyor
  • Reddit, "Açık internete inanıyoruz ama açık içeriğin kötüye kullanılmasına göz yumamayız" görüşünü paylaştı

Reddit'in tutumu

  • Son dönemde ticari aktörlerin Reddit'i kazıyıp kullanım şartları ya da politikalara bağlı olmadıklarını iddia ettiği örnekler artıyor
  • robots.txt arkasına saklanıp Reddit içeriğini herhangi bir amaçla kullanabileceklerini söylemeleri daha da ciddi bir sorun
  • Kötü niyetli aktörleri tespit edip proaktif biçimde engellemek için ellerinden geleni yapacaklarını ancak Reddit kullanıcılarının katkılarını korumak için daha fazlasının gerektiğini söylüyorlar
  • Bundan sonra robots.txt yönergelerini mümkün olduğunca açık biçimde güncelleyecekler. Otomatik ajanlarla Reddit'e erişiliyorsa kullanım şartlarına ve politikalara uyulmalı ve Reddit ile iletişim kurulmalı

Ticari olmayan amaçlarla Reddit verisine erişim hâlâ mümkün

  • Reddit, "iyi niyetli aktörlerin (araştırmacılar, internet arşivleri vb.) ticari olmayan amaçlarla Reddit içeriğine erişmeye devam edebileceğini" söyledi
  • Reddit verisine büyük ölçekli erişim için güvenilir aktörleri seçici biçimde belirlediklerini ifade ediyor
  • Reddit veri erişim rehberine göre "arama veya web sitesi reklamcılığı" "ticari kullanım" sayılıyor ve izin ya da ücret ödenmeden Reddit verisi kullanılamıyor

Yalnızca Google'ın Reddit aramasını desteklemesinin anlamı

  • Google aramasının alaka düzeyi giderek düşerken, hâlâ iyi sonuç almanın yollarından biri arama sorgusuna "Reddit" eklemek
  • Bunun nedeni, Reddit'te yaklaşık 20 yıldır gerçek kullanıcıların tavsiye ve öneriler bırakıyor olması
  • Artık kullanıcıları bu bilgiye yalnızca Google yönlendirebiliyor ve bunun, yapay zeka eğitim verisiyle ilgili 60 milyon dolarlık anlaşmanın sonucu olması; tüm interneti üretken yapay zeka araçlarını güçlendirmek için ayrım gözetmeden kazımanın istenmeyen sonuçlarına dair bir başka örnek

Mojeek CEO'sunun endişesi

  • Mojeek, 20 yıldır saygılı bir biçimde tarama yapan; yapay zeka eğitmeyen ve takip de etmeyen geleneksel bir arama motoru
  • Reddit'in Google ile yaptığı anlaşma, web'i aramanın alternatif yollarını sunmayı zorlaştırıyor
  • Bu, web'i yavaş yavaş öldüren ve aşındıran daha geniş bir eğilimin parçası
  • Olanlar küçük şirketlere yardımcı olmuyor

GN⁺ görüşü

  • Reddit'in adımı, içerik üreticilerinin haklarını korumayı ve ticari kötüye kullanımı önlemeyi amaçlasa da arama motoru pazarındaki rekabeti zayıflatabilir
  • Özellikle Google'ın yapay zeka eğitimi için Reddit verisini fiilen tekeline alması, Google'ın pazar gücünü kötüye kullanabileceği endişelerini doğuruyor
  • Uzun vadede içerik sağlayıcılar, arama motorları ve yapay zeka şirketleri arasında birlikte var olabilecek kurallar ve politikaların acilen oluşturulması gerekiyor gibi görünüyor
  • Öte yandan, arama kalitesindeki düşüşe alternatif olarak Reddit aramasının öne çıkması başlı başına ironik. Temelde arama motorlarının alaka düzeyini ve çeşitliliğini artırmaya yönelik çabalara ihtiyaç var
  • Kagi gibi Google arama indeksini kısmen kullanırken aynı zamanda özgün bir yaklaşım arayan yeni arama motorlarının büyümesini de izlemekte fayda var

1 yorum

 
GN⁺ 2024-07-25
Hacker News görüşleri
  • Reddit'in robots.txt değişikliği yapay zeka bağlamında anlaşılabilir, ancak diğer arama motorlarına karşı rekabeti bozucu
  • Bu, internet için tehlikeli bir emsal olabilir
  • Birçok site, indeksleme için ücret talep etme gücüne sahip olabilir
  • Belirli sitelerdeki yanıtlara ulaşmak için belirli arama motorlarını kullanmak zorunda olduğumuz bir dünya gelebilir
  • Verimlilik açısından bakıldığında, web sitelerinin verilerini arama motorlarına kiralaması daha iyi
  • Gerçekte şu anda sadece iki arama motoru var
  • Bu, Kagi için çok kötü bir durum, ancak hobi olarak işletilen ticari olmayan webin yeniden keşfedilmesine de yol açabilir
  • ABD hukukuna göre robots.txt veya kullanım koşullarındaki değişiklikler web scraper'lar için bağlayıcı değil
    • Bunun nedeni verilerin herkese açık şekilde erişilebilir olması
    • Siteyi kullanırken kullanım koşullarını kabul ettiren bir banner gösterilse bile bağlayıcı değil
    • Ancak veri erişimi kısıtlanır ve yalnızca hesap oluşturarak erişim mümkün hale getirilirse bağlayıcılık oluşur
  • Reddit bir ay önce robots.txt dosyasını değiştirdi
    • 19 yıl boyunca oldukça cömert bir robots.txt kullanmıştı
    • Görünüşe göre veri kötüye kullanımı nedeniyle değiştirildi
    • Arama motorları verileri eğitim için kullanmayacaklarını kabul ederse yeniden açılma ihtimali var
  • Yapay zeka botlarının siteleri scrape ederek LLM eğitmesi sorunu giderek ciddileşiyor
    • Örnek: thegreatestbooks.org sitesi 24 saat içinde 1,2 milyon bot/otomasyon isteği aldı
  • Reddit, yalnızca Google'da çalışan tek arama motoru haline geldi
  • Reddit'in davranışının rekabeti bozucu olmadığını anlamak zor
    • Google'ın rakiplerine de benzer koşullarla sunulması gerekir mi