Google, yapay zeka anlaşması sayesinde Reddit'te çalışan tek arama motoru oldu

(404media.co)

8 puan yazan GN⁺ 2024-07-25 | 1 yorum | WhatsApp'ta paylaş

Google artık Reddit sonuçlarını gösterebilen tek arama motoru
Reddit kısa süre önce robots.txt dosyasını güncelleyerek Google dışındaki tüm arama motorlarının taramasını engelledi
Bing, DuckDuckGo, Mojeek, Qwant gibi Google'ın indekslemesine bağlı olmayan alternatif arama motorlarında son 1 haftaya ait Reddit arama sonuçları görülemiyor
- DuckDuckGo, Reddit aramalarında 7 bağlantı gösteriyor ancak bağlantıların hedefi ya da neden gösterildiğine dair bilgi vermiyor
- Kagi, Google'ın arama indeksinin bir kısmını satın aldığı için Reddit araması yapabiliyor
Bu gelişme, Google'ın arama tekeli nedeniyle diğer şirketlerin rekabet etme kabiliyetinin zayıfladığı bir dönemde yaşanıyor
Reddit ve Google basının yorum taleplerine yanıt vermedi ancak diğer arama motorlarının dışlanmasının, Google'a yapay zeka ürünlerini eğitmek için Reddit verisini kazıma hakkı veren milyonlarca dolarlık anlaşmadan kaynaklandığı görülüyor

Mojeek CEO'sunun tepkisi

Mojeek CEO'su Colin Hayhurst, haziran başında Mojeek'in Reddit'i taramasının engellendiğini fark ettiklerini ve e-postayla iletişime geçtiklerini ancak yanıt alamadıklarını söyledi
Hayhurst, "Bazen cehalet ya da aptallık yüzünden engellendiğimiz olur ama iletişime geçtiğimizde çözülebilirdi; bu kez ise kimseden yanıt alamamamız emsalsiz bir durum" dedi
Reddit'in yalnızca tarayıcıları engellemekle kalmayıp, Mojeek'in tarayıcısını da aktif biçimde engellediği belirtiliyor

Yapay zeka şirketlerinin veri kazımasına karşı artan engelleme eğilimi

Çok sayıda web sitesi, eğitim verisi kazıyan botları engellemek için robots.txt dosyalarını güncelliyor ve bu yöndeki girişimler belirgin biçimde artıyor
Google yakın zamanda, arama sonuçlarını iyileştirmek için Googlebot'u ve Gemini uygulamasını geliştirmek için Google-Extended adlı iki tarayıcıyı devreye aldı
robots.txt dosyaları yalnızca bir yönergeden ibaret ve tarayıcılar bunu görmezden gelebilir

Reddit'in adımının arka planı

Reddit, büyük dil modellerini eğitmek amacıyla siteyi kazıyan yapay zeka şirketlerinden rahatsızdı ve bunu durdurmak için açık ve agresif adımlar atıyordu
Geçen yıl API erişimini ücretli hale getirmesiyle birçok üçüncü taraf uygulama çalıştırılamayacak kadar pahalı hale gelerek kapandı
Bu yılın başında ise Google ile 60 milyon dolarlık bir anlaşma imzaladı ve Google'ın yapay zeka ürünlerini eğitmek için Reddit içeriğini lisanslamasına izin verdi

Reddit'in `robots.txt` dosyasındaki değişiklik

Önceden şakalar içeren karmaşık bir yapısı varken kısa süre önce sade ve katı hale geldi
Şu anda yalnızca User-agent: *, Disallow: / yönergesini içeriyor; bu da hiçbir botun sitenin hiçbir bölümünü kazımaması gerektiği anlamına geliyor
Reddit, "Açık internete inanıyoruz ama açık içeriğin kötüye kullanılmasına göz yumamayız" görüşünü paylaştı

Reddit'in tutumu

Son dönemde ticari aktörlerin Reddit'i kazıyıp kullanım şartları ya da politikalara bağlı olmadıklarını iddia ettiği örnekler artıyor
robots.txt arkasına saklanıp Reddit içeriğini herhangi bir amaçla kullanabileceklerini söylemeleri daha da ciddi bir sorun
Kötü niyetli aktörleri tespit edip proaktif biçimde engellemek için ellerinden geleni yapacaklarını ancak Reddit kullanıcılarının katkılarını korumak için daha fazlasının gerektiğini söylüyorlar
Bundan sonra robots.txt yönergelerini mümkün olduğunca açık biçimde güncelleyecekler. Otomatik ajanlarla Reddit'e erişiliyorsa kullanım şartlarına ve politikalara uyulmalı ve Reddit ile iletişim kurulmalı

Ticari olmayan amaçlarla Reddit verisine erişim hâlâ mümkün

Reddit, "iyi niyetli aktörlerin (araştırmacılar, internet arşivleri vb.) ticari olmayan amaçlarla Reddit içeriğine erişmeye devam edebileceğini" söyledi
Reddit verisine büyük ölçekli erişim için güvenilir aktörleri seçici biçimde belirlediklerini ifade ediyor
Reddit veri erişim rehberine göre "arama veya web sitesi reklamcılığı" "ticari kullanım" sayılıyor ve izin ya da ücret ödenmeden Reddit verisi kullanılamıyor

Yalnızca Google'ın Reddit aramasını desteklemesinin anlamı

Google aramasının alaka düzeyi giderek düşerken, hâlâ iyi sonuç almanın yollarından biri arama sorgusuna "Reddit" eklemek
Bunun nedeni, Reddit'te yaklaşık 20 yıldır gerçek kullanıcıların tavsiye ve öneriler bırakıyor olması
Artık kullanıcıları bu bilgiye yalnızca Google yönlendirebiliyor ve bunun, yapay zeka eğitim verisiyle ilgili 60 milyon dolarlık anlaşmanın sonucu olması; tüm interneti üretken yapay zeka araçlarını güçlendirmek için ayrım gözetmeden kazımanın istenmeyen sonuçlarına dair bir başka örnek

Mojeek CEO'sunun endişesi

Mojeek, 20 yıldır saygılı bir biçimde tarama yapan; yapay zeka eğitmeyen ve takip de etmeyen geleneksel bir arama motoru
Reddit'in Google ile yaptığı anlaşma, web'i aramanın alternatif yollarını sunmayı zorlaştırıyor
Bu, web'i yavaş yavaş öldüren ve aşındıran daha geniş bir eğilimin parçası
Olanlar küçük şirketlere yardımcı olmuyor

GN⁺ görüşü

Reddit'in adımı, içerik üreticilerinin haklarını korumayı ve ticari kötüye kullanımı önlemeyi amaçlasa da arama motoru pazarındaki rekabeti zayıflatabilir
Özellikle Google'ın yapay zeka eğitimi için Reddit verisini fiilen tekeline alması, Google'ın pazar gücünü kötüye kullanabileceği endişelerini doğuruyor
Uzun vadede içerik sağlayıcılar, arama motorları ve yapay zeka şirketleri arasında birlikte var olabilecek kurallar ve politikaların acilen oluşturulması gerekiyor gibi görünüyor
Öte yandan, arama kalitesindeki düşüşe alternatif olarak Reddit aramasının öne çıkması başlı başına ironik. Temelde arama motorlarının alaka düzeyini ve çeşitliliğini artırmaya yönelik çabalara ihtiyaç var
Kagi gibi Google arama indeksini kısmen kullanırken aynı zamanda özgün bir yaklaşım arayan yeni arama motorlarının büyümesini de izlemekte fayda var

1 yorum

GN⁺ 2024-07-25

Hacker News görüşleri

Reddit'in robots.txt değişikliği yapay zeka bağlamında anlaşılabilir, ancak diğer arama motorlarına karşı rekabeti bozucu
Bu, internet için tehlikeli bir emsal olabilir
Birçok site, indeksleme için ücret talep etme gücüne sahip olabilir
Belirli sitelerdeki yanıtlara ulaşmak için belirli arama motorlarını kullanmak zorunda olduğumuz bir dünya gelebilir
Verimlilik açısından bakıldığında, web sitelerinin verilerini arama motorlarına kiralaması daha iyi
Gerçekte şu anda sadece iki arama motoru var
Bu, Kagi için çok kötü bir durum, ancak hobi olarak işletilen ticari olmayan webin yeniden keşfedilmesine de yol açabilir
ABD hukukuna göre robots.txt veya kullanım koşullarındaki değişiklikler web scraper'lar için bağlayıcı değil
- Bunun nedeni verilerin herkese açık şekilde erişilebilir olması
- Siteyi kullanırken kullanım koşullarını kabul ettiren bir banner gösterilse bile bağlayıcı değil
- Ancak veri erişimi kısıtlanır ve yalnızca hesap oluşturarak erişim mümkün hale getirilirse bağlayıcılık oluşur
Reddit bir ay önce robots.txt dosyasını değiştirdi
- 19 yıl boyunca oldukça cömert bir robots.txt kullanmıştı
- Görünüşe göre veri kötüye kullanımı nedeniyle değiştirildi
- Arama motorları verileri eğitim için kullanmayacaklarını kabul ederse yeniden açılma ihtimali var
Yapay zeka botlarının siteleri scrape ederek LLM eğitmesi sorunu giderek ciddileşiyor
- Örnek: thegreatestbooks.org sitesi 24 saat içinde 1,2 milyon bot/otomasyon isteği aldı
Reddit, yalnızca Google'da çalışan tek arama motoru haline geldi
Reddit'in davranışının rekabeti bozucu olmadığını anlamak zor
- Google'ın rakiplerine de benzer koşullarla sunulması gerekir mi

Google, yapay zeka anlaşması sayesinde Reddit'te çalışan tek arama motoru oldu

Mojeek CEO'sunun tepkisi

Yapay zeka şirketlerinin veri kazımasına karşı artan engelleme eğilimi

Reddit'in adımının arka planı

Reddit'in robots.txt dosyasındaki değişiklik

Reddit'in tutumu

Ticari olmayan amaçlarla Reddit verisine erişim hâlâ mümkün

Yalnızca Google'ın Reddit aramasını desteklemesinin anlamı

Mojeek CEO'sunun endişesi

GN⁺ görüşü

İlgili okumalar

1 yorum

Hacker News görüşleri

Reddit'in `robots.txt` dosyasındaki değişiklik