- Google artık Reddit sonuçlarını gösterebilen tek arama motoru
- Reddit kısa süre önce
robots.txtdosyasını güncelleyerek Google dışındaki tüm arama motorlarının taramasını engelledi - Bing, DuckDuckGo, Mojeek, Qwant gibi Google'ın indekslemesine bağlı olmayan alternatif arama motorlarında son 1 haftaya ait Reddit arama sonuçları görülemiyor
- DuckDuckGo, Reddit aramalarında 7 bağlantı gösteriyor ancak bağlantıların hedefi ya da neden gösterildiğine dair bilgi vermiyor
- Kagi, Google'ın arama indeksinin bir kısmını satın aldığı için Reddit araması yapabiliyor
- Bu gelişme, Google'ın arama tekeli nedeniyle diğer şirketlerin rekabet etme kabiliyetinin zayıfladığı bir dönemde yaşanıyor
- Reddit ve Google basının yorum taleplerine yanıt vermedi ancak diğer arama motorlarının dışlanmasının, Google'a yapay zeka ürünlerini eğitmek için Reddit verisini kazıma hakkı veren milyonlarca dolarlık anlaşmadan kaynaklandığı görülüyor
Mojeek CEO'sunun tepkisi
- Mojeek CEO'su Colin Hayhurst, haziran başında Mojeek'in Reddit'i taramasının engellendiğini fark ettiklerini ve e-postayla iletişime geçtiklerini ancak yanıt alamadıklarını söyledi
- Hayhurst, "Bazen cehalet ya da aptallık yüzünden engellendiğimiz olur ama iletişime geçtiğimizde çözülebilirdi; bu kez ise kimseden yanıt alamamamız emsalsiz bir durum" dedi
- Reddit'in yalnızca tarayıcıları engellemekle kalmayıp, Mojeek'in tarayıcısını da aktif biçimde engellediği belirtiliyor
Yapay zeka şirketlerinin veri kazımasına karşı artan engelleme eğilimi
- Çok sayıda web sitesi, eğitim verisi kazıyan botları engellemek için
robots.txtdosyalarını güncelliyor ve bu yöndeki girişimler belirgin biçimde artıyor - Google yakın zamanda, arama sonuçlarını iyileştirmek için Googlebot'u ve Gemini uygulamasını geliştirmek için Google-Extended adlı iki tarayıcıyı devreye aldı
robots.txtdosyaları yalnızca bir yönergeden ibaret ve tarayıcılar bunu görmezden gelebilir
Reddit'in adımının arka planı
- Reddit, büyük dil modellerini eğitmek amacıyla siteyi kazıyan yapay zeka şirketlerinden rahatsızdı ve bunu durdurmak için açık ve agresif adımlar atıyordu
- Geçen yıl API erişimini ücretli hale getirmesiyle birçok üçüncü taraf uygulama çalıştırılamayacak kadar pahalı hale gelerek kapandı
- Bu yılın başında ise Google ile 60 milyon dolarlık bir anlaşma imzaladı ve Google'ın yapay zeka ürünlerini eğitmek için Reddit içeriğini lisanslamasına izin verdi
Reddit'in robots.txt dosyasındaki değişiklik
- Önceden şakalar içeren karmaşık bir yapısı varken kısa süre önce sade ve katı hale geldi
- Şu anda yalnızca
User-agent: *, Disallow: /yönergesini içeriyor; bu da hiçbir botun sitenin hiçbir bölümünü kazımaması gerektiği anlamına geliyor - Reddit, "Açık internete inanıyoruz ama açık içeriğin kötüye kullanılmasına göz yumamayız" görüşünü paylaştı
Reddit'in tutumu
- Son dönemde ticari aktörlerin Reddit'i kazıyıp kullanım şartları ya da politikalara bağlı olmadıklarını iddia ettiği örnekler artıyor
robots.txtarkasına saklanıp Reddit içeriğini herhangi bir amaçla kullanabileceklerini söylemeleri daha da ciddi bir sorun- Kötü niyetli aktörleri tespit edip proaktif biçimde engellemek için ellerinden geleni yapacaklarını ancak Reddit kullanıcılarının katkılarını korumak için daha fazlasının gerektiğini söylüyorlar
- Bundan sonra
robots.txtyönergelerini mümkün olduğunca açık biçimde güncelleyecekler. Otomatik ajanlarla Reddit'e erişiliyorsa kullanım şartlarına ve politikalara uyulmalı ve Reddit ile iletişim kurulmalı
Ticari olmayan amaçlarla Reddit verisine erişim hâlâ mümkün
- Reddit, "iyi niyetli aktörlerin (araştırmacılar, internet arşivleri vb.) ticari olmayan amaçlarla Reddit içeriğine erişmeye devam edebileceğini" söyledi
- Reddit verisine büyük ölçekli erişim için güvenilir aktörleri seçici biçimde belirlediklerini ifade ediyor
- Reddit veri erişim rehberine göre "arama veya web sitesi reklamcılığı" "ticari kullanım" sayılıyor ve izin ya da ücret ödenmeden Reddit verisi kullanılamıyor
Yalnızca Google'ın Reddit aramasını desteklemesinin anlamı
- Google aramasının alaka düzeyi giderek düşerken, hâlâ iyi sonuç almanın yollarından biri arama sorgusuna "Reddit" eklemek
- Bunun nedeni, Reddit'te yaklaşık 20 yıldır gerçek kullanıcıların tavsiye ve öneriler bırakıyor olması
- Artık kullanıcıları bu bilgiye yalnızca Google yönlendirebiliyor ve bunun, yapay zeka eğitim verisiyle ilgili 60 milyon dolarlık anlaşmanın sonucu olması; tüm interneti üretken yapay zeka araçlarını güçlendirmek için ayrım gözetmeden kazımanın istenmeyen sonuçlarına dair bir başka örnek
Mojeek CEO'sunun endişesi
- Mojeek, 20 yıldır saygılı bir biçimde tarama yapan; yapay zeka eğitmeyen ve takip de etmeyen geleneksel bir arama motoru
- Reddit'in Google ile yaptığı anlaşma, web'i aramanın alternatif yollarını sunmayı zorlaştırıyor
- Bu, web'i yavaş yavaş öldüren ve aşındıran daha geniş bir eğilimin parçası
- Olanlar küçük şirketlere yardımcı olmuyor
GN⁺ görüşü
- Reddit'in adımı, içerik üreticilerinin haklarını korumayı ve ticari kötüye kullanımı önlemeyi amaçlasa da arama motoru pazarındaki rekabeti zayıflatabilir
- Özellikle Google'ın yapay zeka eğitimi için Reddit verisini fiilen tekeline alması, Google'ın pazar gücünü kötüye kullanabileceği endişelerini doğuruyor
- Uzun vadede içerik sağlayıcılar, arama motorları ve yapay zeka şirketleri arasında birlikte var olabilecek kurallar ve politikaların acilen oluşturulması gerekiyor gibi görünüyor
- Öte yandan, arama kalitesindeki düşüşe alternatif olarak Reddit aramasının öne çıkması başlı başına ironik. Temelde arama motorlarının alaka düzeyini ve çeşitliliğini artırmaya yönelik çabalara ihtiyaç var
- Kagi gibi Google arama indeksini kısmen kullanırken aynı zamanda özgün bir yaklaşım arayan yeni arama motorlarının büyümesini de izlemekte fayda var
1 yorum
Hacker News görüşleri
robots.txtdeğişikliği yapay zeka bağlamında anlaşılabilir, ancak diğer arama motorlarına karşı rekabeti bozucurobots.txtveya kullanım koşullarındaki değişiklikler web scraper'lar için bağlayıcı değilrobots.txtdosyasını değiştirdirobots.txtkullanmıştı