Botlar, Fazlasıyla Çok Bot

(wakatime.com)

1 puan yazan GN⁺ 2024-10-02 | 1 yorum | WhatsApp'ta paylaş

ProductHunt, 1 milyondan fazla kayıtlı kullanıcısı olan bir ürün lansman platformu, ancak herkese açık veri analizinde kullanıcıların %60'tan fazlası otomatik bot hesabı olarak sınıflandırıldı
Ürün açıklamasına bir LLM prompt injection eklenip doğrudan lansman yapıldığında, yorumların neredeyse tamamının otomatik olduğu görüldü; son yorumların önemli bir kısmı da ChatGPT tarafından yazılmış gibi görünüyordu
Bir hesabın bot olup olmadığını yalnızca herkese açık verilerle kesinleştirmek zor olduğundan, hesap etkinlik süresi, upvote örüntüleri, diğer botlarla çakışma ve yorum içeriğini birleştiren bir risk puanı ile değerlendirme yapıldı
2018'den sonra bot kayıtları gerçek kullanıcı kayıtlarını geçti; 2022'de ise bot upvote'ları gerçek upvote'ları aşarak oy ringlerinin sıralamayı etkiliyor olma ihtimalini büyüttü
ProductHunt lansmanı hâlâ görünürlük fırsatı olabilir, ancak yorum etkileşimi ve SEO etkisi beklemek yerine kısa hazırlanıp aşırı zaman harcamamak daha gerçekçi görünüyor

ProductHunt'ta ortaya çıkan bot etkinliği

ProductHunt, 2014'ün başından beri en yeni teknoloji ürün lansmanlarını takip etmek, yorumlarla benzer araçlar bulmak veya kendi ürününe geri bildirim toplamak için faydalıydı
Son dönemde ürün yorumlarının çoğu ChatGPT tarafından üretilmiş yorumlar gibi göründüğü için, ürün açıklamasına basit bir LLM prompt injection eklenerek doğrudan bir lansman denendi
Lansmandan sonra yorumların neredeyse tamamının otomatik olduğunun görülmesi, ProductHunt'ta ürün çıkaranların yorumlara cevap vermesinin zaman kaybı olabileceği sorusunu büyüttü
Ücret karşılığı upvote sağladığını söyleyen e-postalar gelmeye devam ediyor ve Reddit'te ProductHunt upvote'unu iki kez satın aldığını söyleyen örnekler de var

Analizde kullanılan herkese açık veriler

Herkese açık olarak erişilebilen ProductHunt kullanıcı, lansman, upvote ve yorum listeleri analiz edildi
Veri ölçeği şöyleydi
- Kullanıcı kaydı: 1 milyondan fazla
- Lansman: 300 binden fazla
- Yorum: 2,5 milyon
- Upvote: 20 milyon
Her ürün için, lansman tarihine göre PDT gece yarısından 24 saat sonraki puanı ifade eden bir günlük sıralama bulunuyor
- 1. sıra daily rank 1
- Bazı ürünlerde rank değeri null; bunun nedeni silinme, raporlanma veya yayımlanmama olabilir

Bot hesapları belirleme yöntemi

Sadece herkese açık verilerle bot tespiti zor olduğu için tek bir ölçüt yeterli olmadı
İlk başta kullanıcı yorum zamanları analiz edilerek örüntü bulunmaya çalışıldı
- Bir kullanıcı 677 günlük üyelik süresinde 2.009 yorum ve 4.649 upvote ile otomasyon kullanan güçlü bir kullanıcı gibi görünüyordu, ancak bot olarak sınıflandırılmadı
- Başka bir kullanıcı 140 günlük üyelikte 173 yorum ve 246 upvote üretmişti; yorum aralıkları düzenliydi ve grafik pürüzsüz değil kutu biçimli görünüyordu
Sonunda birden fazla sinyal birleştirilerek her kullanıcıya bir risk puanı verildi
- Hesap etkinlik süresi
- Zamana göre upvote örüntüsü
- Diğer botlarla paylaşılan upvote sayısı
- Yorum içeriği
ChatGPT üretimi yorumlarda game-changer gibi kelimeler daha sık görülüyordu
Bot yorumlarında, genelde elle yazması zor em-dash gibi karakterler ya da çok uzun veya ™ içeren ürün adlarının aynen kullanıldığı örnekler vardı
Bazı bot hesapları gerçek kişilerin LinkedIn adlarını ve biyografilerini aynen kullanıyordu, ancak ilgili kişiler ProductHunt hesabı açmadıklarını söyledi
Kümeleme kısmen işe yaradı, ancak birçok bot hesap kullanıldıktan sonra terk edildiği için, çeşitli rastgele oylamalar içinde yalnızca birinin başka botlarla çakıştığı durumlar sık görüldü
- cupy ve cudf üzerinde GPU'da gereken metodlar uygulanmadığından, kümeleme yalnızca küçük veri kümelerinde çalıştırıldı
- Daha deneyimli biri yaklaşırsa bot tespiti geliştirilebilir
Analiz sonucunda kullanıcı kayıtlarının %60'tan fazlası otomatik bot hesabı olarak tespit edildi
- Bu, tüm botların yakalandığı anlamına gelmediği için temkinli bir oran
- ProductHunt'ın iç verileri olsaydı bot etkinliğini daha doğru saptamak daha kolay olurdu

Zaman içinde bot etkinliğindeki değişim

Kullanıcı kayıtları
- 2018'den sonra bot kullanıcılar gerçek kullanıcılardan daha fazla oluşturuldu
Yorumlar
- 2022 sonundan itibaren bot yorumlar ciddi biçimde arttı
- Bu dönem, ChatGPT'nin yaygın olarak erişilebilir hâle geldiği zamana benziyor
- 2024'teki sıçrama, zaman içinde bot hesapların silinmesinden kaynaklanıyor olabilir
- Yeni hesaplar henüz silinmemiş olabileceğinden yorumlara erişim daha kolay olabilir
Upvote'lar
- 2022'de bot upvote'ları gerçek kullanıcı upvote'larını geçti
- Botlar, ProductHunt bültenine girme olasılığını artırmak için oy ringleri oluşturuyor
Sıralama
- Çoğu lansman gerçekte yalnızca birkaç upvote alıyor
- Botlar karışık görünmek için rastgele oy verdiğinden, bot upvote eğilim çizgisi gerçek kullanıcı upvote'larından daha pürüzsüz görünüyor

Günlük sıralama ile bot upvote'ları arasındaki ilişki

ProductHunt'ta 1. olan lansman günlük ve haftalık bültenlerde tanıtılıyor
1. sırayı almak için %15 bot oyu güvenli bir seviye gibi görünüyordu
Bot oy oranı %60'ı aşan lansmanlar, bir nedenle 1. sıraya çıkmıyor gibi görünüyordu
Yalnızca 2020 sonrası lansmanlara bakıldığında, son dönemde üst sıralardaki gönderilerde botlar upvote'ların daha büyük bölümünü oluşturuyor
Upvote satın alan lansmanların yüksek kaliteli ürünler olmama ihtimali nedeniyle, 1. sıra yerine çoğunlukla ilk 5'te kaldığı düşünülüyor

ProductHunt lansmanının gerçek etkisi

Yorumların ve upvote'ların çoğu bot olsa da ProductHunt'ta hâlâ bazı gerçek kullanıcılar olabilir
Botlara para ödeyip bültende yer alınırsa daha fazla gerçek insanın ürünü görme ihtimali olabilir
ProductHunt lansmanının backlink SEO etkisi yok
- Google'ın bunu backlink sayabilmesi için ürüne giden a bağlantı öğesinde nofollow olmaması gerekir
- ProductHunt ürün bağlantılarında nofollow bulunduğundan arama motorları bunu backlink olarak saymaz
- Ürüne yalnızca tek bağlantı girildiğinde, gerçek bağlantı değil, JavaScript ile ürün sayfasını açan bir button öğesi kullanılır
- Başka toplama siteleri lansmanı alıp bağlantı verebilir, ancak ProductHunt'ın kendisi backlink olarak sayılmaz
Yatırımcılar arasında ProductHunt #1 rozetini önemseyen bir grup var; bu nedenle yatırımcılarla konuşurken faydalı olabilir
Genel olarak ProductHunt'ta lansman yapmaya değer olabilir, ancak hazırlığa birkaç dakikadan fazla harcamamak ve yorumlara cevap vererek zaman kaybetmemek daha iyi görünüyor

Kalan analizler ve ilgili projeler

Bot oyları çıkarıldığında günün 1 numaralı lansmanının değişip değişmediğini görmek için botsuz bir lansman listesi oluşturulmak isteniyordu
Gerçekte para ödememiş olmasına rağmen bot upvote'u yüksek olan lansmanları işaretlemek istenmediği ve ödeme yapmış lansmanlara da ek tanıtım sağlamak istenmediği için bu analiz sonraki bir yazıya bırakıldı
İlgili tartışma HN üzerinde yer alıyor
ProductHunt sorununu iyileştirmeye yönelik girişim olarak wonderful.dev ve wonderful.dev/alan da birlikte tanıtılıyor

1 yorum

GN⁺ 2024-10-02

Hacker News yorumları

ProductHunt’ın herhangi bir CAPTCHA çözümü kullanıp kullanmadığını merak ediyorum
CAPTCHA genelde çok eleştirilir, ama bu tür spam saldırılarının çoğunu engellemekte hâlâ büyük değer taşıdığını düşünüyorum. Kullanılabilirlik, erişilebilirlik ve gizlilik sorunları son yıllarda kullanıcı girdisi olmadan çalışan ve gizliliği de koruyan yöntemlerle iyileştirildi; gelişmiş botların bunu aşabildiği eleştirisine gelince, düşük eforlu botları engellemek için geleneksel teknikler tek başına bile yeterince faydalı. Gerçek insan kullanan saldırılarda CAPTCHA zaten uygun araç değil; sitenin ayrı savunma önlemleri olması gerekir, ama bunun bugün gördüğümüz spam’in ana nedeni olmadığını düşünüyorum
- Şu sıralar, insan olma olasılığının yüksek olduğunu kanıtlayan, bir tür teminat içeren sistem kurulabilir mi diye düşünüyorum
  Örneğin “kanıtlayıcı” bir sitede istediğiniz bir hayır kurumuna tek seferlik 5 dolar bağış yaparsanız, para harcadığınızı gösteren bir kanıt token’ı alırsınız; HN gibi iş birliği yapan siteler de bu token’ı yakarak hesabı insan olma olasılığı yüksek ya da en azından engellenirse sahibine zarar yazacak bir bot olarak işaretleyebilir. Bu, birden çok ulusal kimlik sorgulama sisteminden çok daha gizlilik dostu olur; “söz hakkını parayla satın almak” gibi görünse de ücretsiz sistemlerde harcanan zaman, ulaşım masrafı ve evrak işinden gerçekte daha ucuz olabilir. Büyük sorunlar muhtemelen çalıntı kartlarla token satın alınan sahte ödemeler, parayı alıp ortadan kaybolan kanıtlayıcı siteler, kanıt token’larını gizlice toplayan hedef siteler ve birden fazla bağış sitesi ile hesap sitesinin farklı token’lara ayrı ayrı güvendiği merkeziyetsiz işlem olacak gibi
- CAPTCHA çözme hizmetleri endüstrisi zaten var ve çoğu, iş gücünün ucuz olduğu bölgelerdeki insanları kullanıyor
  Popüler hizmetlerden birinde reCAPTCHA başına $0.001–$0.002 civarında, dolayısıyla kullanmak için yüksek bir teknik seviye de gerekmiyor. Her yorum için CAPTCHA gerekse bile yılda yaklaşık 50 dolara günde 100 yorumla bir siteye spam yapılabilir; ortalama bir script kiddie elenebilir ama spam’den para kazanılabiliyorsa kolayca kâr edilir. Bu tür hizmetleri “uç vaka” saymak zor
- Web sitesi operatörleri veriyi herkese açık yapmak isterken kopyalanmasını da engellemek istiyor
  Bu, çalışmayan DRM ile aynı içsel çelişki. Web geliştiricileri de MB’larca JavaScript ve aşırı karmaşık tasarımlarla siteleri şişiriyor; oysa yalnızca statik site ve CDN kullanmak çok daha ucuz olabilir
- Neredeyse kusursuz çözüm, tüm gönderileri manuel incelemek
  Otomasyon sistemini spam’e karşı ilk savunma hattı olarak kullanıp, geçen gönderileri tek tek kontrol edecek insanlar işe almak yeterli. İnsan tarafından yüklenmiş olsa bile bu süreçte belli bir kalite standardı da sağlanabilir. İlk spam filtresine takılan meşru gönderiler, e-posta vb. yoluyla itiraz edilerek manuel inceleme kuyruğuna alınabilir. Kolay değil ve yayımlanması zaman alabilir, ama spam ve düşük kaliteli içerik fiilen sıfıra yakın hale gelebilir
- VPN kullandığım için zaten sık sık CAPTCHA’ya takılan biri olarak bunun daha da artmamasını umarım
  Bunlara harcanan insan zamanının ne kadar olduğunu düşünmek gerek
Yaklaşık 5 yıl önce ProductHunt’ta ürün yayımladığımda da onlarca 1. sıra garantili tanıtım teklifi almıştım
Gönderiyi yayımladıktan literally bir saat sonra mesajlar yağmaya başladı; şimdi muhtemelen daha da kötüdür
Kullanıcının bot olup olmadığını doğrulamanın yolu olmayan keyfî bir sınıflandırmadan başlayıp analiz yapmak sorunlu
O sınıflandırma yanlışsa analizin tamamı yanlış olur. Özellikle “2022 sonlarında ChatGPT yaygın kullanılmaya başladığı sıralarda bot yorumları hızla arttı” kısmı dikkat çekiyor; çünkü sınıflandırma ölçütlerinden biri “ChatGPT tarafından üretilen yorumlarda game-changer gibi kelimelerin sıklığı yüksek olur, em dash veya ™ gibi yazması zor karakterler ve uzun ürün adları aynen yer alır” şeklinde. Yani ChatGPT gibi davranıyorsa bot diye sınıflandırıp, ChatGPT çıktıktan sonra böyle kullanıcıların arttığını ilginç bir bulgu gibi görüyorlar. Öncesinde de çok bot vardı ama başka yazılımlar kullandıkları için farklı davranıyorlardı ve bu yüzden tespit edilememiş olabilir
- Doğru, ama ChatGPT kullanan bot sınıflandırması isabetliyse ChatGPT üretimi yorumların gerçekten hızla artmış olması başlı başına kayda değer
  Ve bu sınıflandırma doğruysa, ChatGPT kullanmayan botlar da dahil edildiğinde toplam bot sayısı eksik hesaplanıyor olsa bile bot üretimi yorumların gerçek insan yorumlarını çok aştığı gerçeği de önemli. Elbette dediğin gibi burada epey “eğer” var; varsayım çökerse sonuç da çöker
- Yazı prompt injection testiyle başlıyor ve varsayımlar kanıtla destekleniyor
  Öyle değilse alternatif bir sınıflandırma yöntemi önermek gerekir; aksi halde kötü niyetli görünür ve yardımcı olmaz
- Bu tür istatistiksel yöntemler, yorum alanının botlarla dolu olup olmadığını anlamakta doğru olabilir; ama tek bir yorumun bot olup olmadığına karar vermekte çok daha az isabetlidir
ProductHunt’ta kimlerin bulunduğu temel soru
Müşteriler mi? Şüpheli; indie hacker’lar mı? Muhtemelen. Kime satış yaptığımızı ve en başta PH’de lansman yapmanın anlamı olup olmadığını değerlendirmek gerekiyor
- Çok iyi bir nokta
  PH’de lansman yaptık, o gün 1. ve o hafta 1. olduk; ama yeni müşteri neredeyse hiç artmadı, bunun yerine yatırımcılardan çok inbound aldık. Fon toplama sürecindeyseniz değerli, ama değilseniz müşterilerinizin olduğu yere gitmelisiniz. Bizim müşterilerimiz PH kullanıcısı değildi
Analiz harika, ama ProductHunt’ın “gerçek” bir web sitesi olması bana daha da şaşırtıcı geliyor
Uzun zaman önce ublacklist ile PH’yi engellemiştim; çünkü SEO tanıtımı/çöp gibi görünüyordu ve neredeyse hiç içeriği olmayan “VS/karşılaştırma/en iyi 5 uygulama” tarzı sitelere çok benziyordu. Bu tür siteler, elle filtreleyebileceğinizden daha hızlı ortaya çıkıyor. Tekrar kontrol edip tamamen üretilmiş içerik olmadığını öğrendikten sonra bile, arama sonuçlarında tesadüfen karşıma çıksaydı değer önerisini hâlâ anlamazdım
- PH’de iyi sıralama almayı oldukça önemseyen birkaç şirket biliyorum, ama tepkim aynıydı
  Gerçek son kullanıcılar ya da şirketler burayı gerçekten önemsiyor mu?
Botlar ve insanların eğilimi biraz endişe verici
Tespit edilen insanlar zaman geçtikçe daha az oy veriyor ve yorum yapıyor gibi görünüyor; botlar ise tam tersine artıyor. Bu, ölü internet teorisinin doğru olduğuna dair başka bir işaret mi?
- DIT yanlış adlandırılmış
  Henüz gerçekleşmediği ama gelecekte gerçekleşeceği anlamında ölü internet kehaneti daha iyi bir ifade olurdu
- Bununla bağlantılı olarak, HN’de gerçek insanlar 6 saatte 5 yorumla sınırlı; ama kötü niyetli aktörlerin bu sınırı aşması için sadece yüzlerce hesap oluşturması yeterli
Eskiden web sitelerine oy verilen bir Güven Ağı (WOT) vardı
İnsanlara yönelik bir güven ağı bot savunmasına yardımcı olabilir mi? Gerçekten insan olduğumu garanti edebilecek aşağı yukarı on kadar hesabım varsa ve başkaları da bana oy verebiliyorsa bir güven ağı kurulabilir. Elbette bir başlangıç kümesi gerekir, ama doğrulanmış hesaplar veya sosyal medya bağlantıları ve etkileşimleriyle bunu nispeten kolayca oluşturmak mümkün. X ve Meta hangi hesapların bot olduğunu oldukça kesin biçimde biliyor olmalı, ancak bu bilgiyi bir hizmet olarak sunmaya pek ilgi duymuyor gibi görünüyorlar
- Yapay zeka giderek daha iyi hale gelecek
  Arkasında gerçek bir insan olduğuna inandıracak bir çevrim içi varlık inşa etme amacıyla kullanılan yapay zekaların ortaya çıkmasına çok uzak değiliz. Sahte bir kişi, sıradan faaliyetler yaptığı üretken videolar bile paylaşabilir. Sonunda bir güven ağına, kanıtlara ve ajan itibar puanlarına ihtiyaç duyulacak gibi; bunların da gerçek dünyada yüz yüze etkileşimler, devletin belirli ölçüde desteği, görüntüleri ve metaveriyi doğrulayabilen kameralar gibi unsurları içermesi gerekecek. İçerik tüketirken gerçekliğini doğrulamak isteyenler bu sisteme katılmak ya da mevcut basında kalmak zorunda olacak; bazı ülkeler vatandaşların doğru haber tüketmesine yardımcı olacak yasalar çıkarabilir. Ancak karşı tarafın kimliğini gerçekten bilmeden oldukça güçlü bir güven ağı kurmanın bir yolu olmadığını düşünüyorum. Bu yüzden bu güven ağı suçlular ve devletler tarafından hedef bulmak için de kullanılacak. Yapay zekanın insan taklidi yapmasına izin vermenin toplumsal maliyeti çok yüksek olduğundan, bunu yasaklayan düzenlemeler değerli olabilir
- Sonuçta müşterinin siz olmadığınızı, müşterinin bir reklamveren olduğunu hatırlamak gerekir
  Daha fazla reklam satmak için kullanıcı sayılarını şişirmek bu hizmetlerin temel işlevi
- Böyle bir sistem, ulusal kolaylık amaçlarına göre silinip süpürülecek ve çarpıtılacaktır
Reddit’te çok fazla yorumu olmayan birkaç paylaşımım var; yaklaşık her hafta GPT tabanlı bir bot gelip “Vay! Gerçekten düşündürücü, bunun neden önemli olduğunu merak ediyorum” gibi son derece bariz sorular bırakıyor
Bana, sisteme daha fazla veri besletmeye yönelik bir girişim gibi görünüyor. Reddit’in etkileşimi teşvik etmek için böyle botları bizzat çalıştırmasına şaşırmam
- Reddit’in geçmişine bakmak yeterli
  Botlar mümkün olmadan önce, insanlar tarafından doğrudan yönetilen sahte hesaplarla kürasyon yapılıyordu; artık botlar mümkün hale geldiğine göre popüler subreddit’lerdeki yorumların ve gönderilerin çoğunun bot olduğuna güçlü biçimde inanıyorum. Bunların önemli bir kısmını Reddit’in bizzat işlettiğini düşünüyorum

Botlar, Fazlasıyla Çok Bot

ProductHunt'ta ortaya çıkan bot etkinliği

Analizde kullanılan herkese açık veriler

Bot hesapları belirleme yöntemi

Zaman içinde bot etkinliğindeki değişim

Kullanıcı kayıtları

Yorumlar

Upvote'lar

Sıralama

Günlük sıralama ile bot upvote'ları arasındaki ilişki

ProductHunt lansmanının gerçek etkisi

Kalan analizler ve ilgili projeler

İlgili okumalar

1 yorum

Hacker News yorumları