- Bu site, Fediverse (Mastodon, Pixelfed vb.) ve Atmosphere (Bluesky, WhiteWind vb.) içinde kullanıcı verisinin ne kadar yoğunlaştığını ölçüyor
- Sunucular arasındaki kullanıcı dağılımı düzeyini, Herfindahl–Hirschman Index (HHI) ve Shannon Index kullanarak analiz ediyor
- HHI, ekonomide rekabet düzeyini ölçen bir göstergedir; değer düştükçe dağılım artar, yükseldikçe tekelci yoğunlaşma anlamına gelir
- Shannon Index, entropi temelli bir çeşitlilik göstergesidir; değer yükseldikçe nüfusun sunucular arasında daha dengeli dağıldığını ifade eder
- Bu proje, veri yoğunlaşmasının yanı sıra ağ yapısı, yasal yargı alanı, toplumsal güç yoğunlaşması gibi merkeziyetsizliği ölçen çeşitli unsurları da dikkate alıyor ve verilerle kodu GitHub’da açık olarak paylaşıyor
Giriş ve temel kavramlar
- Fediverse ve Atmosphere platformlarında kullanıcı verisinin ne kadar yoğunlaştığı, Herfindahl–Hirschman Index (HHI) kullanılarak ölçülüyor
- HHI, ekonomik açıdan rekabet düzeyini değerlendiren başlıca göstergelerden biridir; her sunucunun (veya PDS’nin) sahip olduğu kullanıcı payının karesinin toplanmasıyla hesaplanır
- HHI değeri 0’a ne kadar yakınsa kullanıcıların çok sayıda sunucuya o kadar dengeli dağıldığını, 10.000’e ne kadar yakınsa kullanıcıların büyük bölümünün tek bir sunucuda toplandığı tekel durumunu gösterir
- Genellikle HHI 100’ün altındaysa “çok rekabetçi”, 1.500’ün altındaysa “yoğunlaşmamış”, 2.500 ve üzerindeyse “yüksek yoğunlaşmış” kabul edilir
Ölçüm yöntemi ve verinin tanımı
- Ölçüm kapsamındaki birimler, Fediverse için sunucular (instance) ve Atmosphere için PDS’lerdir (kişisel veri sunucuları)
- Mastodon gibi kullanıcıların birden fazla instance’a dağıldığı platformlarda, aynı işletmeciye ait instance’lar tek bir toplam altında birleştirilir
- Örnek:
mastodon.social ve mastodon.online aynı şirket tarafından işletildiği için istatistiklerde birleştirilir
- Bluesky Social PBC tarafından yönetilen tüm PDS’ler de tek bir grup olarak sayılır
- Böylece tek bir varlığın kontrol ettiği kullanıcı ölçeği daha doğru biçimde yansıtılır
Merkeziyet ölçümüne farklı bakışlar
- Kullanıcı verisinin fiziksel dağılımının ötesinde, merkeziyetsizlik çeşitli açılardan da analiz edilebilir
- Ağ yapısı açısından (ör. P2P, relay vb.)
- Kimlik yönetimi yöntemleri
- Gerçek altyapının sahipliği ve konumu (bölge, yargı alanı vb.)
- Toplumsal ve örgütsel güç yoğunlaşması (ör. platform içi etkinin belli yerlerde toplanması)
- Yalnızca platform içindeki veri dağılımına değil, yetki ve etkinin ne ölçüde dağıldığına da önem vermek gerekir
Projeye katılım ve açık kaynak
- Ölçümde kullanılan tüm kod ve veri setleri, GitHub deposunda açık olarak yayımlanmıştır
- Katkılar, yorumlar, yeni ölçüm göstergesi önerileri ve resiliency (dayanıklılık) göstergelerinin eklenmesi memnuniyetle karşılanır
2 yorum
'Biz hâlâ merkeziyetsizleştik mi?'demek de illa yanlış sayılmaz ama kulağa doğal gelmiyor ve biraz garip duruyor.hâlâdaha çok olumsuz cümlelerle kullanıldığı için...Bence
Merkeziyetsizlik için daha erken mi?gibi bir çeviri başlık olarak daha doğal olabilir.Hacker News görüşü
Bugün ilk kez Herfindahl–Hirschman Index'i öğrendim, bu yüzden akılda kalıcı tuhaf bir örnek üzerinde denemek istedim
1980'lerin sonlarında bir dönemde Microsoft, Macintosh elektronik tablo pazarında %100'ün üzerinde paya sahipti
Bunun mümkün olmasının nedeni, pazar payının belli bir dönem içindeki her katılımcının satışlarının toplam pazar satışına bölünmesiyle hesaplanmasıydı; o sırada Lotus'un Lotus Jazz adlı elektronik tablosu o kadar başarısız olmuştu ki iade miktarı satış miktarını aşmıştı
Sonuç olarak Lotus negatif pazar payına sahip oldu ve Microsoft Excel'in satışları toplam pazar satışından fazla hale gelince %100'ün üzerinde pazar payı ortaya çıktı
Tam rakamları hatırlamıyorum ama kabaca Microsoft %102, Lotus -%2 gibiydi
Bu durumda Herfindahl–Hirschman Index 1022 + (-2)2 = 10404 + 4 = 10408 olur
Bu kadar uç durumlarda HHI 10.000'i aşabilir
(Açıklık için "belirli bir dönem içinde" koşulu eklendi)
İnternette ilgili makaleyi bulmak için epey uğraştım ama bulamadım (belki bir yerlerde mikrofiştedir...)
Onun yerine eğlenceli bir anekdot buldum
Bir Lotus yöneticisinin şaka yollu şöyle dediği aktarılıyor: “İlk ay 62.000 kopya sevk ettik, sonraki ay 64.000 kopya iade edildi. Hatta korsan kopyalar bile geri getirildi.”
İlgili Forbes yazısı
HHI gerçekten faydalı bir metrik
Normalize edilmiş payların kareleri toplamı fikri, yalnızca pazar payında değil pek çok farklı durumda da iyi çalışıyor
Oylamalarda da çok iyi kullanıldığı örnekler var
Sonucun ilginç olması şaşırtıcı değil
BlueSky, ortalama kullanıcı açısından Twitter'ın yerini neredeyse alabilecek bir hizmet
Mastodon'un toplam kullanıcı sayısı daha az olsa da, Mastodon ekosisteminin AT-Proto ekosistemi gibi merkezileşmeden kaçınması güzel görünüyor
Ben şahsen AT proto sunucu/relay işletme maliyetlerinin küçük işletmeler için epey ağır olacağını tahmin ediyorum, ama bu iki ekosistemin iç yapısını derinlemesine bilmeden yaptığım bir tahmin
Kendiniz ve birkaç arkadaşınız için bir PDS sunucusu çalıştırmak pek pahalı değil
Ama bunu yapmanın da büyük bir faydası yok; PDS'nin amacı, kişinin kendi verisi ile ağın genel verisini temiz biçimde ayırmak
ATProto'da asıl pahalı olan Relay'dir (tüm veriyi toplayıp yayınlar) ve AppView'dir (tüm gönderileri/beğenileri vb. veritabanında tutar ve kullanıcı isteklerine yanıt verir)
Elbette WhiteWind gibi uzun yazılar için kullanılan küçük bir ağ söz konusuysa olay sayısı az olduğu için bu gayet mümkün
Yapının çoğu, doğrudan self-host etmek zorunda kalmayacak şekilde tasarlanmış
Kendi algoritmik feed'inizi veya frontend'inizi, Bluesky'nin işlettiği Relay ya da AppView'den veri alarak kurabilirsiniz
Bence BlueSky'ın başarılı olmasının nedenlerinden biri, Mastodon gibi kullanıcılara 'dağıtık olma' fikrini öne çıkarmaması
Kullanıcıların büyük kısmı dağıtıklığın ne olduğunu bilmiyor ve öğrenmek de istemiyor
Bence dağıtıklıktan çok iyi operasyon ve yönetim özelliklerine emek harcamak gerekiyor
ATProto, farklı geçmişlerden gelen şirketler ve yatırımcılar tarafından destekleniyor
Bir gün onlar da kazanç isteyecek ve bunun nasıl gerçekleşeceğini öngörmek zor
İşletme maliyetleri tartışmasına gelirsek, ATProto'nun yapısı baştan çok farklı
Mastodon, e-posta gibi bilgi alışverişi yapan birçok ayrı Twitter benzeri sunucudan oluşuyor; bu yüzden küçük tanıdık çevrelerine yönelik bir sunucu ucuz oluyor
Ama bu yapıda küresel ağla bağlantı zayıf ve benim sunucum aynı zamanda kimliğim oluyor
Başka sunucudaki kullanıcıları takip ettiğinizde, benim sunucum o sunucudan bilgi istiyor ama varsayılan olarak tüm ağın görünümü parçalı kalıyor
ATProto ise en baştan merkezi hizmetlerle rekabet edebilmek için farklı bir 'bölünme' modeliyle tasarlandı; verinin kaynağı ile uygulama katmanı ayrılmış durumda
Bu biraz, herkesin kendi web sitesine (url) JSON koyması ve uygulamaların o veriyi bir araya getirmesine benziyor
Sonuç olarak herkes aynı görünümü elde ediyor (tüm yorumlar, beğeniler ve yanıtlar yansıyor)
Mastodon'da bir 'instance' bağımsız bir Twitter web uygulaması gibiyken, ATProto'da birden fazla dağıtık primitive var
Mastodon tarzında yalnızca ağın bir kısmını gören bir AppView çok daha ucuz olur ama cazibesi düşük olduğu için neredeyse hiç kullanılmaz
Özetle PDS ve Relay işletmek ucuzdur; pahalı olan tüm AppView'i çalıştırmaktır ve Mastodon'da buna benzer bir kavram zaten yoktur
Mastodon'un parçalı deneyimi ile ATProto'nun tutarlı deneyimini sadece fiyat üzerinden kıyaslamak sağlıklı değil
Kısmi bir AppView'i Mastodon gibi çalıştırmak ucuzdur ama pratikte pek çekici değildir
Ayrıca Mastodon bunu biraz hafifletmek için on-demand fetching kullanmaya çalışıyor ama pull tabanlı dağıtık sistemlerin sınırları var
İlgili soru
Sonuçta dağıtık sistemlerde de doğal olarak merkezileşme görülüyor
Git de dağıtık olma girişimiydi ama pratikte GitHub veya GitLab gibi belli platformlarda yoğunlaştı
BitTorrent de dağıtıktır ama tracker siteleri doğal merkezler gibi işlev görür
Bitcoin'de de Coinbase gibi bazı hizmetler merkezi rol üstlenir
E-posta (SMTP) da spam sorunu nedeniyle fiilen merkezileşmiş durumda
E-posta (SMTP) için “spam filtrelemeyi ancak büyük sağlayıcılar yapabilir” demek doğru değil
Eski dağıtık spam filtreleme listeleri de var ve büyük sağlayıcıların spam filtrelemede özel bir üstünlüğü de yok
Sadece büyük sağlayıcılar küçük posta sunucularını spam gibi görmeye daha yatkın ve gerçekten rakipleri bastırma niyetleri de olabilir
Ama bir posta sunucusunda reverse DNS ve DKIM doğru ayarlandı diye mutlaka spam muamelesi görmeyeceğini söylemek de mümkün değil; büyük hizmetler bile birbirini spam olarak işaretleyebiliyor, yani mutlak bir durum yok
Tracker siteleri çeşitlidir ve biri kaybolursa yerine hızla başkası çıkar
Bu yüzden ekosistemi kontrol eden tek bir oyuncu yok; dolayısıyla hâlâ dağıtık sayılabilir
Coinbase gibi hizmetleri herkes kurabilir
Gerçekten de çok sayıda benzer site var ve artık PayPal da kullanılabiliyor
Tek bir hizmete bağımlı olmanız gerekmiyor; örneğin PayPal'dan bitcoin alıp Coinbase'de satabilirsiniz
Böyle bir durumu merkezileşme diye tanımlamak bana tuhaf geliyor
Git'in kendisi aslında dağıtık olmayı hedefleyen bir araç değildi; bu da ayrı bir nokta
Bahsedilen tüm örneklerde sonuçta bir tür merkezileşme unsuru var
Fedi'de daha fazla dağıtıklık var ama tutarlılık açısından daha zayıf
Fedi'ye gelen kullanıcıların en çok şikâyet ettiği şey de bu
Ben kişisel olarak bunu büyük bir sıçrama olarak görüyorum ve kabul edilebilir buluyorum, ama gerçekçi beklentiler koymak daha önemli
IRC, NNTP gibi eski federatif sistemlerin HHI benzeri yöntemlerle nasıl ölçülebileceğini merak ediyorum
Geçmiş sistemlerin bu tür metriklerde nasıl sonuçlar vereceği ilgimi çekiyor
freenode el değiştirince neredeyse bir hafta içinde herkesin taşınmış olması gibi bir örnek var
Bu geçişin bu kadar kolay ve mümkün olması ilginç
Küçük, yarı özel ortamlarda özellikle web frontend üzerinden scroll-back sunuluyorsa IRC hâlâ harika
Ama ölçek fazla büyüdüğünde siyaset ve kültürel farklar yüzünden dağılmaya başlıyor
Benzer eğilimdeki insanlar bir aradaysa çok iyi çalışıyor ama tamamen herkese açık olduğunda fikir ayrılıkları, troller ve yapay zeka botları gibi sorunlar çıkıyor
Web arayüzünü yarı özel tutup basit kimlik doğrulama, referrer engelleme gibi önlemlerle güvenlik tehditleri, kargaşa ve üçüncü taraf botlar önlenebilir
NNTP de fena değil ama tüm binary gruplarını tek tek mirror etmek kolay değil ve ISP'ler artık desteklemediği için çoğu kişi ticari haber akışları veya ücretsiz Usenet sağlayıcıları kullanıyor
Sansür riskini azaltmak için bazı ücretsiz sağlayıcılarla peering yapmak iyi olur
Hem IRC hem NNTP'de bireyler kendi özel veya yarı özel bağlantılı sunucu ağlarını kurabilir
İlgili bilgi
Matematiksel olarak hesaplamak kolay ve ilgili ağ istatistiklerine netsplit.de üzerinden bakılabilir
Nostr da bu HHI dağılımına eklense ilginç olurdu
Nostr'da kullanıcı tabanı yoğunlaşması, fedi modelinin ana zayıflıklarından biri olarak görülüyor; fakat Nostr'da kullanıcı kimliği tek bir relay üzerinde olmadığı için uygulama biraz garip sonuç verebilir
Bu merkezileşme/dağıtıklık sorununun her zaman pazarlama ve UX sorunu olup olmadığını düşünüyorum
Threads'in Fediverse'e dahil olması ilginç değişiklikler yaratabilir
Dengeyi iyi kurmak önemli
Fazla dağıtık olursa kimse bir şeyi bulamaz, fazla merkezi olursa sansür yüzünden özgürlük kaybolur
Ben şahsen dağıtık bir ortamda keşfedilebilirliğin gerçekten imkânsız olup olmadığını merak ediyorum
Eğer indeksleme için yeterli kaynak (para/insan gücü vb.) ayrılırsa, denge noktası ters çevrilmiş bir sarkacı dengede tutmak gibi kararsız olabilir
Blogların altın çağında olduğu gibi arama motorları (merkezi) ile bloglar/forumlar (bireysel) arasında bir uyum vardı; ama zamanla spam ve büyük platformların birleşmesiyle bu zayıfladı
'Keşfetme' işlevinin mutlaka bir merkezileşme unsuru gerektirdiği varsayımına dikkat çekmek isterim
Ekonomi literatüründe HHI değeri 100'ün altındaysa 'yoğun rekabet', 1500'ün altındaysa 'yoğunlaşmamış', 2500'ün üstündeyse 'yüksek yoğunlaşmış' sayılır
Fediverse neredeyse en sol uçta olmasına rağmen şimdiden 690 seviyesinde
Tam merkezileşme (yukarı doğru tamamen yığılmış durum) 5000'dir
Aslında doğrusal olmayan bir ölçeği doğrusal biçimde gösteriyorsunuz
Yapay olmayan, gerçek bir seçenek özgürlüğü istiyorum
Kullanıcının merkezileşme, dağıtıklık, hibrit gibi seçenekleri kendisinin seçebildiği bir yapı olmasını isterim
Eğer 'fazla dağıtık' diye bir eleştiri varsa, kâr amacı gütmeyen bir kuruluş, kamuya açık host'ların gönüllü olarak kaydolduğu bir indeks oluşturup tüm dağıtık içeriğin bulunmasını sağlayabilir
Böylece arama sorunu da çözülebilir
Sonuçta Facebook'un Threads ile bu tür verileri çekmeye çalışması da muhtemel
HHI metriğinin kendisi yeni ve anlaşılması kolay
0-100'e ölçekleyip (100'e bölerek) sunmak sayıların daha sezgisel görünmesini sağlayabilir
Ayrıca 0 merkezileşme, 100 tam dağıtıklık olacak şekilde ters çevirmek de düşünülebilir
Ana sayfadaki başlıktan, dağıtıklığa doğru bir 'ilerleme' ölçülüyormuş hissi geliyor; bu yüzden öyle olması daha sezgisel olabilir
2500 gibi bir puanı görünce insanlar bunun ne anlama geldiğini merak eder; ama 25/100 görünce 'yüksek yoğunlaşma' hissi daha az güçlü olabilir