2 puan yazan GN⁺ 2025-08-31 | 2 yorum | WhatsApp'ta paylaş
  • Bu site, Fediverse (Mastodon, Pixelfed vb.) ve Atmosphere (Bluesky, WhiteWind vb.) içinde kullanıcı verisinin ne kadar yoğunlaştığını ölçüyor
  • Sunucular arasındaki kullanıcı dağılımı düzeyini, Herfindahl–Hirschman Index (HHI) ve Shannon Index kullanarak analiz ediyor
  • HHI, ekonomide rekabet düzeyini ölçen bir göstergedir; değer düştükçe dağılım artar, yükseldikçe tekelci yoğunlaşma anlamına gelir
  • Shannon Index, entropi temelli bir çeşitlilik göstergesidir; değer yükseldikçe nüfusun sunucular arasında daha dengeli dağıldığını ifade eder
  • Bu proje, veri yoğunlaşmasının yanı sıra ağ yapısı, yasal yargı alanı, toplumsal güç yoğunlaşması gibi merkeziyetsizliği ölçen çeşitli unsurları da dikkate alıyor ve verilerle kodu GitHub’da açık olarak paylaşıyor

Giriş ve temel kavramlar

  • Fediverse ve Atmosphere platformlarında kullanıcı verisinin ne kadar yoğunlaştığı, Herfindahl–Hirschman Index (HHI) kullanılarak ölçülüyor
  • HHI, ekonomik açıdan rekabet düzeyini değerlendiren başlıca göstergelerden biridir; her sunucunun (veya PDS’nin) sahip olduğu kullanıcı payının karesinin toplanmasıyla hesaplanır
  • HHI değeri 0’a ne kadar yakınsa kullanıcıların çok sayıda sunucuya o kadar dengeli dağıldığını, 10.000’e ne kadar yakınsa kullanıcıların büyük bölümünün tek bir sunucuda toplandığı tekel durumunu gösterir
  • Genellikle HHI 100’ün altındaysa “çok rekabetçi”, 1.500’ün altındaysa “yoğunlaşmamış”, 2.500 ve üzerindeyse “yüksek yoğunlaşmış” kabul edilir

Ölçüm yöntemi ve verinin tanımı

  • Ölçüm kapsamındaki birimler, Fediverse için sunucular (instance) ve Atmosphere için PDS’lerdir (kişisel veri sunucuları)
  • Mastodon gibi kullanıcıların birden fazla instance’a dağıldığı platformlarda, aynı işletmeciye ait instance’lar tek bir toplam altında birleştirilir
    • Örnek: mastodon.social ve mastodon.online aynı şirket tarafından işletildiği için istatistiklerde birleştirilir
    • Bluesky Social PBC tarafından yönetilen tüm PDS’ler de tek bir grup olarak sayılır
  • Böylece tek bir varlığın kontrol ettiği kullanıcı ölçeği daha doğru biçimde yansıtılır

Merkeziyet ölçümüne farklı bakışlar

  • Kullanıcı verisinin fiziksel dağılımının ötesinde, merkeziyetsizlik çeşitli açılardan da analiz edilebilir
    • Ağ yapısı açısından (ör. P2P, relay vb.)
    • Kimlik yönetimi yöntemleri
    • Gerçek altyapının sahipliği ve konumu (bölge, yargı alanı vb.)
    • Toplumsal ve örgütsel güç yoğunlaşması (ör. platform içi etkinin belli yerlerde toplanması)
  • Yalnızca platform içindeki veri dağılımına değil, yetki ve etkinin ne ölçüde dağıldığına da önem vermek gerekir

Projeye katılım ve açık kaynak

  • Ölçümde kullanılan tüm kod ve veri setleri, GitHub deposunda açık olarak yayımlanmıştır
  • Katkılar, yorumlar, yeni ölçüm göstergesi önerileri ve resiliency (dayanıklılık) göstergelerinin eklenmesi memnuniyetle karşılanır

2 yorum

 
codject 2025-08-31

'Biz hâlâ merkeziyetsizleştik mi?' demek de illa yanlış sayılmaz ama kulağa doğal gelmiyor ve biraz garip duruyor.
hâlâ daha çok olumsuz cümlelerle kullanıldığı için...

Bence Merkeziyetsizlik için daha erken mi? gibi bir çeviri başlık olarak daha doğal olabilir.

 
GN⁺ 2025-08-31
Hacker News görüşü
  • Bugün ilk kez Herfindahl–Hirschman Index'i öğrendim, bu yüzden akılda kalıcı tuhaf bir örnek üzerinde denemek istedim
    1980'lerin sonlarında bir dönemde Microsoft, Macintosh elektronik tablo pazarında %100'ün üzerinde paya sahipti
    Bunun mümkün olmasının nedeni, pazar payının belli bir dönem içindeki her katılımcının satışlarının toplam pazar satışına bölünmesiyle hesaplanmasıydı; o sırada Lotus'un Lotus Jazz adlı elektronik tablosu o kadar başarısız olmuştu ki iade miktarı satış miktarını aşmıştı
    Sonuç olarak Lotus negatif pazar payına sahip oldu ve Microsoft Excel'in satışları toplam pazar satışından fazla hale gelince %100'ün üzerinde pazar payı ortaya çıktı
    Tam rakamları hatırlamıyorum ama kabaca Microsoft %102, Lotus -%2 gibiydi
    Bu durumda Herfindahl–Hirschman Index 1022 + (-2)2 = 10404 + 4 = 10408 olur
    Bu kadar uç durumlarda HHI 10.000'i aşabilir
    (Açıklık için "belirli bir dönem içinde" koşulu eklendi)

    • İnternette ilgili makaleyi bulmak için epey uğraştım ama bulamadım (belki bir yerlerde mikrofiştedir...)
      Onun yerine eğlenceli bir anekdot buldum
      Bir Lotus yöneticisinin şaka yollu şöyle dediği aktarılıyor: “İlk ay 62.000 kopya sevk ettik, sonraki ay 64.000 kopya iade edildi. Hatta korsan kopyalar bile geri getirildi.”
      İlgili Forbes yazısı

    • HHI gerçekten faydalı bir metrik
      Normalize edilmiş payların kareleri toplamı fikri, yalnızca pazar payında değil pek çok farklı durumda da iyi çalışıyor
      Oylamalarda da çok iyi kullanıldığı örnekler var

  • Sonucun ilginç olması şaşırtıcı değil
    BlueSky, ortalama kullanıcı açısından Twitter'ın yerini neredeyse alabilecek bir hizmet
    Mastodon'un toplam kullanıcı sayısı daha az olsa da, Mastodon ekosisteminin AT-Proto ekosistemi gibi merkezileşmeden kaçınması güzel görünüyor
    Ben şahsen AT proto sunucu/relay işletme maliyetlerinin küçük işletmeler için epey ağır olacağını tahmin ediyorum, ama bu iki ekosistemin iç yapısını derinlemesine bilmeden yaptığım bir tahmin

    • Kendiniz ve birkaç arkadaşınız için bir PDS sunucusu çalıştırmak pek pahalı değil
      Ama bunu yapmanın da büyük bir faydası yok; PDS'nin amacı, kişinin kendi verisi ile ağın genel verisini temiz biçimde ayırmak
      ATProto'da asıl pahalı olan Relay'dir (tüm veriyi toplayıp yayınlar) ve AppView'dir (tüm gönderileri/beğenileri vb. veritabanında tutar ve kullanıcı isteklerine yanıt verir)
      Elbette WhiteWind gibi uzun yazılar için kullanılan küçük bir ağ söz konusuysa olay sayısı az olduğu için bu gayet mümkün
      Yapının çoğu, doğrudan self-host etmek zorunda kalmayacak şekilde tasarlanmış
      Kendi algoritmik feed'inizi veya frontend'inizi, Bluesky'nin işlettiği Relay ya da AppView'den veri alarak kurabilirsiniz

    • Bence BlueSky'ın başarılı olmasının nedenlerinden biri, Mastodon gibi kullanıcılara 'dağıtık olma' fikrini öne çıkarmaması
      Kullanıcıların büyük kısmı dağıtıklığın ne olduğunu bilmiyor ve öğrenmek de istemiyor
      Bence dağıtıklıktan çok iyi operasyon ve yönetim özelliklerine emek harcamak gerekiyor

    • ATProto, farklı geçmişlerden gelen şirketler ve yatırımcılar tarafından destekleniyor
      Bir gün onlar da kazanç isteyecek ve bunun nasıl gerçekleşeceğini öngörmek zor

    • İşletme maliyetleri tartışmasına gelirsek, ATProto'nun yapısı baştan çok farklı
      Mastodon, e-posta gibi bilgi alışverişi yapan birçok ayrı Twitter benzeri sunucudan oluşuyor; bu yüzden küçük tanıdık çevrelerine yönelik bir sunucu ucuz oluyor
      Ama bu yapıda küresel ağla bağlantı zayıf ve benim sunucum aynı zamanda kimliğim oluyor
      Başka sunucudaki kullanıcıları takip ettiğinizde, benim sunucum o sunucudan bilgi istiyor ama varsayılan olarak tüm ağın görünümü parçalı kalıyor
      ATProto ise en baştan merkezi hizmetlerle rekabet edebilmek için farklı bir 'bölünme' modeliyle tasarlandı; verinin kaynağı ile uygulama katmanı ayrılmış durumda
      Bu biraz, herkesin kendi web sitesine (url) JSON koyması ve uygulamaların o veriyi bir araya getirmesine benziyor
      Sonuç olarak herkes aynı görünümü elde ediyor (tüm yorumlar, beğeniler ve yanıtlar yansıyor)
      Mastodon'da bir 'instance' bağımsız bir Twitter web uygulaması gibiyken, ATProto'da birden fazla dağıtık primitive var

      • PDS, uygulamadan bağımsız veri deposudur; doğrudan işletme maliyeti son derece düşüktür (kullanıcı başına ayda 1 doların altında), açık kaynak uygulamaları da vardır ve Git hosting'e benzer
      • AppView, gerçek uygulama backend'i gibi çalışır; tüm ağ verisini ingest eden bir Bluesky AppView'ini çalıştırmak ayda yaklaşık $300 tutar
        Mastodon tarzında yalnızca ağın bir kısmını gören bir AppView çok daha ucuz olur ama cazibesi düşük olduğu için neredeyse hiç kullanılmaz
      • Relay, birçok PDS ile AppView arasında veri yayınını optimize etmek içindir; Sync 1.1'den sonra maliyeti ciddi biçimde düştü ve ayda yaklaşık $30 seviyesine indi
        Özetle PDS ve Relay işletmek ucuzdur; pahalı olan tüm AppView'i çalıştırmaktır ve Mastodon'da buna benzer bir kavram zaten yoktur
        Mastodon'un parçalı deneyimi ile ATProto'nun tutarlı deneyimini sadece fiyat üzerinden kıyaslamak sağlıklı değil
        Kısmi bir AppView'i Mastodon gibi çalıştırmak ucuzdur ama pratikte pek çekici değildir
        Ayrıca Mastodon bunu biraz hafifletmek için on-demand fetching kullanmaya çalışıyor ama pull tabanlı dağıtık sistemlerin sınırları var
        İlgili soru
  • Sonuçta dağıtık sistemlerde de doğal olarak merkezileşme görülüyor
    Git de dağıtık olma girişimiydi ama pratikte GitHub veya GitLab gibi belli platformlarda yoğunlaştı
    BitTorrent de dağıtıktır ama tracker siteleri doğal merkezler gibi işlev görür
    Bitcoin'de de Coinbase gibi bazı hizmetler merkezi rol üstlenir
    E-posta (SMTP) da spam sorunu nedeniyle fiilen merkezileşmiş durumda

    • E-posta (SMTP) için “spam filtrelemeyi ancak büyük sağlayıcılar yapabilir” demek doğru değil
      Eski dağıtık spam filtreleme listeleri de var ve büyük sağlayıcıların spam filtrelemede özel bir üstünlüğü de yok
      Sadece büyük sağlayıcılar küçük posta sunucularını spam gibi görmeye daha yatkın ve gerçekten rakipleri bastırma niyetleri de olabilir
      Ama bir posta sunucusunda reverse DNS ve DKIM doğru ayarlandı diye mutlaka spam muamelesi görmeyeceğini söylemek de mümkün değil; büyük hizmetler bile birbirini spam olarak işaretleyebiliyor, yani mutlak bir durum yok

    • Tracker siteleri çeşitlidir ve biri kaybolursa yerine hızla başkası çıkar
      Bu yüzden ekosistemi kontrol eden tek bir oyuncu yok; dolayısıyla hâlâ dağıtık sayılabilir

    • Coinbase gibi hizmetleri herkes kurabilir
      Gerçekten de çok sayıda benzer site var ve artık PayPal da kullanılabiliyor
      Tek bir hizmete bağımlı olmanız gerekmiyor; örneğin PayPal'dan bitcoin alıp Coinbase'de satabilirsiniz
      Böyle bir durumu merkezileşme diye tanımlamak bana tuhaf geliyor

    • Git'in kendisi aslında dağıtık olmayı hedefleyen bir araç değildi; bu da ayrı bir nokta

    • Bahsedilen tüm örneklerde sonuçta bir tür merkezileşme unsuru var

  • Fedi'de daha fazla dağıtıklık var ama tutarlılık açısından daha zayıf
    Fedi'ye gelen kullanıcıların en çok şikâyet ettiği şey de bu
    Ben kişisel olarak bunu büyük bir sıçrama olarak görüyorum ve kabul edilebilir buluyorum, ama gerçekçi beklentiler koymak daha önemli

    • Tutarlılık (consistency) ile tam olarak ne kastedildiğini merak ediyorum (Fediverse'ü hiç kullanmadığım için bağlamı bilmiyorum)
  • IRC, NNTP gibi eski federatif sistemlerin HHI benzeri yöntemlerle nasıl ölçülebileceğini merak ediyorum
    Geçmiş sistemlerin bu tür metriklerde nasıl sonuçlar vereceği ilgimi çekiyor

    • freenode el değiştirince neredeyse bir hafta içinde herkesin taşınmış olması gibi bir örnek var
      Bu geçişin bu kadar kolay ve mümkün olması ilginç

    • Küçük, yarı özel ortamlarda özellikle web frontend üzerinden scroll-back sunuluyorsa IRC hâlâ harika
      Ama ölçek fazla büyüdüğünde siyaset ve kültürel farklar yüzünden dağılmaya başlıyor
      Benzer eğilimdeki insanlar bir aradaysa çok iyi çalışıyor ama tamamen herkese açık olduğunda fikir ayrılıkları, troller ve yapay zeka botları gibi sorunlar çıkıyor
      Web arayüzünü yarı özel tutup basit kimlik doğrulama, referrer engelleme gibi önlemlerle güvenlik tehditleri, kargaşa ve üçüncü taraf botlar önlenebilir
      NNTP de fena değil ama tüm binary gruplarını tek tek mirror etmek kolay değil ve ISP'ler artık desteklemediği için çoğu kişi ticari haber akışları veya ücretsiz Usenet sağlayıcıları kullanıyor
      Sansür riskini azaltmak için bazı ücretsiz sağlayıcılarla peering yapmak iyi olur
      Hem IRC hem NNTP'de bireyler kendi özel veya yarı özel bağlantılı sunucu ağlarını kurabilir
      İlgili bilgi

    • Matematiksel olarak hesaplamak kolay ve ilgili ağ istatistiklerine netsplit.de üzerinden bakılabilir

  • Nostr da bu HHI dağılımına eklense ilginç olurdu
    Nostr'da kullanıcı tabanı yoğunlaşması, fedi modelinin ana zayıflıklarından biri olarak görülüyor; fakat Nostr'da kullanıcı kimliği tek bir relay üzerinde olmadığı için uygulama biraz garip sonuç verebilir

    • Çünkü Nostr istemcilerinin çoğu veriyi birden fazla relay'e gönderiyor ve hesabın kendisi kullanıcının cihazındaki açık anahtar çifti
  • Bu merkezileşme/dağıtıklık sorununun her zaman pazarlama ve UX sorunu olup olmadığını düşünüyorum

  • Threads'in Fediverse'e dahil olması ilginç değişiklikler yaratabilir

    • Threads de kendi içinde daha güçlü gizlilik kontrollerini opt-in olarak sunuyor ama sonuçta Fediverse içinde “kullanıcı verisini sahiplenen sunucu”lardan biri sayılabilir diye düşünüyorum
  • Dengeyi iyi kurmak önemli
    Fazla dağıtık olursa kimse bir şeyi bulamaz, fazla merkezi olursa sansür yüzünden özgürlük kaybolur

    • Ben şahsen dağıtık bir ortamda keşfedilebilirliğin gerçekten imkânsız olup olmadığını merak ediyorum
      Eğer indeksleme için yeterli kaynak (para/insan gücü vb.) ayrılırsa, denge noktası ters çevrilmiş bir sarkacı dengede tutmak gibi kararsız olabilir
      Blogların altın çağında olduğu gibi arama motorları (merkezi) ile bloglar/forumlar (bireysel) arasında bir uyum vardı; ama zamanla spam ve büyük platformların birleşmesiyle bu zayıfladı

    • 'Keşfetme' işlevinin mutlaka bir merkezileşme unsuru gerektirdiği varsayımına dikkat çekmek isterim

    • Ekonomi literatüründe HHI değeri 100'ün altındaysa 'yoğun rekabet', 1500'ün altındaysa 'yoğunlaşmamış', 2500'ün üstündeyse 'yüksek yoğunlaşmış' sayılır
      Fediverse neredeyse en sol uçta olmasına rağmen şimdiden 690 seviyesinde
      Tam merkezileşme (yukarı doğru tamamen yığılmış durum) 5000'dir
      Aslında doğrusal olmayan bir ölçeği doğrusal biçimde gösteriyorsunuz

    • Yapay olmayan, gerçek bir seçenek özgürlüğü istiyorum
      Kullanıcının merkezileşme, dağıtıklık, hibrit gibi seçenekleri kendisinin seçebildiği bir yapı olmasını isterim

    • Eğer 'fazla dağıtık' diye bir eleştiri varsa, kâr amacı gütmeyen bir kuruluş, kamuya açık host'ların gönüllü olarak kaydolduğu bir indeks oluşturup tüm dağıtık içeriğin bulunmasını sağlayabilir
      Böylece arama sorunu da çözülebilir
      Sonuçta Facebook'un Threads ile bu tür verileri çekmeye çalışması da muhtemel

  • HHI metriğinin kendisi yeni ve anlaşılması kolay
    0-100'e ölçekleyip (100'e bölerek) sunmak sayıların daha sezgisel görünmesini sağlayabilir
    Ayrıca 0 merkezileşme, 100 tam dağıtıklık olacak şekilde ters çevirmek de düşünülebilir
    Ana sayfadaki başlıktan, dağıtıklığa doğru bir 'ilerleme' ölçülüyormuş hissi geliyor; bu yüzden öyle olması daha sezgisel olabilir

    • Ama bunu 0-100 aralığına normalize etmemenin sebebi, insanların sayıyı doğrusal algılamasını engellemek olabilir
      2500 gibi bir puanı görünce insanlar bunun ne anlama geldiğini merak eder; ama 25/100 görünce 'yüksek yoğunlaşma' hissi daha az güçlü olabilir