29 puan yazan GN⁺ 2025-12-21 | 7 yorum | WhatsApp'ta paylaş
  • Anna’s Archive, Spotify’nin tüm meta verilerini ve müzik dosyalarını yedekleyerek bunu yaklaşık 300 TB’lık bir torrent arşivi olarak yayımladı
  • Yaklaşık 256 milyon parçanın meta verisini ve 86 milyon müzik dosyasını içeriyor; toplam dinlemelerin %99,6’sını kapsıyor
  • Popüler parçalar OGG Vorbis 160kbit/s özgün kalitesinde, daha az popüler parçalar ise OGG Opus 75kbit/s olarak saklanarak verimli koruma sağlandı
  • Veriler SQLite veritabanı biçiminde sunuluyor ve çalma listeleri, ses özellikleri, albüm kapakları gibi ayrıntılı yapıları da içeriyor
  • İnsanlığın müzik mirasını doğal afet, savaş, bütçe kesintileri gibi risklere karşı kalıcı olarak korumayı amaçlayan, dünyadaki ilk tamamen açık müzik koruma arşivi

Proje genel bakışı

  • Anna’s Archive, Spotify’nin tüm müzik meta verilerini ve dosyalarını büyük ölçekte scrape ederek yedekledi
    • Toplam boyut yaklaşık 300 TB ve popülerliğe göre gruplanmış torrentler halinde dağıtılıyor
    • Toplam 256 milyon parça ve 186 milyon benzersiz ISRC kodu içeriyor
  • Bu arşiv, herkesin mirror oluşturabileceği tamamen açık bir müzik koruma deposu olarak 86 milyon müzik dosyası içeriyor
    • Bu da Spotify’deki toplam dinlemelerin yaklaşık %99,6’sını temsil ediyor
  • Anna’s Archive daha önce metin odaklı korumaya (kitaplar, makaleler vb.) yoğunlaşmıştı; bu kez bunu müzik gibi metin dışı bir ortama genişletti
  • Spotify’nin yapısal scraping yöntemini keşfettikten sonra, müzik koruma odaklı bir arşiv oluşturma girişimi başlatıldı

Mevcut müzik korumanın sınırları

  • Mevcut müzik koruma girişimlerinde üç temel sorun var
    1. Popüler sanatçılara odaklanan önyargı nedeniyle niş müziklerin dışarıda kalması
    2. Kayıpsız ses kalitesine aşırı odaklanma nedeniyle verimsiz depolama kullanımı
    3. Tüm müziği temsil eden bir torrent listesinin olmaması
  • Bu Spotify yedeği, bu sorunları tamamlayarak koruma odaklı bir müzik arşivi oluşturuyor

Veri yapısı ve istatistikler

  • Spotify’deki yaklaşık 256 milyon parçanın meta verisinin %99,9’u elde edildi
  • Önceliklendirme popülerlik göstergesine (popularity) göre yapıldı
    • popularity>0 olan parçalar OGG Vorbis 160kbit/s özgün kalitesinde saklandı
    • popularity=0 olan parçalar OGG Opus 75kbit/s olarak yeniden kodlandı
  • Temmuz 2025’ten önce yayımlanan şarkıların büyük bölümü dahil edildi
  • İlk 3 parçanın (Lady Gaga, Billie Eilish, Bad Bunny) toplam stream sayısı, en alttaki 20 milyon ila 100 milyon parçanın toplamından daha fazla
  • Tüm parçaların %70’inden fazlası 1000’den az dinlemeye sahip az popüler şarkılardan oluşuyor

Torrent dağıtım yapısı

  • Veriler iki bölümden oluşuyor: meta veriler ve müzik dosyaları
    • Meta veriler: SQLite DB olarak sunuluyor, yaklaşık 200 GB (sıkıştırılmış)
    • Ses analiz verileri: 4 TB (sıkıştırılmış)
  • Müzik dosyaları Anna’s Archive Containers (AAC) formatında dağıtılıyor
    • Spotify’nin hatalı OGG paketleri temizlendikten sonra başlık, ISRC, albüm kapağı, replaygain bilgisi gibi meta veriler eklendi
    • Bazı dosyalarda REPLAYGAIN_ALBUM_PEAK etiketi hatalı

Veri keşfi ve analiz

  • Popülerlik dağılımı: Dinlemelerin büyük kısmı popularity 50~80 aralığındaki şarkılarda toplanıyor
  • Parça süresi: 2, 3 ve 4 dakika civarında zirveler görülüyor
  • Explicit içerik ve ISRC’si yinelenen parçalar ile ilgili istatistikler de yer alıyor
  • Sanatçı tür dağılımı: Hem ayrıntılı türler hem de gruplanmış türler için görselleştirmeler sunuluyor
  • Albüm çıkış yılı analizi: Son dönemde otomatik üretilen ve yapay zeka ile üretilen müzikte hızlı artış görülüyor
  • Ses özelliği analizi: BPM ortalaması yaklaşık 120; loudness ile energy arasında korelasyon doğrulandı

Meta veri ayrıntılı yapısı

  • Başlıca SQLite dosyaları
    • spotify_clean.sqlite3: Sanatçı, albüm ve parça verilerinin neredeyse eksiksiz API kopyası
    • spotify_clean_audio_features.sqlite3: Parça bazında BPM, key, energy, valence gibi ses özelliklerini saklıyor
    • spotify_clean_playlists.sqlite3: 6,6 milyon çalma listesi ve 1,7 milyar parça girdisi içeriyor
    • spotify_clean_track_files.sqlite3: Parçalar ile gerçek dosyalar arasındaki eşleme; dosya durumu, SHA256 hash’i, lisans veren bilgisi içeriyor
  • Ek JSONL dosyalarıyla audiobook, podcast, show ve episode verileri de yer alıyor
  • spotify_2025_07_coverart.tar.torrent içinde albüm kapağı görselleri saklanıyor

Katılım ve koruma çağrısı

  • Anna’s Archive, bağış yapılmasını ve torrent seeding’e katılımı teşvik ediyor
    • Küçük ölçekli seeding bile tüm arşivin korunmasına katkı sağlayabiliyor
  • Amaç, insanlığın müzik mirasını doğal afet, savaş, bütçe kesintileri gibi risklerden kalıcı olarak korumak

Ek özellikler ve deneyler

  • Tüm Spotify parçaları için “True Shuffle” özelliğinin uygulanabileceği belirtiliyor
    • SQLite sorguları üzerinden gerçek anlamda rastgele çalma listeleri üretmek mümkün
  • Yeterli ilgi oluşursa gelecekte tekil dosya indirme özelliği de eklenebilir

Özet

  • Anna’s Archive, Spotify’nin neredeyse tüm verilerini yedekleyerek dünyanın en büyük açık müzik meta veri tabanını oluşturdu
  • Tamamen açık bir koruma arşivi olarak herkes tarafından mirror’lanabiliyor
  • Veri yapısında şeffaflık, teknik hassasiyet ve uzun vadeli korunabilirlik sağlayan bir proje
  • Müzik endüstrisinin ticari platform bağımlılığının ötesine geçerek kültürel kayıtların kalıcı korunması için bir temel sunuyor

7 yorum

 
tested 2025-12-24

Spotify sinirlenecek galiba.

 
lsdcnu 2026-01-25

Spotify가 Anna’s Archive 상대 소송에서 승소하여 .org 도메인 폐쇄
Son haberlere göre yakın zamanda dava edilmiş gibi görünüyor

 
vndk2234 2025-12-23

Robin Hood ile kanun kaçağı arasında bir yerde...

 
roxie 2025-12-21

Telif hakkı da var,,,

 
devworld 2025-12-21

Artık daha önce Suno gibi yalnızca ticari alanda kalan müzik üretim modelleri open-weight open-source olarak da eğitilebilecek gibi görünüyor.

 
daumkakao 2025-12-21

İnanılmazmış, vay canına

 
GN⁺ 2025-12-21
Hacker News görüşleri
  • Gerçekten şaşırtıcı
    Spotify’ın DRM’inin kırılıp bu kadar büyük ölçekte indirme yapılabilir hale geldiğini bilmiyordum
    Sıradan kullanıcı için çok faydalı görünmeyebilir ama müzik sınıflandırma ya da üretim araştırmacıları için muazzam bir fırsat olabilir
    Yine de hangi veri setiyle eğitildiğini açıklamak zor olacaktır
    Bunun AI araştırmacılarının talebiyle mi yapıldığını, yoksa sadece koruma amacıyla mı olduğunu merak ediyorum

    • Bunun sıradan kullanıcı için faydasız olduğuna katılmıyorum
      Zaten korsan TV ve film yayınlarını otomatik olarak bulan cihazlar ve uygulamalar yaygınlaşmış durumda
      Teknik olarak fazlasıyla mümkün ve ailemde teknik olmayan kişiler bile bunu kullanıyor
      Yine de Anna’s Archive ekibi ideolojik motivasyonla hareket eden bir topluluk, yani AI şirketleri için yapmıyorlar
    • Ben Spotify kullanmıyorum
      Müzik gerektiğinde YouTube’dan ytldp ile alıyordum ama artık bunu da neredeyse hiç yapmıyorum
      Müziğe kıyasla YouTube’u daha çok haber ya da arka planda bir şeyler açmak için kullanıyorum
      Google’ın bunu kontrol etmesi biraz üzücü
    • Aslında müzik dosyalarından çok metadata daha değerli olabilir
    • “Müzik sınıflandırma araştırmacıları için yapılmış bir şey” demek, sanatçıları desteklememeyi meşrulaştırma gibi geliyor
      Asıl doğru yön, Spotify gibi şirketleri düzenleyip müzisyenlerin adil şekilde karşılık almasını sağlamak
      Böyle veri paylaşımları ise tam tersine AI çöpü üretimini teşvik ediyor
    • Bu tür materyallerle Lidarr benzeri müzik otomatik toplama araçlarını parça bazında yapmak daha kolay hale gelebilir
  • Ölçeği düşününce gerçekten akıl almaz
    Eskiden What.CD, “müzik dünyasının İskenderiye Kütüphanesi” diye anılırdı ve o zaman bile birkaç milyon torrent düzeyindeydi
    Oysa Anna’nın Spotify rip’i 186 milyon benzersiz kayıt içeriyor
    Elbette son kısımda bot müzikleri gibi şeyler de karışmış olabilir ama ölçeğin kendisi ezici

    • What.CD’yi büyük yapan şey sadece miktar değil, nadirlik ve kaliteydi
      Taşra gruplarının ilk EP’lerinden, hak durumu belirsiz olduğu için streaming’e gelemeyen nadir kayıtlara kadar her şey vardı
      Topluluğun önerileri ve incelemeleriyle, elle hazırlanmış çalma listelerinin yarattığı keşif keyfini algoritmalar yerine koyamaz
      Bu sayede bugün hâlâ sevdiğim pek çok sanatçıyı keşfettim
    • What.CD’den önce OiNK’s Pink Palace vardı
      Tamamen müzik sevgisiyle kurulmuş bir topluluktu ve Trent Reznor da bunu açıkça övmüştü
      Bugün böyle saf müzik topluluklarının kalmamış olması üzücü
    • Evet, What.CD’de CD, bootleg, kaset gibi Spotify’da olmayan müzikler çoktu
      Spotify yalnızca streaming lisansı olan parçaları içerdiği için doğal bir sınırı var
    • Ben de YouTube Music’te sık sık ana akım dışı parçalar dinliyorum ve “Spotify’da olmadığı için yazık” tarzı yorumlar çok görüyorum
      Tam anlamıyla eksiksiz bir müzik arşivi olması için daha çok yolu var
    • What.CD torrentleri albüm bazında sayıyordu ama Spotify tarafında podcast’ler ve AI üretimleri de dahil
  • Bence böyle projeler kesinlikle gerekli
    Anna’s Archive gibi yerler, Internet Archive kadar önemli
    Buradaki esas mesele web siteleri, oyunlar, kitaplar ve benzeri dijital mirası korumak
    Nesiller değiştikçe geçmiş internetin yaratıcılığını hiç deneyimleyemeyen insanlar da çoğalıyor
    Bence bugünün kuşağı bunları koruyabilme fırsatına sahip olan kuşak

  • Bugün müzik ve filmlerin platformlardan birer birer kaybolduğu bir dönemde bu tür koruma gerçekten önemli
    Benim de griye dönmüş çalma listelerimden üç tane var — başlıkları bile silinmiş, ne dinlediğimi artık bilmiyorum
    Bu yüzden kalıcı olarak sahip olmak istediğim müziği CD olarak alıyorum, dans müziğini ise akışına bırakıyorum

  • Bu gerçekten önemli bir iş
    Sadece 10 yıl önceki haberlere bakınca bile dış bağlantıların çoğu 404 olmuş durumda
    Her şey korunmalı mı sorusu ayrı ama mümkünse korunmalı

  • Şaşırtıcı
    Spotify’ın büyük ölçekte scrape edilmiş olması tek başına ilginç
    Yöntemin ayrıntılarını açıklamayacaklardır ama okumak eğlenceli olurdu

    • Aslında o kadar da zor değil
      Yeter ki kötüye kullanılmasın, hobi projesi düzeyinde kalması daha iyi
      Benim müzik sunucum da Spotify parçalarını bu şekilde çalıyor
      Kod bağlantısı
    • Asıl şaşırtıcı olan, 300TB verinin anonim şekilde aktarılmış olması
    • Muhtemelen buna benzer bir araç kullanmışlardır → spotizerr-spotify
  • Kişisel olarak bu pek hoşuma gitmiyor
    Daha iyi ses kalitesine sahip kaynaklar zaten var ve bu ölçekte bir rip işlemi sadece hukuki riski artırıyor
    Özellikle e-kitap kütüphanelerinin bile risk altına girmesinden endişe ediyorum
    Duyuruda da “müziğin zaten yeterince korunmuş olduğu” söylenmişti; bunu ayrı bir proje olarak ayırmaları gerekirdi

  • Alman internet sağlayıcısı (SIM.de/Drillisch) Anna’s Archiveengelliyormuş
    VPN kapalıyken erişemiyorum, ancak Mullvad VPN açınca site geliyor
    Almanya’da böyle bir sansür olduğunu bilmiyordum

    • Ben de benzer bir şey yaşadım
      alextud popcorntime diye aratınca PopcornTimeTV GitHub sonucu çıkmıyor
      Google, Kagi, DuckDuckGo ve Bing’de de durum aynı
      Fork’lar çıkıyor ama orijinali çıkmıyor; bu da arama filtrelemesi şüphesini doğuruyor
  • Eskiden birden çok platformdan aynı anda silinen müzikler olmuştu
    Bunları böyle bir arşivde yeniden bulmak mümkün olacak mı merak ediyorum
    Günümüzde modern çağın kayıp medyası neredeyse her gün oluşuyor
    Bazı yayıncılar bilinçli olarak tüm kopyaları yok etmeye çalışıyor ve bunu zihinsel olarak korkunç bir davranış olarak görüyorum
    Bir eseri tamamen yok etmek hiçbir gerekçeyle meşrulaştırılamaz
    Eğer sadece çelik bir kasadaki bantta kalıyorsa, pratikte var olmamasıyla aynı şeydir

  • Teknik olarak torrent’i arka uç olarak kullanan bir streaming sunucusu yapmak da mümkün
    İstek geldikçe yalnızca gereken kısmı indirir

    • Spotify da 2014’e kadar P2P streaming kullanıyordu
      İlgili makale bağlantısı
    • Ben de yakın zamanda *homelab arr stack kurdum ama müzikte hâlâ fiyat/yarar açısından ihtiyaç hissetmiyorum
      Spotify hâlâ ucuz olduğu için çok dert etmiyorum ama sanatçıların karşılık alması meselesi yerinde duruyor
      Bir gün torrent tabanlı self-hosted müzik sunucusunun kolayca kurulabildiği bir noktaya gelmeyi umuyorum
    • Teknik olarak yapılmaması gerekir ama yapılabilir
    • Bir bakıma Popcorn Time yaklaşımı