- Anna’s Archive, Spotify’nin tüm meta verilerini ve müzik dosyalarını yedekleyerek bunu yaklaşık 300 TB’lık bir torrent arşivi olarak yayımladı
- Yaklaşık 256 milyon parçanın meta verisini ve 86 milyon müzik dosyasını içeriyor; toplam dinlemelerin %99,6’sını kapsıyor
- Popüler parçalar OGG Vorbis 160kbit/s özgün kalitesinde, daha az popüler parçalar ise OGG Opus 75kbit/s olarak saklanarak verimli koruma sağlandı
- Veriler SQLite veritabanı biçiminde sunuluyor ve çalma listeleri, ses özellikleri, albüm kapakları gibi ayrıntılı yapıları da içeriyor
- İnsanlığın müzik mirasını doğal afet, savaş, bütçe kesintileri gibi risklere karşı kalıcı olarak korumayı amaçlayan, dünyadaki ilk tamamen açık müzik koruma arşivi
Proje genel bakışı
- Anna’s Archive, Spotify’nin tüm müzik meta verilerini ve dosyalarını büyük ölçekte scrape ederek yedekledi
- Toplam boyut yaklaşık 300 TB ve popülerliğe göre gruplanmış torrentler halinde dağıtılıyor
- Toplam 256 milyon parça ve 186 milyon benzersiz ISRC kodu içeriyor
- Bu arşiv, herkesin mirror oluşturabileceği tamamen açık bir müzik koruma deposu olarak 86 milyon müzik dosyası içeriyor
- Bu da Spotify’deki toplam dinlemelerin yaklaşık %99,6’sını temsil ediyor
- Anna’s Archive daha önce metin odaklı korumaya (kitaplar, makaleler vb.) yoğunlaşmıştı; bu kez bunu müzik gibi metin dışı bir ortama genişletti
- Spotify’nin yapısal scraping yöntemini keşfettikten sonra, müzik koruma odaklı bir arşiv oluşturma girişimi başlatıldı
Mevcut müzik korumanın sınırları
- Mevcut müzik koruma girişimlerinde üç temel sorun var
- Popüler sanatçılara odaklanan önyargı nedeniyle niş müziklerin dışarıda kalması
- Kayıpsız ses kalitesine aşırı odaklanma nedeniyle verimsiz depolama kullanımı
- Tüm müziği temsil eden bir torrent listesinin olmaması
- Bu Spotify yedeği, bu sorunları tamamlayarak koruma odaklı bir müzik arşivi oluşturuyor
Veri yapısı ve istatistikler
- Spotify’deki yaklaşık 256 milyon parçanın meta verisinin %99,9’u elde edildi
- Önceliklendirme popülerlik göstergesine (
popularity) göre yapıldı
popularity>0 olan parçalar OGG Vorbis 160kbit/s özgün kalitesinde saklandı
popularity=0 olan parçalar OGG Opus 75kbit/s olarak yeniden kodlandı
- Temmuz 2025’ten önce yayımlanan şarkıların büyük bölümü dahil edildi
- İlk 3 parçanın (Lady Gaga, Billie Eilish, Bad Bunny) toplam stream sayısı, en alttaki 20 milyon ila 100 milyon parçanın toplamından daha fazla
- Tüm parçaların %70’inden fazlası 1000’den az dinlemeye sahip az popüler şarkılardan oluşuyor
Torrent dağıtım yapısı
- Veriler iki bölümden oluşuyor: meta veriler ve müzik dosyaları
- Meta veriler: SQLite DB olarak sunuluyor, yaklaşık 200 GB (sıkıştırılmış)
- Ses analiz verileri: 4 TB (sıkıştırılmış)
- Müzik dosyaları Anna’s Archive Containers (AAC) formatında dağıtılıyor
- Spotify’nin hatalı OGG paketleri temizlendikten sonra başlık, ISRC, albüm kapağı, replaygain bilgisi gibi meta veriler eklendi
- Bazı dosyalarda
REPLAYGAIN_ALBUM_PEAK etiketi hatalı
Veri keşfi ve analiz
- Popülerlik dağılımı: Dinlemelerin büyük kısmı
popularity 50~80 aralığındaki şarkılarda toplanıyor
- Parça süresi: 2, 3 ve 4 dakika civarında zirveler görülüyor
- Explicit içerik ve ISRC’si yinelenen parçalar ile ilgili istatistikler de yer alıyor
- Sanatçı tür dağılımı: Hem ayrıntılı türler hem de gruplanmış türler için görselleştirmeler sunuluyor
- Albüm çıkış yılı analizi: Son dönemde otomatik üretilen ve yapay zeka ile üretilen müzikte hızlı artış görülüyor
- Ses özelliği analizi: BPM ortalaması yaklaşık 120; loudness ile energy arasında korelasyon doğrulandı
Meta veri ayrıntılı yapısı
- Başlıca SQLite dosyaları
spotify_clean.sqlite3: Sanatçı, albüm ve parça verilerinin neredeyse eksiksiz API kopyası
spotify_clean_audio_features.sqlite3: Parça bazında BPM, key, energy, valence gibi ses özelliklerini saklıyor
spotify_clean_playlists.sqlite3: 6,6 milyon çalma listesi ve 1,7 milyar parça girdisi içeriyor
spotify_clean_track_files.sqlite3: Parçalar ile gerçek dosyalar arasındaki eşleme; dosya durumu, SHA256 hash’i, lisans veren bilgisi içeriyor
- Ek JSONL dosyalarıyla audiobook, podcast, show ve episode verileri de yer alıyor
spotify_2025_07_coverart.tar.torrent içinde albüm kapağı görselleri saklanıyor
Katılım ve koruma çağrısı
- Anna’s Archive, bağış yapılmasını ve torrent seeding’e katılımı teşvik ediyor
- Küçük ölçekli seeding bile tüm arşivin korunmasına katkı sağlayabiliyor
- Amaç, insanlığın müzik mirasını doğal afet, savaş, bütçe kesintileri gibi risklerden kalıcı olarak korumak
Ek özellikler ve deneyler
- Tüm Spotify parçaları için “True Shuffle” özelliğinin uygulanabileceği belirtiliyor
- SQLite sorguları üzerinden gerçek anlamda rastgele çalma listeleri üretmek mümkün
- Yeterli ilgi oluşursa gelecekte tekil dosya indirme özelliği de eklenebilir
Özet
- Anna’s Archive, Spotify’nin neredeyse tüm verilerini yedekleyerek dünyanın en büyük açık müzik meta veri tabanını oluşturdu
- Tamamen açık bir koruma arşivi olarak herkes tarafından mirror’lanabiliyor
- Veri yapısında şeffaflık, teknik hassasiyet ve uzun vadeli korunabilirlik sağlayan bir proje
- Müzik endüstrisinin ticari platform bağımlılığının ötesine geçerek kültürel kayıtların kalıcı korunması için bir temel sunuyor
7 yorum
Spotify sinirlenecek galiba.
Spotify가 Anna’s Archive 상대 소송에서 승소하여 .org 도메인 폐쇄
Son haberlere göre yakın zamanda dava edilmiş gibi görünüyor
Robin Hood ile kanun kaçağı arasında bir yerde...
Telif hakkı da var,,,
Artık daha önce Suno gibi yalnızca ticari alanda kalan müzik üretim modelleri open-weight open-source olarak da eğitilebilecek gibi görünüyor.
İnanılmazmış, vay canına
Hacker News görüşleri
Gerçekten şaşırtıcı
Spotify’ın DRM’inin kırılıp bu kadar büyük ölçekte indirme yapılabilir hale geldiğini bilmiyordum
Sıradan kullanıcı için çok faydalı görünmeyebilir ama müzik sınıflandırma ya da üretim araştırmacıları için muazzam bir fırsat olabilir
Yine de hangi veri setiyle eğitildiğini açıklamak zor olacaktır
Bunun AI araştırmacılarının talebiyle mi yapıldığını, yoksa sadece koruma amacıyla mı olduğunu merak ediyorum
Zaten korsan TV ve film yayınlarını otomatik olarak bulan cihazlar ve uygulamalar yaygınlaşmış durumda
Teknik olarak fazlasıyla mümkün ve ailemde teknik olmayan kişiler bile bunu kullanıyor
Yine de Anna’s Archive ekibi ideolojik motivasyonla hareket eden bir topluluk, yani AI şirketleri için yapmıyorlar
Müzik gerektiğinde YouTube’dan ytldp ile alıyordum ama artık bunu da neredeyse hiç yapmıyorum
Müziğe kıyasla YouTube’u daha çok haber ya da arka planda bir şeyler açmak için kullanıyorum
Google’ın bunu kontrol etmesi biraz üzücü
Asıl doğru yön, Spotify gibi şirketleri düzenleyip müzisyenlerin adil şekilde karşılık almasını sağlamak
Böyle veri paylaşımları ise tam tersine AI çöpü üretimini teşvik ediyor
Ölçeği düşününce gerçekten akıl almaz
Eskiden What.CD, “müzik dünyasının İskenderiye Kütüphanesi” diye anılırdı ve o zaman bile birkaç milyon torrent düzeyindeydi
Oysa Anna’nın Spotify rip’i 186 milyon benzersiz kayıt içeriyor
Elbette son kısımda bot müzikleri gibi şeyler de karışmış olabilir ama ölçeğin kendisi ezici
Taşra gruplarının ilk EP’lerinden, hak durumu belirsiz olduğu için streaming’e gelemeyen nadir kayıtlara kadar her şey vardı
Topluluğun önerileri ve incelemeleriyle, elle hazırlanmış çalma listelerinin yarattığı keşif keyfini algoritmalar yerine koyamaz
Bu sayede bugün hâlâ sevdiğim pek çok sanatçıyı keşfettim
Tamamen müzik sevgisiyle kurulmuş bir topluluktu ve Trent Reznor da bunu açıkça övmüştü
Bugün böyle saf müzik topluluklarının kalmamış olması üzücü
Spotify yalnızca streaming lisansı olan parçaları içerdiği için doğal bir sınırı var
Tam anlamıyla eksiksiz bir müzik arşivi olması için daha çok yolu var
Bence böyle projeler kesinlikle gerekli
Anna’s Archive gibi yerler, Internet Archive kadar önemli
Buradaki esas mesele web siteleri, oyunlar, kitaplar ve benzeri dijital mirası korumak
Nesiller değiştikçe geçmiş internetin yaratıcılığını hiç deneyimleyemeyen insanlar da çoğalıyor
Bence bugünün kuşağı bunları koruyabilme fırsatına sahip olan kuşak
Bugün müzik ve filmlerin platformlardan birer birer kaybolduğu bir dönemde bu tür koruma gerçekten önemli
Benim de griye dönmüş çalma listelerimden üç tane var — başlıkları bile silinmiş, ne dinlediğimi artık bilmiyorum
Bu yüzden kalıcı olarak sahip olmak istediğim müziği CD olarak alıyorum, dans müziğini ise akışına bırakıyorum
Bu gerçekten önemli bir iş
Sadece 10 yıl önceki haberlere bakınca bile dış bağlantıların çoğu 404 olmuş durumda
Her şey korunmalı mı sorusu ayrı ama mümkünse korunmalı
Şaşırtıcı
Spotify’ın büyük ölçekte scrape edilmiş olması tek başına ilginç
Yöntemin ayrıntılarını açıklamayacaklardır ama okumak eğlenceli olurdu
Yeter ki kötüye kullanılmasın, hobi projesi düzeyinde kalması daha iyi
Benim müzik sunucum da Spotify parçalarını bu şekilde çalıyor
Kod bağlantısı
Kişisel olarak bu pek hoşuma gitmiyor
Daha iyi ses kalitesine sahip kaynaklar zaten var ve bu ölçekte bir rip işlemi sadece hukuki riski artırıyor
Özellikle e-kitap kütüphanelerinin bile risk altına girmesinden endişe ediyorum
Duyuruda da “müziğin zaten yeterince korunmuş olduğu” söylenmişti; bunu ayrı bir proje olarak ayırmaları gerekirdi
Alman internet sağlayıcısı (SIM.de/Drillisch) Anna’s Archive'ı engelliyormuş
VPN kapalıyken erişemiyorum, ancak Mullvad VPN açınca site geliyor
Almanya’da böyle bir sansür olduğunu bilmiyordum
alextud popcorntimediye aratınca PopcornTimeTV GitHub sonucu çıkmıyorGoogle, Kagi, DuckDuckGo ve Bing’de de durum aynı
Fork’lar çıkıyor ama orijinali çıkmıyor; bu da arama filtrelemesi şüphesini doğuruyor
Eskiden birden çok platformdan aynı anda silinen müzikler olmuştu
Bunları böyle bir arşivde yeniden bulmak mümkün olacak mı merak ediyorum
Günümüzde modern çağın kayıp medyası neredeyse her gün oluşuyor
Bazı yayıncılar bilinçli olarak tüm kopyaları yok etmeye çalışıyor ve bunu zihinsel olarak korkunç bir davranış olarak görüyorum
Bir eseri tamamen yok etmek hiçbir gerekçeyle meşrulaştırılamaz
Eğer sadece çelik bir kasadaki bantta kalıyorsa, pratikte var olmamasıyla aynı şeydir
Teknik olarak torrent’i arka uç olarak kullanan bir streaming sunucusu yapmak da mümkün
İstek geldikçe yalnızca gereken kısmı indirir
İlgili makale bağlantısı
Spotify hâlâ ucuz olduğu için çok dert etmiyorum ama sanatçıların karşılık alması meselesi yerinde duruyor
Bir gün torrent tabanlı self-hosted müzik sunucusunun kolayca kurulabildiği bir noktaya gelmeyi umuyorum