7 puan yazan unohee 10 일 전 | 2 yorum | WhatsApp'ta paylaş

Suno, Udio, MusicGen, Stable Audio gibi tüm ticari yapay zeka müzik üreticileri kaçınılmaz fiziksel kısıtları paylaşır. Üretilen sesin mutlaka Residual Vector Quantization (RVQ) sürecinden geçmesi gerekir.

RVQ, sürekli ses temsillerini ayrık codebook vektörlerine eşler. Bu süreçte oluşan niceleme boşluğu geri döndürülemezdir. Yalnızca insan müziğiyle eğitilmiş bir kaynak ayırma modeli, yapay zeka üretimi sesi işlerken bu boşluğu anormal derecede büyük ve yapılandırılmış yeniden oluşturma artığı olarak ortaya çıkarır. Adli sinyal budur.

Mevcut dedektörler (CLAM, SpecTTTra) eğitim dağılımı içinde iyi çalışsa da yeni üreticilerde çöker. ArtifactNet, yapay zeka müziğinin nasıl duyulduğunu değil, neden fiziksel olarak farklı olduğunu tespit eder.


Boru hattı (toplam 4.0M parametre):

  1. ArtifactUNet (3.6M) — STFT magnitude üzerinde [0, 0.5] aralığıyla sınırlanmış çarpımsal bir maskeyi tahmin eden bounded-mask UNet. Demucs v4 artığı öğretmen olarak kullanılarak 2 aşamalı bilgi damıtma eğitimi uygulanır.

  2. 7 kanallı HPSS adli özellikleri — artığı armonik/vurmalı bileşenlere ayırdıktan sonra zaman türevi ve spectral flux ile birleştirir.

  3. Hafif CNN (0.4M) — 4 saniyelik segmentleri işler, parça düzeyinde medyan kararı verir.


Fiziksel kanıt: kaynak ayırma artığının etkin bant genişliği ölçümü (n=94):

  • İnsan müziği: ortalama 1,996 Hz
  • Yapay zeka ortalaması (22 üretici): 291 Hz
  • Suno v3.5: 170 Hz / Riffusion: 219 Hz / MusicGen: 255 Hz

Mimariden bağımsız olarak tüm yapay zeka üreticileri 200 Hz civarında yoğunlaşır.


ArtifactBench sonuçları (6,183 parça, 22 üretici, eğitim-test örtüşmesi yok):

Model Parametre F1 FPR
ArtifactNet 4M 0.983 1.5%
CLAM 194M 0.758 69.3%
SpecTTTra 19M 0.771 19.4%

CLAM, gerçek müziği yapay zeka olarak yanlış etiketleme oranında %69.3 ile, ayırt edici olarak pratikte anlamsız bir düzeydedir. SONICS/MoM benchmark'ı gerçek seti yalnızca YouTube ID'leriyle dağıtıyor; bunların önemli bir kısmı silinmiş/gizliye alınmış olduğundan orijinal ölçüte göre F1 karşılaştırması mümkün değil. ArtifactBench, doğrudan toplanıp doğrulanmış gerçek partition ile üç modeli aynı koşullarda karşılaştırır.


Sınırlamalar: 44.1kHz girdi gerekir; düşük bitrate MP3'te FPR ~8%; tek geçişli Demucs laundering saldırısında TPR %94'e düşer; en yeni Udio için TPR = %87.


Demo (~5 saniye): https://demo.intrect.io/
Makale: https://arxiv.org/abs/2604.16254
Model + benchmark (CC BY-NC 4.0): https://huggingface.co/intrect/artifactnet
Patent başvurusu yapıldı (KR + PCT)

2 yorum

 
unsure4000 10 일 전

Kendi makaleniz gibi görünüyor; doğru mu?

 
chisquare88 9 일 전

%69 ise hâlâ yazı tura seviyesine yakın. Müzik üreten yapay zekalara birim testi ekleyin demeye daha yakın gibi.