ArtifactNet: Codec fiziğini kullanarak yapay zeka üretimi müziği tespit eden hafif bir adli analiz çerçevesi
(arxiv.org)Suno, Udio, MusicGen, Stable Audio gibi tüm ticari yapay zeka müzik üreticileri kaçınılmaz fiziksel kısıtları paylaşır. Üretilen sesin mutlaka Residual Vector Quantization (RVQ) sürecinden geçmesi gerekir.
RVQ, sürekli ses temsillerini ayrık codebook vektörlerine eşler. Bu süreçte oluşan niceleme boşluğu geri döndürülemezdir. Yalnızca insan müziğiyle eğitilmiş bir kaynak ayırma modeli, yapay zeka üretimi sesi işlerken bu boşluğu anormal derecede büyük ve yapılandırılmış yeniden oluşturma artığı olarak ortaya çıkarır. Adli sinyal budur.
Mevcut dedektörler (CLAM, SpecTTTra) eğitim dağılımı içinde iyi çalışsa da yeni üreticilerde çöker. ArtifactNet, yapay zeka müziğinin nasıl duyulduğunu değil, neden fiziksel olarak farklı olduğunu tespit eder.
Boru hattı (toplam 4.0M parametre):
-
ArtifactUNet (3.6M) — STFT magnitude üzerinde [0, 0.5] aralığıyla sınırlanmış çarpımsal bir maskeyi tahmin eden bounded-mask UNet. Demucs v4 artığı öğretmen olarak kullanılarak 2 aşamalı bilgi damıtma eğitimi uygulanır.
-
7 kanallı HPSS adli özellikleri — artığı armonik/vurmalı bileşenlere ayırdıktan sonra zaman türevi ve spectral flux ile birleştirir.
-
Hafif CNN (0.4M) — 4 saniyelik segmentleri işler, parça düzeyinde medyan kararı verir.
Fiziksel kanıt: kaynak ayırma artığının etkin bant genişliği ölçümü (n=94):
- İnsan müziği: ortalama 1,996 Hz
- Yapay zeka ortalaması (22 üretici): 291 Hz
- Suno v3.5: 170 Hz / Riffusion: 219 Hz / MusicGen: 255 Hz
Mimariden bağımsız olarak tüm yapay zeka üreticileri 200 Hz civarında yoğunlaşır.
ArtifactBench sonuçları (6,183 parça, 22 üretici, eğitim-test örtüşmesi yok):
| Model | Parametre | F1 | FPR |
|---|---|---|---|
| ArtifactNet | 4M | 0.983 | 1.5% |
| CLAM | 194M | 0.758 | 69.3% |
| SpecTTTra | 19M | 0.771 | 19.4% |
CLAM, gerçek müziği yapay zeka olarak yanlış etiketleme oranında %69.3 ile, ayırt edici olarak pratikte anlamsız bir düzeydedir. SONICS/MoM benchmark'ı gerçek seti yalnızca YouTube ID'leriyle dağıtıyor; bunların önemli bir kısmı silinmiş/gizliye alınmış olduğundan orijinal ölçüte göre F1 karşılaştırması mümkün değil. ArtifactBench, doğrudan toplanıp doğrulanmış gerçek partition ile üç modeli aynı koşullarda karşılaştırır.
Sınırlamalar: 44.1kHz girdi gerekir; düşük bitrate MP3'te FPR ~8%; tek geçişli Demucs laundering saldırısında TPR %94'e düşer; en yeni Udio için TPR = %87.
Demo (~5 saniye): https://demo.intrect.io/
Makale: https://arxiv.org/abs/2604.16254
Model + benchmark (CC BY-NC 4.0): https://huggingface.co/intrect/artifactnet
Patent başvurusu yapıldı (KR + PCT)
2 yorum
Kendi makaleniz gibi görünüyor; doğru mu?
%69 ise hâlâ yazı tura seviyesine yakın. Müzik üreten yapay zekalara birim testi ekleyin demeye daha yakın gibi.