Bark - Transformer tabanlı bir Text-To-Audio modeli
(github.com/suno-ai)- Oldukça gerçekçi çok dilli ses üretimi mümkün
- Müzik, arka plan gürültüsü ve basit ses efektlerini içerir
- Kahkaha, iç çekme ve ağlama gibi sözsüz iletişim unsurlarını da üretebilir
- İngilizce/Korece ile Almanca/Fransızca/Japonca/Çince gibi dilleri destekler
- Facebook'un EnCodec codec'ini kullanır
- Bark, CC-BY 4.0 NC lisansına sahiptir; Suno modelinin kendisi ise ticari amaçlarla kullanılabilir
2 yorum
Bark'ın üretimleri bazen istemlerimden farklı oluyor. Neler oluyor?
Bark, GPT tarzı bir modeldir. Bu nedenle üretimlerinde zaman zaman yaratıcı özgürlükler kullanabilir; bu da geleneksel metinden konuşmaya yaklaşımlarına kıyasla daha yüksek değişkenliğe sahip model çıktılarıyla sonuçlanır.
Bu kısım ürkütücüymüş, haha. Bazen istemden farklı üretmesinin nedeni modelin yaratıcı özgürlüğü olsun diye mi yani..
Korece üretimi oldukça iyi yapması şaşırtıcı.