- Korece dahil 30 dil destekleniyor; dil etiketi belirtmeden yalnızca metin girerek doğrudan sentez yapılabiliyor
- Dublaj sanatçısı örneği olmadan,
(Young female voice, warm and gentle) gibi doğal dil açıklamasını (cinsiyet·yaş·ton·duygu·hız) metnin başına ekleyerek istenen ses karakteri anında oluşturulabiliyor
- Ayrık tokenizasyon kullanmadan sürekli konuşma temsillerini doğrudan üreten diffusion autoregressive tabanlı bir TTS sistemi; 2B parametreli model, 2 milyon saatten fazla çok dilli veriyle eğitildi
- Kısa bir referans klipten ses rengini klonlarken duygu·hız·stili ayrı ayrı kontrol etmeyi sağlayan Controllable Voice Cloning desteği sunuyor
(slightly faster, cheerful tone)
- Referans ses + transkript birlikte verildiğinde ses rengi·ritim·duygu·stilin tamamını yeniden üreten Ultimate Cloning modu var; ek son işleme gerekmiyor
- 16kHz referans girdisi verilse bile 48kHz stüdyo kalitesinde çıktıyı AudioVAE V2 asimetrik encode/decode ile doğrudan üretiyor. Harici upsampler veya son işleme pipeline'ı kurmaya gerek yok
- RTX 4090 için RTF(Real-Time Factor) yaklaşık 0.3, Nano-vLLM hızlandırmasıyla yaklaşık 0.13 seviyesinde; gerçek zamanlı streaming için kullanılabilir
- VRAM yaklaşık 8GB olduğunda çalıştırılabildiği için RTX 3070~4060 sınıfı GPU'larda da kullanılabiliyor
- Seed-TTS-eval'de açık kaynak modeller arasında konuşmacı benzerliğinde (SIM) en üst sıralarda, 30 dil içi ASR benchmark'ında ortalama hata oranı %1,68
- 5~10 dakikalık ses ile LoRA fine-tuning üzerinden belirli konuşmacı·alan uyarlaması yapılabiliyor;
lora_ft_webui.py ile WebUI tabanlı eğitim·çıkarım da destekleniyor
- MiniCPM-4 backbone'u temel alıyor ve LocEnc → TSLM → RALM → LocDiT şeklinde 4 aşamalı bir pipeline'dan oluşuyor
- GGML/GGUF CPU inference (VoxCPM.cpp), ONNX dönüşümü, Apple Neural Engine backend'i, Rust yeniden yazımı, ComfyUI node'ları gibi GPU olmayan ortamlarda da inference yapılmasını sağlayan seçenekler çok sayıda mevcut
- Apache-2.0 lisanslı; ticari kullanım kısıtlaması yok, Python implementasyonu
2 yorum
3060'da da deneyebildim, kalite harikaydı.
OpenBMB'yi nereden duydum diye düşünüyordum; meğerse MiniCPM-o modelini yapan yermiş.
MiniCPM-o modeli GPT 4o gibi omni bir model ve performansı gerçekten oldukça iyiydi.
MiniCPM-o demo videosuna bir göz atın,
Oldukça memnun kaldığım bir modeldi, bu yüzden yeni ses klonlama modelinden de beklentim yüksek.