VoxCPM2 - Gerçek insan sesine benzer ses klonlama yapabilen çok dilli açık kaynak konuşma sentezi

xguru · 2026-04-15T09:31:02+09:00

Korece dahil 30 dil destekleniyor; dil etiketi belirtmeden yalnızca metin girerek doğrudan sentez yapılabiliyor Dublaj sanatçısı örneği olmadan, (Young female voice, warm and gentle) gibi doğal dil açıklamasını (cinsiyet·yaş·ton·duygu·hız) metnin başına ekleyerek istenen ses karakteri anında oluşturulabiliyor Ayrık tokenizasyon kullanmadan sürekli konuşma temsillerini doğrudan üreten diffusion autoregressive tabanlı bir TTS sistemi; 2B parametreli model, 2 milyon saatten fazla çok dilli veriyle eğitildi Kısa bir referans klipten ses rengini klonlarken duygu·hız·stili ayrı ayrı kontrol etmeyi sağlayan Controllable Voice Cloning desteği sunuyor (slightly faster, cheerful tone) Referans ses + transkript birlikte verildiğinde ses rengi·ritim·duygu·stilin tamamını yeniden üreten Ultimate Cloning modu var; ek son işleme gerekmiyor 16kHz referans girdisi verilse bile 48kHz stüdyo kalitesinde çıktıyı AudioVAE V2 asimetrik encode/decode ile doğrudan üretiyor. Harici upsampler veya son işleme pipeline'ı kurmaya gerek yok RTX 4090 için RTF(Real-Time Factor) yaklaşık 0.3, Nano-vLLM hızlandırmasıyla yaklaşık 0.13 seviyesinde; gerçek zamanlı streaming için kullanılabilir VRAM yaklaşık 8GB olduğunda çalıştırılabildiği için RTX 3070~4060 sınıfı GPU'larda da kullanılabiliyor Seed-TTS-eval'de açık kaynak modeller arasında konuşmacı benzerliğinde (SIM) en üst sıralarda, 30 dil içi ASR benchmark'ında ortalama hata oranı %1,68 5~10 dakikalık ses ile LoRA fine-tuning üzerinden belirli konuşmacı·alan uyarlaması yapılabiliyor; lora_ft_webui.py ile WebUI tabanlı eğitim·çıkarım da destekleniyor MiniCPM-4 backbone'u temel alıyor ve LocEnc → TSLM → RALM → LocDiT şeklinde 4 aşamalı bir pipeline'dan oluşuyor GGML/GGUF CPU inference (VoxCPM.cpp), ONNX dönüşümü, Apple Neural Engine backend'i, Rust yeniden yazımı, ComfyUI node'ları gibi GPU olmayan ortamlarda da inference yapılmasını sağlayan seçenekler çok sayıda mevcut Apache-2.0 lisanslı; ticari kullanım kısıtlaması yok, Python implementasyonu

(github.com/OpenBMB)

43 puan yazan xguru 2026-04-15 | 2 yorum | WhatsApp'ta paylaş

Korece dahil 30 dil destekleniyor; dil etiketi belirtmeden yalnızca metin girerek doğrudan sentez yapılabiliyor
Dublaj sanatçısı örneği olmadan, (Young female voice, warm and gentle) gibi doğal dil açıklamasını (cinsiyet·yaş·ton·duygu·hız) metnin başına ekleyerek istenen ses karakteri anında oluşturulabiliyor
Ayrık tokenizasyon kullanmadan sürekli konuşma temsillerini doğrudan üreten diffusion autoregressive tabanlı bir TTS sistemi; 2B parametreli model, 2 milyon saatten fazla çok dilli veriyle eğitildi
Kısa bir referans klipten ses rengini klonlarken duygu·hız·stili ayrı ayrı kontrol etmeyi sağlayan Controllable Voice Cloning desteği sunuyor (slightly faster, cheerful tone)
Referans ses + transkript birlikte verildiğinde ses rengi·ritim·duygu·stilin tamamını yeniden üreten Ultimate Cloning modu var; ek son işleme gerekmiyor
16kHz referans girdisi verilse bile 48kHz stüdyo kalitesinde çıktıyı AudioVAE V2 asimetrik encode/decode ile doğrudan üretiyor. Harici upsampler veya son işleme pipeline'ı kurmaya gerek yok
RTX 4090 için RTF(Real-Time Factor) yaklaşık 0.3, Nano-vLLM hızlandırmasıyla yaklaşık 0.13 seviyesinde; gerçek zamanlı streaming için kullanılabilir
VRAM yaklaşık 8GB olduğunda çalıştırılabildiği için RTX 3070~4060 sınıfı GPU'larda da kullanılabiliyor
Seed-TTS-eval'de açık kaynak modeller arasında konuşmacı benzerliğinde (SIM) en üst sıralarda, 30 dil içi ASR benchmark'ında ortalama hata oranı %1,68
5~10 dakikalık ses ile LoRA fine-tuning üzerinden belirli konuşmacı·alan uyarlaması yapılabiliyor; lora_ft_webui.py ile WebUI tabanlı eğitim·çıkarım da destekleniyor
MiniCPM-4 backbone'u temel alıyor ve LocEnc → TSLM → RALM → LocDiT şeklinde 4 aşamalı bir pipeline'dan oluşuyor
GGML/GGUF CPU inference (VoxCPM.cpp), ONNX dönüşümü, Apple Neural Engine backend'i, Rust yeniden yazımı, ComfyUI node'ları gibi GPU olmayan ortamlarda da inference yapılmasını sağlayan seçenekler çok sayıda mevcut
Apache-2.0 lisanslı; ticari kullanım kısıtlaması yok, Python implementasyonu

2 yorum

cr543l 2026-04-15

3060'da da deneyebildim, kalite harikaydı.

crawler 2026-04-15

OpenBMB'yi nereden duydum diye düşünüyordum; meğerse MiniCPM-o modelini yapan yermiş.
MiniCPM-o modeli GPT 4o gibi omni bir model ve performansı gerçekten oldukça iyiydi.

MiniCPM-o demo videosuna bir göz atın,

Oldukça memnun kaldığım bir modeldi, bu yüzden yeni ses klonlama modelinden de beklentim yüksek.

VoxCPM2 - Gerçek insan sesine benzer ses klonlama yapabilen çok dilli açık kaynak konuşma sentezi

İlgili okumalar

2 yorum