43 puan yazan xguru 15 일 전 | 2 yorum | WhatsApp'ta paylaş
  • Korece dahil 30 dil destekleniyor; dil etiketi belirtmeden yalnızca metin girerek doğrudan sentez yapılabiliyor
  • Dublaj sanatçısı örneği olmadan, (Young female voice, warm and gentle) gibi doğal dil açıklamasını (cinsiyet·yaş·ton·duygu·hız) metnin başına ekleyerek istenen ses karakteri anında oluşturulabiliyor
  • Ayrık tokenizasyon kullanmadan sürekli konuşma temsillerini doğrudan üreten diffusion autoregressive tabanlı bir TTS sistemi; 2B parametreli model, 2 milyon saatten fazla çok dilli veriyle eğitildi
  • Kısa bir referans klipten ses rengini klonlarken duygu·hız·stili ayrı ayrı kontrol etmeyi sağlayan Controllable Voice Cloning desteği sunuyor (slightly faster, cheerful tone)
  • Referans ses + transkript birlikte verildiğinde ses rengi·ritim·duygu·stilin tamamını yeniden üreten Ultimate Cloning modu var; ek son işleme gerekmiyor
  • 16kHz referans girdisi verilse bile 48kHz stüdyo kalitesinde çıktıyı AudioVAE V2 asimetrik encode/decode ile doğrudan üretiyor. Harici upsampler veya son işleme pipeline'ı kurmaya gerek yok
  • RTX 4090 için RTF(Real-Time Factor) yaklaşık 0.3, Nano-vLLM hızlandırmasıyla yaklaşık 0.13 seviyesinde; gerçek zamanlı streaming için kullanılabilir
  • VRAM yaklaşık 8GB olduğunda çalıştırılabildiği için RTX 3070~4060 sınıfı GPU'larda da kullanılabiliyor
  • Seed-TTS-eval'de açık kaynak modeller arasında konuşmacı benzerliğinde (SIM) en üst sıralarda, 30 dil içi ASR benchmark'ında ortalama hata oranı %1,68
  • 5~10 dakikalık ses ile LoRA fine-tuning üzerinden belirli konuşmacı·alan uyarlaması yapılabiliyor; lora_ft_webui.py ile WebUI tabanlı eğitim·çıkarım da destekleniyor
  • MiniCPM-4 backbone'u temel alıyor ve LocEnc → TSLM → RALM → LocDiT şeklinde 4 aşamalı bir pipeline'dan oluşuyor
  • GGML/GGUF CPU inference (VoxCPM.cpp), ONNX dönüşümü, Apple Neural Engine backend'i, Rust yeniden yazımı, ComfyUI node'ları gibi GPU olmayan ortamlarda da inference yapılmasını sağlayan seçenekler çok sayıda mevcut
  • Apache-2.0 lisanslı; ticari kullanım kısıtlaması yok, Python implementasyonu

2 yorum

 
cr543l 14 일 전

3060'da da deneyebildim, kalite harikaydı.

 
crawler 14 일 전

OpenBMB'yi nereden duydum diye düşünüyordum; meğerse MiniCPM-o modelini yapan yermiş.
MiniCPM-o modeli GPT 4o gibi omni bir model ve performansı gerçekten oldukça iyiydi.

MiniCPM-o demo videosuna bir göz atın,

Oldukça memnun kaldığım bir modeldi, bu yüzden yeni ses klonlama modelinden de beklentim yüksek.