- Otomatik konuşma tanıma (ASR), konuşulan dil tanıma (LID), konuşma duygu tanıma (SER) ve ses olayı algılama (AED) gibi özelliklere sahip çok dilli konuşma anlama modeli SenseVoice tabanlı
- Ultra hızlı çıkarım ve hassas zaman damgaları için optimize edilmiştir; böylece ses transkripsiyonlarını daha akıllı ve daha hızlı işleyebilir
- Başlıca seçenekler
--language: dili otomatik algılar/belirtir (auto, zh, en, yue, ja, ko)
--textnorm: ters metin normalizasyonunun uygulanıp uygulanmayacağını seçer (ters normalize edilmiş durumda withitn, ham metin için woitn)
--device-id: belirli bir GPU'da çalıştırır (varsayılan: CPU için -1)
--quantize: daha hızlı işleme için nicemlenmiş modeli kullanır
1 yorum
Seçenekler arasında Korece de var, test etmek istiyorum :)