WhisperX - Zaman damgası doğruluğunu iyileştiren Whisper tabanlı ASR
(github.com/m-bain)- OpenAI Whisper çok doğru transkripsiyonlar üretir, ancak zaman damgaları kelime düzeyinde değil konuşma düzeyinde (utterance) olduğundan birkaç saniyelik sapma olabilir
- Whisper modelinin zaman damgalarını iyileştirmek için Wav2vec2.0 gibi fonem tabanlı ASR ve zorunlu hizalama (forced alignment) kullanılır
- Varsayılan olarak {en, fr, de, es, it, ja, zh, nl} dilleri sunulur. Ek diller için Huggingface Model Hub üzerinde bulunup test edilmesi gerekir
Henüz yorum yok.