Google Universal Speech Model - Tüm dillerde konuşma tanıma için bir model
(sites.research.google)- 2 milyar parametreli model; 12 milyon saat ses, 28 milyar cümle ve 300 dil ile eğitildi
- Yaygın olarak bilinen dillerden az sayıda kişinin kullandığı dillere kadar hepsinde konuşma tanıma yapabiliyor
- 20 milyondan az kişi tarafından konuşulduğu için eğitim verisi bulmanın zor olduğu diller de dahil
- YouTube videolarıyla yapılan değerlendirmede, kelime hata oranının Whisper(OpenAI)'dan daha düşük olduğu görüldü
1 yorum
Whisper - OpenAI'nin açık kaynak olarak yayımladığı çok dilli konuşma tanıma sistemi (ASR)
OpenAI, Whisper v2 modelini duyurdu
Performansının iyi olduğu söyleniyor, ancak yalnızca makale ve API yayımlandığı için açık kaynak olarak sunulan Whisper'ın kullanım açısından hâlâ daha avantajlı olduğu görülüyor.