- Massively Multilingual Speech
- Mevcut durumda yalnızca yaklaşık 100 dili destekleyen konuşma tanıma modellerinin ötesine geçerek, dünyada kullanılan 7000'den fazla dili hedefleyen ve binlerce dili destekleyen tek bir konuşma modeli oluşturmayı amaçlayan proje
- 1100+ çok dilli konuşma tanıma (ASR) modeli ile konuşma sentezi (TTS) modeli, 4000+ dil tanımlama (LID) modeli ve 1400+ dil ön eğitim modeli sunuyor
- İnsanların cihaz üzerinde istedikleri dilde bilgiye erişebilmesini ve bunu kullanabilmesini hedefliyor
- Projenin bir parçası olarak 1100 dil için, dil başına ortalama 32 saatlik Yeni Ahit okuma veri seti oluşturuldu; ayrıca etiketlenmemiş çeşitli Hristiyan belge kayıtları kullanılarak desteklenen dillerin sayısı 4000'e çıkarıldı
İndirilebilir model dosyaları
- Pretraied modeller: MMS-300M (3.5GB) ve MMS-1B (10GB)
- ASR konuşma tanıma modelleri ve sözlükler yayımlandı: MMS-1B:FL102 (102 dil, 4.5GB), MMS-1B:L1107 (1107 dil, 13GB), MMS-1B-all (1162 dil, 13.7GB)
- TTS konuşma sentezi modelleri: 1107 dilin her biri için üreteç ve vocabulary dosyaları
- LID dil tanımlama modelleri: 126, 256, 512, 1024, 2048, 4017 model ve sözlük
3 yorum
Son zamanlarda epey fazla ses tanıma ve TTS modeli çıkıyor.
Yakında bu alanda da performansın büyük ölçüde artacağı günlerin çok uzak olmadığını düşünüyorum.
Peki Hristiyansanız ses tanıma oranı artar mı? 🤔
ahaha
......