- Geçen yıl kasım ayında başlatılan "1.000 Dil Girişimi" (1.000 dili destekleyen makine öğrenimi modelleri oluşturma) sürdürülüyor
- Şu anda USM, 2B (2 milyar) parametreyle 300'den fazla dil, 12 milyon saatlik konuşma ve 28 milyar cümle üzerinde eğitildi
- YouTube'da altyazı üretmek için kullanılıyor. İngilizce/Çince'nin yanı sıra Amharic, Cebuano, Assamese ve Azerbaijani gibi dilleri de destekliyor
- Hedefe ulaşmak için iki önemli görev var
- Mevcut denetimli öğrenme yöntemleri yeterince ölçeklenebilir değil
- Dil sayısını artırmak için modeli verimli şekilde oluşturmak gerekiyor
- Yaklaşım: Self-supervised learning with fine-tuning (ince ayar ile öz denetimli öğrenme)
- Makale ve API (yalnızca araştırmacılar başvurabiliyor) yayımlandı
1 yorum
Yok olma tehlikesi altındaki dillerin ve lehçelerin gelecek nesiller tarafından da kullanılabilmesini sağlayan iyi bir teknoloji olduğunu düşünüyorum.