3 puan yazan xguru 2021-02-19 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Mevcut T5(Text-to-Text Transfer Transformer) modeline kıyasla eğitim hızında 7 kat iyileşme

  • Switch Routing adlı değiştirilmiş bir MoE(Mixture-of-Experts) algoritmasıyla, girilen değerlere göre farklı parametreler uygulanıyor

  • Model eğitimi için Mesh-Tensorflow kullanıldı (Model Parallelism)

Henüz yorum yok.

Henüz yorum yok.