- GPT-3+ boyutuna ölçeklenebilen iki uygulama geliştiriliyor
→ GPT-Neo: Tensorflow-mesh(TPU) tabanlı kod
→ GPT-Neox: DeepSpeed(GPU) tabanlı kod
-
Şu anda GPT-2 ölçeğindeki modelin eğitimi tamamlandı ve model değerlendirmesi inceleniyor
-
Tek aşamalı eğitimle 200 milyar parametreye kadar test ediliyor
Henüz yorum yok.