- Andrei Karpathy’nin yalnızca 100M (100 milyon) parametreye kadar destekleyen nanoGPT’si geliştirilerek 100B (100 milyar) seviyesine kadar eğitilebilir hale getirildi
- Başka koda veya üçüncü taraf framework bağımlılıklarına ihtiyaç duymuyor; "Cerebras donanımı"nın büyük bellek ve işlem gücünden yararlanarak düz
torch.nn koduyla büyük ölçekli eğitimi mümkün kılıyor
- Ek bir değişiklik olmadan uzun bağlam uzunluklarını destekliyor ve çeşitli optimizasyon araçlarıyla birlikte çalışıyor
- Cerebras bir yonga seti üreticisi; matris çarpımı hızı GPU’lara benzer olsa da çok daha büyük yongalar üreterek tek bir çipe daha fazla transistör ve bellek sığdırıyor
- Bu büyüklük sayesinde birden fazla cihaz arasında sharding yapıp sonra birleştirme gibi işlemler gerekmiyor; bu da LOC sayısını azaltabiliyor
Henüz yorum yok.