12 puan yazan xguru 2023-12-16 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Andrei Karpathy’nin yalnızca 100M (100 milyon) parametreye kadar destekleyen nanoGPT’si geliştirilerek 100B (100 milyar) seviyesine kadar eğitilebilir hale getirildi
  • Başka koda veya üçüncü taraf framework bağımlılıklarına ihtiyaç duymuyor; "Cerebras donanımı"nın büyük bellek ve işlem gücünden yararlanarak düz torch.nn koduyla büyük ölçekli eğitimi mümkün kılıyor
  • Ek bir değişiklik olmadan uzun bağlam uzunluklarını destekliyor ve çeşitli optimizasyon araçlarıyla birlikte çalışıyor
  • Cerebras bir yonga seti üreticisi; matris çarpımı hızı GPU’lara benzer olsa da çok daha büyük yongalar üreterek tek bir çipe daha fazla transistör ve bellek sığdırıyor
    • Bu büyüklük sayesinde birden fazla cihaz arasında sharding yapıp sonra birleştirme gibi işlemler gerekmiyor; bu da LOC sayısını azaltabiliyor

Henüz yorum yok.

Henüz yorum yok.