gigaGPT - 565 satır kodla oluşturulmuş GPT-3 modeli

xguru · 2023-12-16T10:31:01+09:00

Andrei Karpathy’nin yalnızca 100M (100 milyon) parametreye kadar destekleyen nanoGPT’si geliştirilerek 100B (100 milyar) seviyesine kadar eğitilebilir hale getirildi Başka koda veya üçüncü taraf framework bağımlılıklarına ihtiyaç duymuyor; "Cerebras donanımı"nın büyük bellek ve işlem gücünden yararlanarak düz torch.nn koduyla büyük ölçekli eğitimi mümkün kılıyor Ek bir değişiklik olmadan uzun bağlam uzunluklarını destekliyor ve çeşitli optimizasyon araçlarıyla birlikte çalışıyor Cerebras bir yonga seti üreticisi; matris çarpımı hızı GPU’lara benzer olsa da çok daha büyük yongalar üreterek tek bir çipe daha fazla transistör ve bellek sığdırıyor Bu büyüklük sayesinde birden fazla cihaz arasında sharding yapıp sonra birleştirme gibi işlemler gerekmiyor; bu da LOC sayısını azaltabiliyor

(cerebras.net)

12 puan yazan xguru 2023-12-16 | Henüz yorum yok. | WhatsApp'ta paylaş

Andrei Karpathy’nin yalnızca 100M (100 milyon) parametreye kadar destekleyen nanoGPT’si geliştirilerek 100B (100 milyar) seviyesine kadar eğitilebilir hale getirildi
Başka koda veya üçüncü taraf framework bağımlılıklarına ihtiyaç duymuyor; "Cerebras donanımı"nın büyük bellek ve işlem gücünden yararlanarak düz torch.nn koduyla büyük ölçekli eğitimi mümkün kılıyor
Ek bir değişiklik olmadan uzun bağlam uzunluklarını destekliyor ve çeşitli optimizasyon araçlarıyla birlikte çalışıyor
Cerebras bir yonga seti üreticisi; matris çarpımı hızı GPU’lara benzer olsa da çok daha büyük yongalar üreterek tek bir çipe daha fazla transistör ve bellek sığdırıyor
- Bu büyüklük sayesinde birden fazla cihaz arasında sharding yapıp sonra birleştirme gibi işlemler gerekmiyor; bu da LOC sayısını azaltabiliyor

gigaGPT - 565 satır kodla oluşturulmuş GPT-3 modeli

İlgili okumalar

Henüz yorum yok.