MosaicML, MPT-7B-8K modelini duyurdu

xguru · 2023-07-21T10:02:02+09:00

8k bağlam uzunluğunu destekleyen, 7B parametreli açık kaynak bir LLM MPT-7B üzerine ek olarak 500B token verisi kullanılarak 256 adet NVidia H100 ile 3 gün boyunca eğitildi 3 model yayımlandı: MPT-7B-8k, MPT-7B-8k-Instruct, MPT-7B-8k-Chat Ticari kullanım için uygun ALiBi (Attention with Linear Biases Enables Input Length Extrapolation) ile 8k girdi desteği FlashAttention ve FasterTrasformer ile hızlı eğitim ve çıkarım

(mosaicml.com)

9 puan yazan xguru 2023-07-21 | Henüz yorum yok. | WhatsApp'ta paylaş

8k bağlam uzunluğunu destekleyen, 7B parametreli açık kaynak bir LLM
MPT-7B üzerine ek olarak 500B token verisi kullanılarak 256 adet NVidia H100 ile 3 gün boyunca eğitildi
3 model yayımlandı: MPT-7B-8k, MPT-7B-8k-Instruct, MPT-7B-8k-Chat
Ticari kullanım için uygun
ALiBi (Attention with Linear Biases Enables Input Length Extrapolation) ile 8k girdi desteği
FlashAttention ve FasterTrasformer ile hızlı eğitim ve çıkarım

MosaicML, MPT-7B-8K modelini duyurdu

İlgili okumalar

Henüz yorum yok.