MosaicML, MPT-7B-8K modelini duyurdu
(mosaicml.com)- 8k bağlam uzunluğunu destekleyen, 7B parametreli açık kaynak bir LLM
- MPT-7B üzerine ek olarak 500B token verisi kullanılarak 256 adet NVidia H100 ile 3 gün boyunca eğitildi
- 3 model yayımlandı: MPT-7B-8k, MPT-7B-8k-Instruct, MPT-7B-8k-Chat
- Ticari kullanım için uygun
- ALiBi (Attention with Linear Biases Enables Input Length Extrapolation) ile 8k girdi desteği
- FlashAttention ve FasterTrasformer ile hızlı eğitim ve çıkarım
Henüz yorum yok.