- Meta'nın LLaMA-13B'sini yalnızca 24 GiB RAM ile çalıştırmayı mümkün kılan bir fork sürümü
- Yani tek bir RTX4090/3090 ile çalıştırılabiliyor
- Teorik olarak LLaMA-65B, tek bir 80GB A100 üzerinde çalıştırılabiliyor
- Değişiklikler
- Paralel işleme yapısı kaldırıldı
- Ana makinedeki weight'ler nicemlendirildi
- Bellek sorunlarını önlemek için weight'ler kademeli olarak yükleniyor
bitsandbytes ve tqdm kullanılıyor
- Tekrarlama cezası ayarı eklendi (varsayılan 1.15)
- RTX4090 + 64GB Ubuntu makinede modeli yükleyip nicemlendirmek yaklaşık 25 saniye sürüyor
Henüz yorum yok.