- 180 milyar parametre içeren en büyük açık dil modeli
- Açık modeller arasında liderlik tablosunda 1. sırada yer alıyor. Llama 2 70B ve GPT-3.5'i geride bırakıyor, PaLM-2 ile rekabet ediyor
- TII'nin RefinedWeb veri seti (çoğunlukla İngilizce) kullanılarak 3.5T token ile eğitildi
- Llama 2'den 2,5 kat daha büyük ve 4 kattan fazla hesaplama gücüyle eğitildi (Amazon SageMaker üzerinde 4096 GPU kullanıldı)
- Falcon 180B ticari olarak kullanılabiliyor, ancak "hosting kullanımı" dışında yalnızca çok kısıtlı koşullarda kullanım mümkün. Lisansın mutlaka kontrol edilmesi gerekiyor
- Donanım gereksinimleri
- Tam fine-tuning: bellek 5120GB, 8x 8x A100 80GB
- ZeRO-3 ile LoRA: 1280GB, 2x 8x A100 80GB
- QLoRA: 160GB, 2x A100 80GB
- Çıkarım BF16/FP16: 640GB, 8x A100 80GB
- Çıkarım GPTQ/int4: 320GB, 8x A100 40GB
1 yorum
Boyutu inanılmaz. Donanım gereksinimleri de öyle...