7 puan yazan xguru 2023-09-07 | 1 yorum | WhatsApp'ta paylaş
  • 180 milyar parametre içeren en büyük açık dil modeli
  • Açık modeller arasında liderlik tablosunda 1. sırada yer alıyor. Llama 2 70B ve GPT-3.5'i geride bırakıyor, PaLM-2 ile rekabet ediyor
  • TII'nin RefinedWeb veri seti (çoğunlukla İngilizce) kullanılarak 3.5T token ile eğitildi
    • Llama 2'den 2,5 kat daha büyük ve 4 kattan fazla hesaplama gücüyle eğitildi (Amazon SageMaker üzerinde 4096 GPU kullanıldı)
  • Falcon 180B ticari olarak kullanılabiliyor, ancak "hosting kullanımı" dışında yalnızca çok kısıtlı koşullarda kullanım mümkün. Lisansın mutlaka kontrol edilmesi gerekiyor
  • Donanım gereksinimleri
    • Tam fine-tuning: bellek 5120GB, 8x 8x A100 80GB
    • ZeRO-3 ile LoRA: 1280GB, 2x 8x A100 80GB
    • QLoRA: 160GB, 2x A100 80GB
    • Çıkarım BF16/FP16: 640GB, 8x A100 80GB
    • Çıkarım GPTQ/int4: 320GB, 8x A100 40GB

1 yorum

 
kuroneko 2023-09-07

Boyutu inanılmaz. Donanım gereksinimleri de öyle...