- vLLM ve özel olarak geliştirilmiş otomatik ölçeklenen GPU zamanlayıcısı kullanılarak neredeyse tüm açık kaynaklı büyük dil modelleri çalıştırılabiliyor
- Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3 vb.
- Ek bir yapılandırma olmadan Hugging Face repository bağlantısını yapıştırmanız yeterli: tüm full-weight ve 4-bit AWQ repoları
- En fazla 8 adet Nvidia A100 80Gb GPU kullanılabiliyor
- Beta süresince ücretsiz sunuluyor. Beta sona erdikten sonra da multi-tenant olarak çalışacağı için başlıca bulut GPU fiyatlarından daha avantajlı olacak
2 yorum
llama 405b'yi nasıl deneyebilirim diye düşünüyordum ama hem hızlı hem de kalitesi iyiymiş
vLLM: PagedAttention kullanarak kolay, hızlı ve ucuz LLM sunumu