5 puan yazan xguru 2024-07-29 | 2 yorum | WhatsApp'ta paylaş
  • vLLM ve özel olarak geliştirilmiş otomatik ölçeklenen GPU zamanlayıcısı kullanılarak neredeyse tüm açık kaynaklı büyük dil modelleri çalıştırılabiliyor
    • Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3 vb.
  • Ek bir yapılandırma olmadan Hugging Face repository bağlantısını yapıştırmanız yeterli: tüm full-weight ve 4-bit AWQ repoları
  • En fazla 8 adet Nvidia A100 80Gb GPU kullanılabiliyor
  • Beta süresince ücretsiz sunuluyor. Beta sona erdikten sonra da multi-tenant olarak çalışacağı için başlıca bulut GPU fiyatlarından daha avantajlı olacak

2 yorum

 
wedding 2024-07-30

llama 405b'yi nasıl deneyebilirim diye düşünüyordum ama hem hızlı hem de kalitesi iyiymiş