- TensorRT derin öğrenme derleyicisi ve optimize edilmiş kernel’ler, ön işleme/son işleme aşamaları, çoklu GPU/çoklu düğüm iletişimi için temel bileşenleri içeriyor
- C++ veya CUDA hakkında derin bilgiye ihtiyaç duymadan LLM’ler için en yüksek performans ve özelleştirme özelliklerini hızlıca sunmayı mümkün kılıyor
- Kullanım kolaylığı ve genişletilebilirlik sağlayan açık kaynak, modüler bir Python API sunuyor
- Ampere, Lovelace, Hopper GPU’larını destekliyor
- H100 tabanlı olarak TensorRT-LLM uygulanıp test edildiğinde
- GTP-J-6B için çıkarım performansı 8 kat arttı, TCO 5,3 kat azaldı, enerji tüketimi 5,6 kat azaldı
- Llama2 70B için çıkarım performansı 4,6 kat arttı, TCO 3 kat azaldı, enerji tüketimi 3,2 kat azaldı
- In-flight Batching olarak adlandırılan optimize edilmiş bir zamanlama tekniğini içeriyor
- TensorRT-LLM yüklü NVIDIA H100 GPU, kullanıcıların model ağırlıklarını yeni FP8 formatına kolayca dönüştürmesine ve modeli derleyerek optimize edilmiş FP8 kernel’lerini otomatik olarak kullanmasına olanak tanıyor
- Bu, Hopper Transformer Engine teknolojisi sayesinde mümkün oluyor ve model kodunu değiştirmek gerekmiyor
- Şu anda erken erişimde ve birkaç hafta içinde yayımlanması planlanıyor
Henüz yorum yok.