NVIDIA, LLM çıkarımını hızlandıran açık kaynak TensorRT-LLM’i duyurdu

xguru · 2023-09-13T10:17:02+09:00

TensorRT derin öğrenme derleyicisi ve optimize edilmiş kernel’ler, ön işleme/son işleme aşamaları, çoklu GPU/çoklu düğüm iletişimi için temel bileşenleri içeriyor C++ veya CUDA hakkında derin bilgiye ihtiyaç duymadan LLM’ler için en yüksek performans ve özelleştirme özelliklerini hızlıca sunmayı mümkün kılıyor Kullanım kolaylığı ve genişletilebilirlik sağlayan açık kaynak, modüler bir Python API sunuyor Ampere, Lovelace, Hopper GPU’larını destekliyor H100 tabanlı olarak TensorRT-LLM uygulanıp test edildiğinde GTP-J-6B için çıkarım performansı 8 kat arttı, TCO 5,3 kat azaldı, enerji tüketimi 5,6 kat azaldı Llama2 70B için çıkarım performansı 4,6 kat arttı, TCO 3 kat azaldı, enerji tüketimi 3,2 kat azaldı In-flight Batching olarak adlandırılan optimize edilmiş bir zamanlama tekniğini içeriyor TensorRT-LLM yüklü NVIDIA H100 GPU, kullanıcıların model ağırlıklarını yeni FP8 formatına kolayca dönüştürmesine ve modeli derleyerek optimize edilmiş FP8 kernel’lerini otomatik olarak kullanmasına olanak tanıyor Bu, Hopper Transformer Engine teknolojisi sayesinde mümkün oluyor ve model kodunu değiştirmek gerekmiyor Şu anda erken erişimde ve birkaç hafta içinde yayımlanması planlanıyor

(developer.nvidia.com)

9 puan yazan xguru 2023-09-13 | Henüz yorum yok. | WhatsApp'ta paylaş

TensorRT derin öğrenme derleyicisi ve optimize edilmiş kernel’ler, ön işleme/son işleme aşamaları, çoklu GPU/çoklu düğüm iletişimi için temel bileşenleri içeriyor
C++ veya CUDA hakkında derin bilgiye ihtiyaç duymadan LLM’ler için en yüksek performans ve özelleştirme özelliklerini hızlıca sunmayı mümkün kılıyor
Kullanım kolaylığı ve genişletilebilirlik sağlayan açık kaynak, modüler bir Python API sunuyor
Ampere, Lovelace, Hopper GPU’larını destekliyor
H100 tabanlı olarak TensorRT-LLM uygulanıp test edildiğinde
- GTP-J-6B için çıkarım performansı 8 kat arttı, TCO 5,3 kat azaldı, enerji tüketimi 5,6 kat azaldı
- Llama2 70B için çıkarım performansı 4,6 kat arttı, TCO 3 kat azaldı, enerji tüketimi 3,2 kat azaldı
In-flight Batching olarak adlandırılan optimize edilmiş bir zamanlama tekniğini içeriyor
TensorRT-LLM yüklü NVIDIA H100 GPU, kullanıcıların model ağırlıklarını yeni FP8 formatına kolayca dönüştürmesine ve modeli derleyerek optimize edilmiş FP8 kernel’lerini otomatik olarak kullanmasına olanak tanıyor
- Bu, Hopper Transformer Engine teknolojisi sayesinde mümkün oluyor ve model kodunu değiştirmek gerekmiyor
Şu anda erken erişimde ve birkaç hafta içinde yayımlanması planlanıyor

NVIDIA, LLM çıkarımını hızlandıran açık kaynak TensorRT-LLM’i duyurdu

İlgili okumalar

Henüz yorum yok.