9 puan yazan xguru 2023-09-13 | Henüz yorum yok. | WhatsApp'ta paylaş
  • TensorRT derin öğrenme derleyicisi ve optimize edilmiş kernel’ler, ön işleme/son işleme aşamaları, çoklu GPU/çoklu düğüm iletişimi için temel bileşenleri içeriyor
  • C++ veya CUDA hakkında derin bilgiye ihtiyaç duymadan LLM’ler için en yüksek performans ve özelleştirme özelliklerini hızlıca sunmayı mümkün kılıyor
  • Kullanım kolaylığı ve genişletilebilirlik sağlayan açık kaynak, modüler bir Python API sunuyor
  • Ampere, Lovelace, Hopper GPU’larını destekliyor
  • H100 tabanlı olarak TensorRT-LLM uygulanıp test edildiğinde
    • GTP-J-6B için çıkarım performansı 8 kat arttı, TCO 5,3 kat azaldı, enerji tüketimi 5,6 kat azaldı
    • Llama2 70B için çıkarım performansı 4,6 kat arttı, TCO 3 kat azaldı, enerji tüketimi 3,2 kat azaldı
  • In-flight Batching olarak adlandırılan optimize edilmiş bir zamanlama tekniğini içeriyor
  • TensorRT-LLM yüklü NVIDIA H100 GPU, kullanıcıların model ağırlıklarını yeni FP8 formatına kolayca dönüştürmesine ve modeli derleyerek optimize edilmiş FP8 kernel’lerini otomatik olarak kullanmasına olanak tanıyor
    • Bu, Hopper Transformer Engine teknolojisi sayesinde mümkün oluyor ve model kodunu değiştirmek gerekmiyor
  • Şu anda erken erişimde ve birkaç hafta içinde yayımlanması planlanıyor

Henüz yorum yok.

Henüz yorum yok.