- 3090/4090 gibi GPU'larda yerel LLM'leri çalıştırmak üzere tasarlanmış bir çıkarım kütüphanesi
- İlk sürüm; kod henüz test aşamasında ve bazı önemli özellikler hâlâ uygulanmış değil
- V1'e kıyasla ExLlamaV2; daha hızlı ve daha iyi çekirdekler, daha temiz ve daha çeşitli bir kod tabanı ve yeni kuantizasyon biçimleri desteği sunuyor
- CUDA işlevleri için Torch C++ uzantılarına dayanıyor; bunlar çalışma zamanında derleniyor. Kütüphanenin ilk kullanımında 10-20 saniye sürebiliyor, ancak uzantılar sonraki kullanımlar için önbelleğe alınıyor
- V1 ile aynı 4 bit GPTQ modellerini destekliyor; ayrıca model içinde kuantizasyon seviyelerini karıştırarak ortalama 2 bit ile 8 bit arasında bit oranı elde etmeyi sağlayan yeni
EXL2 biçimini de destekliyor
- Kuantizasyon için parametre seçimi otomatik olarak yapılıyor ve modeli kuantize etmek için betikler sağlanıyor
- Ayrıca, kullanıcıların deneyebilmesi için HuggingFace'e yüklenmiş bazı EXL2 ile kuantize edilmiş modellerden de bahsediliyor
- Gelecek planları arasında önceden derlenmiş uzantılara sahip bir PyPI paketi, LoRA desteği, örnek bir web UI, web sunucusu ve daha fazla sampler bulunuyor
1 yorum
Hacker News görüşleri