ExLlamaV2: Yerel LLM'leri sıradan GPU'larda çalıştırmak için hızlı bir çıkarım kütüphanesi

(github.com/turboderp)

3 puan yazan GN⁺ 2023-09-14 | 1 yorum | WhatsApp'ta paylaş

3090/4090 gibi GPU'larda yerel LLM'leri çalıştırmak üzere tasarlanmış bir çıkarım kütüphanesi
İlk sürüm; kod henüz test aşamasında ve bazı önemli özellikler hâlâ uygulanmış değil
V1'e kıyasla ExLlamaV2; daha hızlı ve daha iyi çekirdekler, daha temiz ve daha çeşitli bir kod tabanı ve yeni kuantizasyon biçimleri desteği sunuyor
CUDA işlevleri için Torch C++ uzantılarına dayanıyor; bunlar çalışma zamanında derleniyor. Kütüphanenin ilk kullanımında 10-20 saniye sürebiliyor, ancak uzantılar sonraki kullanımlar için önbelleğe alınıyor
V1 ile aynı 4 bit GPTQ modellerini destekliyor; ayrıca model içinde kuantizasyon seviyelerini karıştırarak ortalama 2 bit ile 8 bit arasında bit oranı elde etmeyi sağlayan yeni EXL2 biçimini de destekliyor
Kuantizasyon için parametre seçimi otomatik olarak yapılıyor ve modeli kuantize etmek için betikler sağlanıyor
Ayrıca, kullanıcıların deneyebilmesi için HuggingFace'e yüklenmiş bazı EXL2 ile kuantize edilmiş modellerden de bahsediliyor
Gelecek planları arasında önceden derlenmiş uzantılara sahip bir PyPI paketi, LoRA desteği, örnek bir web UI, web sunucusu ve daha fazla sampler bulunuyor

1 yorum

GN⁺ 2023-09-14

Hacker News görüşleri

Yazı, tüketici sınıfı GPU’larda dil modellerini (LLM’ler) çalıştırmayı mümkün kılan yeni bir çıkarım kütüphanesi olan Exllamav2’yi tartışıyor.
Bunun, büyük LLM’lerin tüketici sınıfı GPU’larda rekabetçi hızlarda çalışabildiği ilk dönem olduğu ve GPT-3.5-turbo veya GPT-4’ü aşma potansiyeli taşıdığı belirtiliyor.
Kütüphane, parametreleri ayarlarken karmaşayı en aza indirmek için farklı katmanları veya modülleri nicemlemenin benzersiz bir yöntemini kullanıyor.
3090 ve 4090 gibi farklı GPU’ların performansını karşılaştırmaya ve bunların farklı modelleri nasıl işlediğine yönelik ilgi var.
Yazı ayrıca ROCm desteğinin erken aşamada eklendiğinden söz ediyor ve RTX4090/3090’ın 7900 serisiyle nasıl karşılaştırılacağına dair merak uyandırıyor.
Okuyucular, hız karşılaştırmalarıyla ve büyük modellerin üst düzey Nvidia kartları gibi gelişmiş donanımlarda nasıl çalıştığıyla ilgileniyor.
Bellekte çalıştırmak için birden fazla kart gerektiren modellerin performansına ilişkin sorular var.
Yazı, "Local LLaMA" adlı subreddit’te sürüm hakkında tartışma başlattı.
Okuyucular, modelleri tek bit genişliğine indirmenin etkisini ve bunların hâlâ işlevsel olup olmadığını ya da anlamsız çıktılar üretip üretmediğini merak ediyor.
ELX2’nin maliyeti ve karmaşa benchmark’ları hakkında sorular var; ayrıca Facebook’un llama v2’yi 65B yerine 70B yapmış olmasına dair bazı şikayetler bulunuyor.
Okuyucular EXL2/GPTQ nicemlemesi hakkında daha fazla bilgi arıyor; bunun bu modeldeki hız artışının temel nedeni olduğu düşünülüyor.
"70B Llama 2" ile ChatGPT 3.5/4.0 arasında karşılaştırmalar yapılıyor ve göreli performanslarına ilişkin sorular soruluyor.

ExLlamaV2: Yerel LLM'leri sıradan GPU'larda çalıştırmak için hızlı bir çıkarım kütüphanesi

İlgili okumalar

1 yorum

Hacker News görüşleri