3 puan yazan GN⁺ 2023-09-14 | 1 yorum | WhatsApp'ta paylaş
  • 3090/4090 gibi GPU'larda yerel LLM'leri çalıştırmak üzere tasarlanmış bir çıkarım kütüphanesi
  • İlk sürüm; kod henüz test aşamasında ve bazı önemli özellikler hâlâ uygulanmış değil
  • V1'e kıyasla ExLlamaV2; daha hızlı ve daha iyi çekirdekler, daha temiz ve daha çeşitli bir kod tabanı ve yeni kuantizasyon biçimleri desteği sunuyor
  • CUDA işlevleri için Torch C++ uzantılarına dayanıyor; bunlar çalışma zamanında derleniyor. Kütüphanenin ilk kullanımında 10-20 saniye sürebiliyor, ancak uzantılar sonraki kullanımlar için önbelleğe alınıyor
  • V1 ile aynı 4 bit GPTQ modellerini destekliyor; ayrıca model içinde kuantizasyon seviyelerini karıştırarak ortalama 2 bit ile 8 bit arasında bit oranı elde etmeyi sağlayan yeni EXL2 biçimini de destekliyor
  • Kuantizasyon için parametre seçimi otomatik olarak yapılıyor ve modeli kuantize etmek için betikler sağlanıyor
  • Ayrıca, kullanıcıların deneyebilmesi için HuggingFace'e yüklenmiş bazı EXL2 ile kuantize edilmiş modellerden de bahsediliyor
  • Gelecek planları arasında önceden derlenmiş uzantılara sahip bir PyPI paketi, LoRA desteği, örnek bir web UI, web sunucusu ve daha fazla sampler bulunuyor

1 yorum

 
GN⁺ 2023-09-14
Hacker News görüşleri
  • Yazı, tüketici sınıfı GPU’larda dil modellerini (LLM’ler) çalıştırmayı mümkün kılan yeni bir çıkarım kütüphanesi olan Exllamav2’yi tartışıyor.
  • Bunun, büyük LLM’lerin tüketici sınıfı GPU’larda rekabetçi hızlarda çalışabildiği ilk dönem olduğu ve GPT-3.5-turbo veya GPT-4’ü aşma potansiyeli taşıdığı belirtiliyor.
  • Kütüphane, parametreleri ayarlarken karmaşayı en aza indirmek için farklı katmanları veya modülleri nicemlemenin benzersiz bir yöntemini kullanıyor.
  • 3090 ve 4090 gibi farklı GPU’ların performansını karşılaştırmaya ve bunların farklı modelleri nasıl işlediğine yönelik ilgi var.
  • Yazı ayrıca ROCm desteğinin erken aşamada eklendiğinden söz ediyor ve RTX4090/3090’ın 7900 serisiyle nasıl karşılaştırılacağına dair merak uyandırıyor.
  • Okuyucular, hız karşılaştırmalarıyla ve büyük modellerin üst düzey Nvidia kartları gibi gelişmiş donanımlarda nasıl çalıştığıyla ilgileniyor.
  • Bellekte çalıştırmak için birden fazla kart gerektiren modellerin performansına ilişkin sorular var.
  • Yazı, "Local LLaMA" adlı subreddit’te sürüm hakkında tartışma başlattı.
  • Okuyucular, modelleri tek bit genişliğine indirmenin etkisini ve bunların hâlâ işlevsel olup olmadığını ya da anlamsız çıktılar üretip üretmediğini merak ediyor.
  • ELX2’nin maliyeti ve karmaşa benchmark’ları hakkında sorular var; ayrıca Facebook’un llama v2’yi 65B yerine 70B yapmış olmasına dair bazı şikayetler bulunuyor.
  • Okuyucular EXL2/GPTQ nicemlemesi hakkında daha fazla bilgi arıyor; bunun bu modeldeki hız artışının temel nedeni olduğu düşünülüyor.
  • "70B Llama 2" ile ChatGPT 3.5/4.0 arasında karşılaştırmalar yapılıyor ve göreli performanslarına ilişkin sorular soruluyor.