💫 IPEX-LLM
IPEX-LLM, Intel CPU ve GPU'larda LLM'leri çok düşük gecikmeyle çalıştırmak için kullanılan bir PyTorch kütüphanesidir.
- Intel PyTorch eklentisi (
IPEX), llama.cpp, bitsandbytes, vLLM, qlora, AutoGPTQ, AutoAWQ gibi başarılı çalışmaların üzerine inşa edilmiştir.
llama.cpp, Text-Generation-WebUI, HuggingFace transformers ve benzerleriyle sorunsuz entegrasyon sunar.
ipex-llm üzerinde optimize edilmiş/doğrulanmış 50'den fazla model bulunur; tam listeye buradan ulaşabilirsiniz.
En son güncellemeler 🔥
bigdl-llm, ipex-llm olarak değiştirildi; orijinal BigDL projesi burada bulunabilir.
ipex-llm artık modelleri doğrudan ModelScope(魔搭) üzerinden yükleyebilir.
ipex-llm, INT2 desteği ekleyerek büyük LLM'lerin (ör. Mixtral-8x7B) Intel GPU'larda 16GB VRAM ile çalıştırılmasını mümkün kılar.
- Kullanıcılar artık Text-Generation-WebUI GUI üzerinden
ipex-llm kullanabilir.
ipex-llm artık Self-Speculative Decoding desteği sunuyor ve Intel GPU ile CPU'da FP16 ve BF16 çıkarım gecikmesini sırasıyla yaklaşık %30 hızlandırıyor.
ipex-llm artık Intel GPU'larda LLM fine-tuning için kapsamlı bir listeyi destekliyor.
ipex-llm demosu
-
- nesil Intel Core CPU ve Intel Arc GPU üzerinde
chatglm2-6b ile llama-2-13b-chat modellerinin optimize edilmiş performansını aşağıda görebilirsiniz.
ipex-llm hızlı başlangıç
ipex-llm kurulumu
- Windows GPU: Intel GPU bulunan Windows'ta
ipex-llm kurulumu
- Linux GPU: Intel GPU bulunan Linux'ta
ipex-llm kurulumu
- Docker: Intel CPU ve GPU'larda
ipex-llm Docker kullanımı
- Ayrıntılar için kurulum kılavuzuna bakın
ipex-llm çalıştırma
- llama.cpp: Intel GPU'da
llama.cpp için ipex-llm çalıştırma
- vLLM: Intel GPU ve CPU'da
vLLM içinde ipex-llm çalıştırma
- FastChat: Intel GPU ve CPU'da
FastChat serving üzerinde ipex-llm çalıştırma
- LangChain-Chatchat RAG:
LangChain-Chatchat içinde ipex-llm çalıştırma
- Text-Generation-WebUI:
oobabooga WebUI üzerinde ipex-llm çalıştırma
- Benchmarking: Intel CPU ve GPU'larda
ipex-llm benchmark çalıştırma
Kod örnekleri
- Düşük bitli çıkarım
- INT4 çıkarım: Intel GPU ve CPU'da INT4 LLM çıkarımı
- FP8/FP4 çıkarım: Intel GPU'da FP8 ve FP4 LLM çıkarımı
- INT8 çıkarım: Intel GPU ve CPU'da INT8 LLM çıkarımı
- INT2 çıkarım: Intel GPU'da INT2 LLM çıkarımı
- FP16/BF16 çıkarım
- FP16 LLM çıkarımı: Intel GPU'da isteğe bağlı self-speculative decoding optimizasyonuyla
- BF16 LLM çıkarımı: Intel CPU'da isteğe bağlı self-speculative decoding optimizasyonuyla
- Kaydetme ve yükleme
- Düşük bitli modeller:
ipex-llm düşük bitli modelleri kaydetme ve yükleme
- GGUF: GGUF modellerini doğrudan
ipex-llm içine yükleme
- AWQ: AWQ modellerini doğrudan
ipex-llm içine yükleme
- GPTQ: GPTQ modellerini doğrudan
ipex-llm içine yükleme
- Fine-tuning
- Intel GPU'da LoRA, QLoRA, DPO, QA-LoRA ve ReLoRA dahil LLM fine-tuning
- Intel CPU'da QLoRA fine-tuning
- Topluluk kütüphaneleriyle entegrasyon
- HuggingFace transformers
- Standart PyTorch modelleri
- DeepSpeed-AutoTP
- HuggingFace PEFT
- HuggingFace TRL
- LangChain
- LlamaIndex
- AutoGen
- ModeScope
- Eğitimler
- Ayrıntılar için
ipex-llm dokümantasyon web sitesine bakın
Doğrulanmış modeller
ipex-llm üzerinde optimize edilmiş/doğrulanmış 50'den fazla model arasında LLaMA/LLaMA2, Mistral, Mixtral, Gemma, LLaVA, Whisper ve diğerleri yer alır; listeyi aşağıda görebilirsiniz.
GN⁺ görüşü
IPEX-LLM, Intel donanımında büyük dil modellerini optimize ederek çalıştırabilen güçlü bir araçtır ve yapay zeka araştırma ile geliştirme çalışmalarına önemli katkı sağlayabilir.
- Bu kütüphane, birçok farklı modelle entegre olduğu için kullanıcıların kolayca erişip kullanabilmesi açısından avantaj sunar.
- Ancak Intel donanımına özel olduğu için diğer üreticilerin donanımlarında en iyi performansı garanti etmeyebilir.
- Bu teknolojiyi devreye alırken donanım uyumluluğu ve performans ayarı konusunda yeterli anlayışa sahip olmak gerekir.
- Büyük dil modellerinde çıkarım ve fine-tuning süreçlerini hızlandırabildiği için zaman ve kaynak tasarrufuna katkı sağlayabilir.
1 yorum
Hacker News görüşleri
GPU VRAM tarafında bir sıçrama beklentisi
Intel'in yazılım desteğine olumlu değerlendirme
Intel GPU için tavsiye talebi
Performans benchmark'larına ilgi
Bulut GPU kullanım kolaylığı önerisi
Bulut sağlayıcılarında Intel GPU eksikliği
Ürün incelemelerine yönelik beklenti ifadesi