DeepSeek-R1-671B-Q4_K_M'yi 1 veya 2 Arc A770 Xeon üzerinde çalıştırma
(github.com/intel)- En güncel llama.cpp Portable Zip kullanılarak Xeon üzerinde 1 veya 2 Arc A770 ile DeepSeek-R1-671B-Q4_K_M çalıştırılabilir
- Bu kılavuz, Intel GPU'da
ipex-llmkullanarak llama.cpp'nin doğrudan nasıl çalıştırılacağını açıklar
Desteklenen ortamlar
- Intel Core Ultra işlemciler
- Intel Core 11. nesil - 14. nesil işlemciler
- Intel Arc A-Serisi GPU
- Intel Arc B-Serisi GPU
İçindekiler
- Windows hızlı başlangıç
- Ön hazırlık
-
- adım: İndirme ve sıkıştırılmış dosyayı açma
-
- adım: Çalışma zamanı yapılandırması
-
- adım: GGUF modeli çalıştırma
- Linux hızlı başlangıç
- Ön hazırlık
-
- adım: İndirme ve çıkarma
-
- adım: Çalışma zamanı yapılandırması
-
- adım: GGUF modeli çalıştırma
- (Yeni özellik) FlashMoE kullanarak DeepSeek V3/R1 671B çalıştırma
- İpuçları ve sorun giderme
- Hata: Farklı sycl cihazı algılandı
- Çoklu GPU kullanımı
- Performans ortamı
- Daha fazla bilgi
Windows hızlı başlangıç
Ön hazırlık
- GPU sürücü sürümünü kontrol edin ve gerekirse güncelleyin
- Intel Core Ultra işlemci veya Intel Arc B-Serisi GPU için en güncel sürücü önerilir
- Diğer Intel iGPU/dGPU'lar için 32.0.101.6078 sürücüsü önerilir
1. adım: İndirme ve sıkıştırılmış dosyayı açma
- Windows kullanıcıları IPEX-LLM llama.cpp portable zip dosyasını indirip bir klasöre çıkarmalıdır
2. adım: Çalışma zamanı yapılandırması
- "Komut İstemi"ni açın ve
cd /d PATH\TO\EXTRACTED\FOLDERkomutuyla klasöre gidin - GPU hızlandırmasını kullanmak için bazı ortam değişkenleri gerekir veya önerilir
set SYCL_CACHE_PERSISTENT=1ayarını yapın
- Çoklu GPU kullanıcıları, belirli bir GPU seçme yöntemini ipuçları bölümünde bulabilir
3. adım: GGUF modeli çalıştırma
- Topluluk tarafından sağlanan GGUF modelini yerel dizine indirin veya kopyalayın
- Model yolunu ayarladıktan sonra
llama-cli.exekomutuyla çalıştırın
Linux hızlı başlangıç
Ön hazırlık
- GPU sürücü sürümünü kontrol edin ve gerekirse güncelleyin
- Intel istemci GPU sürücü kurulum kılavuzunu izleyerek sürücüyü kurmanız önerilir
1. adım: İndirme ve çıkarma
- Linux kullanıcıları IPEX-LLM llama.cpp portable tgz dosyasını indirip bir klasöre çıkarmalıdır
2. adım: Çalışma zamanı yapılandırması
- "Terminal"i açın ve
cd /PATH/TO/EXTRACTED/FOLDERkomutuyla klasöre gidin - GPU hızlandırmasını kullanmak için bazı ortam değişkenleri gerekir veya önerilir
export SYCL_CACHE_PERSISTENT=1ayarını yapın
- Çoklu GPU kullanıcıları, belirli bir GPU seçme yöntemini ipuçları bölümünde bulabilir
3. adım: GGUF modeli çalıştırma
- Topluluk tarafından sağlanan GGUF modelini yerel dizine indirin veya kopyalayın
- Model yolunu ayarladıktan sonra
./llama-clikomutuyla çalıştırın
DeepSeek V3/R1 için FlashMoE
- FlashMoE, llama.cpp tabanlı bir komut satırı aracıdır ve MoE modelleri için optimize edilmiştir
- Linux platformunda kullanılabilir
- Test edilen MoE GGUF modelleri: DeepSeek-V3-Q4_K_M, DeepSeek-V3-Q6_K vb.
İpuçları ve sorun giderme
Hata: Farklı sycl cihazı algılandı
- Farklı sycl cihazları algılanırsa performans, en yavaş cihaza göre sınırlandırılır
SYCL_DEVICE_CHECK=0ayarıyla bu denetimi devre dışı bırakıp tüm cihazları kullanabilirsiniz
Çoklu GPU kullanımı
- Birden fazla Intel GPU varsa varsayılan olarak tüm GPU'larda çalışır
- Belirli bir GPU'yu kullanmak için
ONEAPI_DEVICE_SELECTORortam değişkenini ayarlayın
Performans ortamı
SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTSayarıyla performans artırılabilir- Bu mod performansı artırsa da istisnalar oluşabilir
Bu kılavuz, Intel GPU üzerinde llama.cpp'yi verimli şekilde çalıştırmak için yöntemler sunar ve çeşitli ayarlar ile optimizasyon yöntemlerini içerir.
Henüz yorum yok.