2 puan yazan GN⁺ 2025-03-08 | Henüz yorum yok. | WhatsApp'ta paylaş
  • En güncel llama.cpp Portable Zip kullanılarak Xeon üzerinde 1 veya 2 Arc A770 ile DeepSeek-R1-671B-Q4_K_M çalıştırılabilir
  • Bu kılavuz, Intel GPU'da ipex-llm kullanarak llama.cpp'nin doğrudan nasıl çalıştırılacağını açıklar

Desteklenen ortamlar

  • Intel Core Ultra işlemciler
  • Intel Core 11. nesil - 14. nesil işlemciler
  • Intel Arc A-Serisi GPU
  • Intel Arc B-Serisi GPU

İçindekiler

  • Windows hızlı başlangıç
    • Ön hazırlık
      1. adım: İndirme ve sıkıştırılmış dosyayı açma
      1. adım: Çalışma zamanı yapılandırması
      1. adım: GGUF modeli çalıştırma
  • Linux hızlı başlangıç
    • Ön hazırlık
      1. adım: İndirme ve çıkarma
      1. adım: Çalışma zamanı yapılandırması
      1. adım: GGUF modeli çalıştırma
  • (Yeni özellik) FlashMoE kullanarak DeepSeek V3/R1 671B çalıştırma
  • İpuçları ve sorun giderme
    • Hata: Farklı sycl cihazı algılandı
    • Çoklu GPU kullanımı
    • Performans ortamı
  • Daha fazla bilgi

Windows hızlı başlangıç

Ön hazırlık

  • GPU sürücü sürümünü kontrol edin ve gerekirse güncelleyin
    • Intel Core Ultra işlemci veya Intel Arc B-Serisi GPU için en güncel sürücü önerilir
    • Diğer Intel iGPU/dGPU'lar için 32.0.101.6078 sürücüsü önerilir

1. adım: İndirme ve sıkıştırılmış dosyayı açma

  • Windows kullanıcıları IPEX-LLM llama.cpp portable zip dosyasını indirip bir klasöre çıkarmalıdır

2. adım: Çalışma zamanı yapılandırması

  • "Komut İstemi"ni açın ve cd /d PATH\TO\EXTRACTED\FOLDER komutuyla klasöre gidin
  • GPU hızlandırmasını kullanmak için bazı ortam değişkenleri gerekir veya önerilir
    • set SYCL_CACHE_PERSISTENT=1 ayarını yapın
  • Çoklu GPU kullanıcıları, belirli bir GPU seçme yöntemini ipuçları bölümünde bulabilir

3. adım: GGUF modeli çalıştırma

  • Topluluk tarafından sağlanan GGUF modelini yerel dizine indirin veya kopyalayın
  • Model yolunu ayarladıktan sonra llama-cli.exe komutuyla çalıştırın

Linux hızlı başlangıç

Ön hazırlık

  • GPU sürücü sürümünü kontrol edin ve gerekirse güncelleyin
  • Intel istemci GPU sürücü kurulum kılavuzunu izleyerek sürücüyü kurmanız önerilir

1. adım: İndirme ve çıkarma

  • Linux kullanıcıları IPEX-LLM llama.cpp portable tgz dosyasını indirip bir klasöre çıkarmalıdır

2. adım: Çalışma zamanı yapılandırması

  • "Terminal"i açın ve cd /PATH/TO/EXTRACTED/FOLDER komutuyla klasöre gidin
  • GPU hızlandırmasını kullanmak için bazı ortam değişkenleri gerekir veya önerilir
    • export SYCL_CACHE_PERSISTENT=1 ayarını yapın
  • Çoklu GPU kullanıcıları, belirli bir GPU seçme yöntemini ipuçları bölümünde bulabilir

3. adım: GGUF modeli çalıştırma

  • Topluluk tarafından sağlanan GGUF modelini yerel dizine indirin veya kopyalayın
  • Model yolunu ayarladıktan sonra ./llama-cli komutuyla çalıştırın

DeepSeek V3/R1 için FlashMoE

  • FlashMoE, llama.cpp tabanlı bir komut satırı aracıdır ve MoE modelleri için optimize edilmiştir
  • Linux platformunda kullanılabilir
  • Test edilen MoE GGUF modelleri: DeepSeek-V3-Q4_K_M, DeepSeek-V3-Q6_K vb.

İpuçları ve sorun giderme

Hata: Farklı sycl cihazı algılandı

  • Farklı sycl cihazları algılanırsa performans, en yavaş cihaza göre sınırlandırılır
  • SYCL_DEVICE_CHECK=0 ayarıyla bu denetimi devre dışı bırakıp tüm cihazları kullanabilirsiniz

Çoklu GPU kullanımı

  • Birden fazla Intel GPU varsa varsayılan olarak tüm GPU'larda çalışır
  • Belirli bir GPU'yu kullanmak için ONEAPI_DEVICE_SELECTOR ortam değişkenini ayarlayın

Performans ortamı

  • SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS ayarıyla performans artırılabilir
  • Bu mod performansı artırsa da istisnalar oluşabilir

Bu kılavuz, Intel GPU üzerinde llama.cpp'yi verimli şekilde çalıştırmak için yöntemler sunar ve çeşitli ayarlar ile optimizasyon yöntemlerini içerir.

Henüz yorum yok.

Henüz yorum yok.