Intel CPU ve GPU’larda LLM çalıştırmak için PyTorch kütüphanesi

(github.com/intel-analytics)

1 puan yazan GN⁺ 2024-04-05 | 1 yorum | WhatsApp'ta paylaş

IPEX-LLM, Intel GPU, NPU ve CPU’larında LLM’leri hızlandıran bir PyTorch kütüphanesidir; ancak proje şu anda arşivlenmiş durumdadır ve Intel’in geliştirme ya da destek garantisi yoktur
Destek kapsamı yerel PC’lerdeki iGPU’ları, Arc·Flex·Max gibi ayrık GPU’ları, Intel Core Ultra NPU’ları ve CPU’ları içerir; llama.cpp, Ollama, vLLM, HuggingFace transformers, LangChain, LlamaIndex gibi araçlarla entegre olur
70’ten fazla model ipex-llm üzerinde optimize edilmiş veya doğrulanmıştır; bunlar arasında Llama, Phi, Mistral, Mixtral, DeepSeek, Qwen, ChatGLM, MiniCPM, Qwen-VL, MiniCPM-V yer alır
Son güncellemeler, DeepSeek V3/R1 671B ve Qwen3MoE 235B modellerinin FlashMoE ile 1~2 Intel Arc GPU’da çalıştırılmasını, ipex-llm 2.2.0 sürümünü, PyTorch 2.6 GPU desteğini ve Ollama·llama.cpp Portable Zip desteğini içerir
README, bilinen güvenlik sorunları olduğunu belirtir; Intel bakım, hata düzeltmeleri, yeni sürümler ve güncellemeleri garanti etmez ve artık yama kabul etmez

Projenin durumu ve temel amacı

IPEX-LLM, Intel donanımlarında LLM’leri hızlandırmak için kullanılan bir LLM hızlandırma kütüphanesidir
Hedef donanımlar Intel GPU, NPU ve CPU’dur
- GPU örnekleri yerel PC’lerdeki iGPU’lar ile Arc, Flex, Max gibi ayrık GPU’lardır
- NPU, Intel Core Ultra serisini hedefler
Projenin üst kısmında arşivlenmiş durumda olduğu belirtilmiştir
- Intel geliştirme veya destek sağlamaz ya da garanti etmez
- Bakım, hata düzeltmeleri, yeni sürümler ve güncellemeler garanti edilmez
- Intel bu proje için artık yama kabul etmez
- Bilinen güvenlik sorunları vardır

Entegre olduğu ekosistem

ipex-llm, çeşitli LLM çalıştırma, sunma ve geliştirme araçlarıyla entegre olur
- llama.cpp
- Ollama
- vLLM
- HuggingFace transformers
- LangChain
- LlamaIndex
- Text-Generation-WebUI
- DeepSpeed-AutoTP
- FastChat
- Axolotl
- HuggingFace PEFT
- HuggingFace TRL
- AutoGen
- ModelScope
Hızlı başlangıç belgeleri Ollama, llama.cpp, Arc B580, NPU, PyTorch/HuggingFace, vLLM, FastChat, çoklu Intel GPU ile sunum, Text-Generation-WebUI, Axolotl ve kıyaslamayı kapsar
Docker rehberi C++ GPU çıkarımı, Python GPU çıkarımı, vLLM GPU·CPU, FastChat GPU ve VSCode GPU geliştirme ortamını içerir

Modeller ve optimizasyon kapsamı

README, 70’ten fazla modelin ipex-llm üzerinde optimize edildiğini veya doğrulandığını belirtir
Örnek model aileleri şunlardır
- LLaMA/LLaMA2/LLaMA 3 serisi
- Mistral, Mixtral, Gemma
- LLaVA, Whisper
- ChatGLM2/ChatGLM3
- Baichuan/Baichuan2
- Qwen/Qwen-1.5/Qwen2 serisi
- InternLM
- DeepSeek, MiniCPM, Qwen-VL, MiniCPM-V vb.
Desteklenen hassasiyet ve kuantizasyon düşük bitli çıkarım odaklı yapılandırılmıştır
- FP8, FP6, FP4, INT4
- INT8
- INT2, llama.cpp IQ2 mekanizması temelinde sağlanır
Kaydetme ve yükleme örnekleri INT4, FP4, FP6, INT8, FP8, FP16 gibi düşük bitli modellerin yanı sıra GGUF, AWQ, GPTQ model yüklemeyi içerir

Son güncellemelerde öne çıkan özellikler

Mayıs 2025 güncellemesi, ipex-llm’in FlashMoE’siyle DeepSeek V3/R1 671B ve Qwen3MoE 235B modellerinin 1~2 Intel Arc GPU’da çalıştırılabileceğini belirtir
- Örnek GPU’lar Arc A770 veya B580’dir
Nisan 2025’te ipex-llm 2.2.0 yayımlandı; Ollama Portable Zip ve llama.cpp Portable Zip dahil edildi
llama.cpp Portable Zip için bir güvenlik uyarısı vardır
- mmap tabanlı model yükleme, çok kiracılı veya paylaşımlı host ortamlarında yan kanal yoluyla veri sızmasına neden olabilir
- --no-mmap seçeneğiyle mmap devre dışı bırakılabilir
Nisan 2025’te Intel GPU için PyTorch 2.6 desteği eklendi
Mart 2025’te Gemma3 model desteği ve DeepSeek-R1-671B-Q4_K_M modelinin Xeon üzerinde 1~2 Arc A770 ile çalıştırılmasına ilişkin içerik eklendi
Şubat 2025’te Intel GPU için Ollama Portable Zip, Intel GPU·NPU için llama.cpp Portable Zip ve Intel Arc GPU’da vLLM 0.6.6 desteği eklendi
Aralık 2024’te Intel Core Ultra NPU için Python ve C++ desteği eklendi; hedef seriler 100H, 200V, 200K ve 200H’dir

Demolar ve performans·doğruluk verileri

Demolar, yerel LLM’lerin Intel Core Ultra iGPU, Intel Core Ultra NPU, tek Arc GPU ve çoklu Arc GPU üzerinde çalıştırılmasına örnekler sunar
- Intel Core Ultra iGPU: Ollama ile Mistral-7B Q4_K çalıştırma
- Intel Core Ultra NPU: HuggingFace ile Llama3.2-3B SYM_INT4 çalıştırma
- 2 Intel Arc dGPU: llama.cpp ile DeepSeek-R1-Distill-Qwen-32B Q4_K çalıştırma
- Intel Xeon + Arc dGPU: FlashMoE ile Qwen3MoE-235B Q4_K çalıştırma
Performans bölümü, Intel Core Ultra ve Intel Arc GPU’lardaki token üretim hızı verilerini sunar
Kıyaslama rehberi üzerinden ipex-llm performans kıyaslamalarını doğrudan çalıştırabilirsiniz
Model doğruluğu bölümü, Wikitext veri kümesinde ölçülen Perplexity sonuçlarını sunar
- Karşılaştırılan hassasiyetler sym_int4, q4_k, fp6, fp8_e5m2, fp8_e4m3, fp16
- Hedef modeller arasında Llama-2-7B-chat-hf, Mistral-7B-Instruct-v0.2, Baichuan2-7B-chat, Qwen1.5-7B-chat, Llama-3.1-8B-Instruct, gemma-2-9b-it vb. bulunur
Performans kullanım biçimine, yapılandırmaya ve diğer etkenlere göre değişir; ipex-llm, Intel dışı ürünlerde aynı düzeyde optimize edilmemiş olabilir

Geliştirme ve kullanım örnekleri

Kod örnekleri düşük bitli çıkarım, FP16/BF16 çıkarımı, dağıtık çıkarım, kaydetme·yükleme, fine-tuning ve topluluk kütüphaneleriyle entegrasyon olarak ayrılır
Fine-tuning, Intel GPU’da LoRA, QLoRA, DPO, QA-LoRA ve ReLoRA’yı içerir
Intel CPU’da da QLoRA fine-tuning örneği sağlanır
Uygulama rehberi GraphRAG, RAGFlow, LangChain-Chatchat, Continue, Open WebUI, PrivateGPT ve Dify içinde ipex-llm kullanım akışını ele alır
API belgeleri HuggingFace Transformers tarzı Auto Classes API’si ve rastgele PyTorch modelleri için optimizasyon API’si sağlar

1 yorum

GN⁺ 2024-04-05

Hacker News görüşleri

Uzun süre 4 çekirdekte ısrar eden şirketin, bir sonraki tüketici GPU’sunda son 10 yıldır AMD ve Nvidia’nın fiilen dayattığı 8~16GB VRAM saplantısını kırarak bunu telafi etme fırsatı var
Uygun bir fiyata 32~48GB gelirse oldukça şiirsel bir sahne olur ve Intel yazılım desteği tarafında da nihayet düzgün hareket ediyor gibi görünüyor
- Intel yapay zeka alanında Nvidia’yı yakalamaya çalışıyor ama bunun en büyük nedeni ürün rekabetçiliğinin yetersiz olması
  Ekim 2022’de çıkan Intel Arc A770 16GB yaklaşık 300 dolar, Nvidia 4060 Ti 16GB ise yaklaşık 500 dolar ama gerçek yapay zeka işlerinde 4060 Ti yaklaşık iki kat daha hızlı: https://cdn.mos.cms.futurecdn.net/FtXkrY6AD8YypMiHrZuy4K-120...
  Teoride Arc A770’in daha hızlı olması durumu daha da vahim kılıyor. TFLOPS bazında performansı Nvidia 4060’ın iki katından fazla: https://cdn.mos.cms.futurecdn.net/Q7WgNxqfgyjCJ5kk8apUQE-120...
  Ama yapay zeka ekosisteminin tamamı Nvidia’nın CUDA platformunda çalışacak şekilde geliştirilip optimize edildiği için gerçek performans düşük kalıyor
  Sonuçta mesele bilinirlik ve ekosistem. Intel, 32GB ya da 64GB VRAM’e sahip workstation GPU’larını, akıl almaz derecede pahalı kurumsal canavarlar yerine geliştiricinin satın alabileceği bir formda çıkarırsa inanılmaz satar
  En hızlı kart olması da gerekmiyor. Rakiplerinden sadece daha fazla VRAM vermesi yeterli. Şu anda eğitim ya da video üretiminde GPU hızından çok VRAM yetersizliği daha büyük darboğaz ve Intel’in bunu neden göremediğini anlamıyorum
- 24GB üstü VRAM muhtemelen GDDR7 gelene kadar ucuzlamaz ve GDDR7 bile bunu ancak 36GB civarına kadar taşıyabilir gibi görünüyor
  Daha üst seviye yığılmış GDDR6 türevleri muhtemelen epey pahalı olur ve sinyal bütünlüğü sorunları nedeniyle die sayısını da öylece artıramazsınız
- Bize çok açık görünen şeyler ürün yöneticisine sektör standardı gibi görünür
  Sektördeki oyuncuların yerleşik düzeni en son ne zaman sarstığını düşününce, Intel’in de o kadar değişmiş bir şirket olmadığını görüyorsunuz
- Uygun fiyata 32~48GB gelmesinin harika olacağı fikrine katılıyorum
  Bazı Asrock anakart BIOS sürümlerinde Ryzen5 için VRAM’in 64GB’a kadar ayarlanabildiğini duydum ve şu anda çeşitli AMD donanımlarıyla bunu araştırıyorum
- AMD yüksek kaliteli sürücüler yaparsa para verip izlemek isterim :-)
Benchmark verilerini merak ediyorum
Örneklerde gösterilen hızlar oldukça iyi görünüyordu
Bunu kullanabileceğim yüksek VRAM’li Intel GPU önerisi olup olmadığını merak ediyorum
- Veri merkezi ürünü olan Max GPU(Ponte Vecchio) var; 128GB HBM2e bellek, 408MB L2 cache ve 64MB L1 cache sunuyor
  Gaudi de benzer rakamlara sahip ama pazarlama materyallerine göre bu taraf yapay zeka iş yüklerine özel çekirdekler içeriyor
  Dell ve Supermicro’nun hazır sistemlerinde bulunabiliyor: https://www.supermicro.com/en/accelerators/intel
  Daha fazla okuma: https://www.servethehome.com/intel-shows-gpu-max-1550-perfor...
- Tüketici tarafında Intel Arc A770 16GB VRAM var
  Bunun üstü artık kurumsal ürün ailesine girmeye başlıyor
Bunun llamafile ya da başka seçeneklerle karşılaştırmalı performans benchmark’ı olup olmadığını merak ediyorum
[0] - https://github.com/mozilla-Ocho/llamafile
- Intel GPU’lar zaten llama.cpp ile kullanılabiliyor ve hem ARC hem de entegre GPU’lar birden fazla backend destekliyor
  Desteklenen backend’ler SYCL, Vulkan ve OpenCL
  Donanım bende yok ama Intel veri merkezi tarafını güçlü biçimde ittiği için ARC üzerinde SYCL muhtemelen daha hızlıdır
  [1]: https://www.intel.com/content/www/us/en/developer/articles/t...
Örnekleri çalıştırmak için yanında bir bulut GPU scripti de olsa iyi olurdu
Uyumlu GPU’yu tahmin ettirmek yerine bir bulut sağlayıcısında doğrudan çalıştıran bir yöntem daha faydalı olur gibi geliyor ve bunu kendim yapmayı düşünüyorum
Büyük bulut sağlayıcıları arasında Intel GPU sunan yok
- Intel GPU’lar Güneydoğu Asya pazarında epey yayılmış durumda ve Intel de yakında yeni nesli çıkaracak
  Üstelik Nvidia’nın GRID lisansının aksine ek lisans ücreti olmadan GPU sanallaştırmaya izin veriyor; bu da barındırma şirketlerinin kartı bölerek sunabilmesini sağlıyor
  İleride Intel tabanlı sunumların çok daha fazla artacağı hissi var
- Bulut değil ama tüketici tarafında oldukça iyi bir teklif
  16GB bellek ve 4060 Ti’ye yakın performansı fiyatın yaklaşık %65’ine sunuyor
- Yine de Intel CPU sunan yer çok

Intel CPU ve GPU’larda LLM çalıştırmak için PyTorch kütüphanesi

Projenin durumu ve temel amacı

Entegre olduğu ekosistem

Modeller ve optimizasyon kapsamı

Son güncellemelerde öne çıkan özellikler

Demolar ve performans·doğruluk verileri

Geliştirme ve kullanım örnekleri

İlgili okumalar

1 yorum

Hacker News görüşleri