1 puan yazan GN⁺ 2024-04-05 | 1 yorum | WhatsApp'ta paylaş

💫 IPEX-LLM

  • IPEX-LLM, Intel CPU ve GPU'larda LLM'leri çok düşük gecikmeyle çalıştırmak için kullanılan bir PyTorch kütüphanesidir.
  • Intel PyTorch eklentisi (IPEX), llama.cpp, bitsandbytes, vLLM, qlora, AutoGPTQ, AutoAWQ gibi başarılı çalışmaların üzerine inşa edilmiştir.
  • llama.cpp, Text-Generation-WebUI, HuggingFace transformers ve benzerleriyle sorunsuz entegrasyon sunar.
  • ipex-llm üzerinde optimize edilmiş/doğrulanmış 50'den fazla model bulunur; tam listeye buradan ulaşabilirsiniz.

En son güncellemeler 🔥

  • bigdl-llm, ipex-llm olarak değiştirildi; orijinal BigDL projesi burada bulunabilir.
  • ipex-llm artık modelleri doğrudan ModelScope(魔搭) üzerinden yükleyebilir.
  • ipex-llm, INT2 desteği ekleyerek büyük LLM'lerin (ör. Mixtral-8x7B) Intel GPU'larda 16GB VRAM ile çalıştırılmasını mümkün kılar.
  • Kullanıcılar artık Text-Generation-WebUI GUI üzerinden ipex-llm kullanabilir.
  • ipex-llm artık Self-Speculative Decoding desteği sunuyor ve Intel GPU ile CPU'da FP16 ve BF16 çıkarım gecikmesini sırasıyla yaklaşık %30 hızlandırıyor.
  • ipex-llm artık Intel GPU'larda LLM fine-tuning için kapsamlı bir listeyi destekliyor.

ipex-llm demosu

    1. nesil Intel Core CPU ve Intel Arc GPU üzerinde chatglm2-6b ile llama-2-13b-chat modellerinin optimize edilmiş performansını aşağıda görebilirsiniz.

ipex-llm hızlı başlangıç

ipex-llm kurulumu

  • Windows GPU: Intel GPU bulunan Windows'ta ipex-llm kurulumu
  • Linux GPU: Intel GPU bulunan Linux'ta ipex-llm kurulumu
  • Docker: Intel CPU ve GPU'larda ipex-llm Docker kullanımı
  • Ayrıntılar için kurulum kılavuzuna bakın

ipex-llm çalıştırma

  • llama.cpp: Intel GPU'da llama.cpp için ipex-llm çalıştırma
  • vLLM: Intel GPU ve CPU'da vLLM içinde ipex-llm çalıştırma
  • FastChat: Intel GPU ve CPU'da FastChat serving üzerinde ipex-llm çalıştırma
  • LangChain-Chatchat RAG: LangChain-Chatchat içinde ipex-llm çalıştırma
  • Text-Generation-WebUI: oobabooga WebUI üzerinde ipex-llm çalıştırma
  • Benchmarking: Intel CPU ve GPU'larda ipex-llm benchmark çalıştırma

Kod örnekleri

  • Düşük bitli çıkarım
    • INT4 çıkarım: Intel GPU ve CPU'da INT4 LLM çıkarımı
    • FP8/FP4 çıkarım: Intel GPU'da FP8 ve FP4 LLM çıkarımı
    • INT8 çıkarım: Intel GPU ve CPU'da INT8 LLM çıkarımı
    • INT2 çıkarım: Intel GPU'da INT2 LLM çıkarımı
  • FP16/BF16 çıkarım
    • FP16 LLM çıkarımı: Intel GPU'da isteğe bağlı self-speculative decoding optimizasyonuyla
    • BF16 LLM çıkarımı: Intel CPU'da isteğe bağlı self-speculative decoding optimizasyonuyla
  • Kaydetme ve yükleme
    • Düşük bitli modeller: ipex-llm düşük bitli modelleri kaydetme ve yükleme
    • GGUF: GGUF modellerini doğrudan ipex-llm içine yükleme
    • AWQ: AWQ modellerini doğrudan ipex-llm içine yükleme
    • GPTQ: GPTQ modellerini doğrudan ipex-llm içine yükleme
  • Fine-tuning
    • Intel GPU'da LoRA, QLoRA, DPO, QA-LoRA ve ReLoRA dahil LLM fine-tuning
    • Intel CPU'da QLoRA fine-tuning
  • Topluluk kütüphaneleriyle entegrasyon
    • HuggingFace transformers
    • Standart PyTorch modelleri
    • DeepSpeed-AutoTP
    • HuggingFace PEFT
    • HuggingFace TRL
    • LangChain
    • LlamaIndex
    • AutoGen
    • ModeScope
  • Eğitimler
    • Ayrıntılar için ipex-llm dokümantasyon web sitesine bakın

Doğrulanmış modeller

  • ipex-llm üzerinde optimize edilmiş/doğrulanmış 50'den fazla model arasında LLaMA/LLaMA2, Mistral, Mixtral, Gemma, LLaVA, Whisper ve diğerleri yer alır; listeyi aşağıda görebilirsiniz.

GN⁺ görüşü

  • IPEX-LLM, Intel donanımında büyük dil modellerini optimize ederek çalıştırabilen güçlü bir araçtır ve yapay zeka araştırma ile geliştirme çalışmalarına önemli katkı sağlayabilir.
  • Bu kütüphane, birçok farklı modelle entegre olduğu için kullanıcıların kolayca erişip kullanabilmesi açısından avantaj sunar.
  • Ancak Intel donanımına özel olduğu için diğer üreticilerin donanımlarında en iyi performansı garanti etmeyebilir.
  • Bu teknolojiyi devreye alırken donanım uyumluluğu ve performans ayarı konusunda yeterli anlayışa sahip olmak gerekir.
  • Büyük dil modellerinde çıkarım ve fine-tuning süreçlerini hızlandırabildiği için zaman ve kaynak tasarrufuna katkı sağlayabilir.

1 yorum

 
GN⁺ 2024-04-05
Hacker News görüşleri
  • GPU VRAM tarafında bir sıçrama beklentisi

    Bir şirketin, bir sonraki tüketici GPU lansmanıyla "sonsuz 4 çekirdek" döneminden çıkıp AMD ve Nvidia'nın uzun süredir sürdürdüğü "sonsuz 8-16GB VRAM" sınırını kırma fırsatı var. 32-48GB VRAM'i makul bir fiyata sunmaları şiirsel olurdu.

  • Intel'in yazılım desteğine olumlu değerlendirme

    Intel, yazılım desteği konusunda doğru yönde ilerliyor. Benchmark verilerini görmek isterim; verilen örnekteki hız da oldukça iyi görünüyor.

  • Intel GPU için tavsiye talebi

    Bol miktarda vRAM'e sahip bir Intel GPU tavsiyesine ihtiyacım var. Bununla uyumlu bir ürün olup olmadığını soruyor.

  • Performans benchmark'larına ilgi

    'llamafile' veya diğer benchmark'larla performans karşılaştırmasını merak ediyorum. İlgili benchmark için bir bağlantı paylaşılmış.

  • Bulut GPU kullanım kolaylığı önerisi

    Bulut sağlayıcılarında uyumlu GPU'larla örneği çalıştırabilecek bir script verilmesi iyi olurdu. Bununla ilgilenip ilgilenmediklerini soruyor; kendisi de bunu kurmayı düşünüyor.

  • Bulut sağlayıcılarında Intel GPU eksikliği

    Büyük bulut sağlayıcıları Intel GPU sunmuyor.

  • Ürün incelemelerine yönelik beklenti ifadesi

    İncelemeleri sabırsızlıkla bekliyorum; gelecekteki ürün değerlendirmeleriyle ilgileniyorum.