Cloud GPU rehberi - Yapay zeka için hangi GPU’yu nerede kullanmalı?

xguru · 2023-08-23T11:04:02+09:00

StableDiffusion, Whisper, açık kaynak LLM’ler vb. kullanarak yapay zeka araçları geliştiriyorsanız, bunların bir yerde sürekli çalışıyor olması gerekir Hangi GPU’yu kullanmalı? Cloud GPU kullanacaksanız: Falcon-40B, Falcon-40B-Uncensored veya Falcon-40B-Instruct Maliyet önemli değilse ve en iyi performansı istiyorsanız: 2 adet H100 Maliyet ve performans dengesi istiyorsanız: 2 adet RTX 6000 Ada (A6000 veya RTX6000 değil) Ucuz olsun istiyorsanız: 2 adet A6000 MPT-30B En iyi performans veya fiyat/performans: 1 adet H100 Ucuz: 1 adet A100 80GB Stable Diffusion En iyi performans: 1 adet H100 Fiyat/performans: 1 adet 4090 Ucuz: 1 adet 3090 Whisper Stable Diffusion ile aynı Whisper-Large daha az VRAM ile çalışabilir, ancak çoğu bulut sağlayıcısında böyle kartlar yok 4090/3090 üzerinde de iyi çalışır, CPU’da da mümkün Büyük ölçekli LLM fine-tuning yapacaksanız H100 kümesi veya A100 kümesi Büyük ölçekli LLM eğitmek istiyorsanız Büyük bir H100 kümesi Yerel GPU kullanacaksanız: Yukarıdakilerle neredeyse aynı, ancak LLM eğitimi ve fine-tuning mümkün değil Çoğu LLM’in daha küçük VRAM’de çalışabilen sürümleri vardır (40GB üzerinde Falcon gibi) Modelleri yerelde mi çalıştırmalı, cloud GPU’da mı? İkisi de makul seçimlerdir Modeli bulutta çalıştırmak için en kolay seçenek Runpod şablonları En kolay seçenek, barındırılan instance’ları kullanmak: Stable Diffusion için DreamStudio, RunDiffusion, Playground AI vb. RTX 6000, A6000, 6000 Ada arasındaki fark ne? Üçü tamamen farklıdır RTX 6000 (Quadro RTX 6000, 24 GB VRAM, çıkış tarihi 2018/08/13) RTX A6000 (48 GB VRAM, çıkış tarihi 2020/10/05) RTX 6000 Ada (48 GB VRAM, çıkış tarihi 2022/12/03) DGX GH200, GH200, H100? 1 adet DGX GH200, 256 adet GH200 içerir 1 adet GH200, 1 adet H100 ve 1 adet Grace CPU içerir H100, A100’e göre büyük bir yükseltme mi? Kesinlikle. Hız artışı çok büyük. H100, A100’e kıyasla daha fazla sayıda GPU ile ölçeklenebilir Yani LLM eğitimi için birden fazla H100 en iyi seçenektir AMD, Intel, Cerebras peki? Şu anda Nvidia en kolay seçenek Hangi GPU bulutunu kullanmalı? Çok sayıda A100/H100 gerekiyorsa: Oracle, FluidStack, Lambda Labs ile iletişime geçin Birkaç adet A100 gerekiyorsa: FluidStack veya Runpod 1 adet H100 gerekiyorsa: FluidStack veya Lambda Labs Ucuz 3090, 4090, A6000 istiyorsanız: Tensordock Sadece Stable Diffusion inference gerekiyorsa: Salad Farklı türlerde GPU’lara ihtiyacınız varsa: Runpod veya FluidStack Şablon kullanacaksanız veya hobi amaçlıysa: Runpod Büyük bulut sağlayıcıları pahalı ve karmaşıktır Başlamak için en kolay GPU Cloud RunPod’da şablon kullanın RunPod pod’larının tam özellikli bir VM değil, ana makinedeki Docker container’ları olduğunu unutmayın Ne kadar VRAM, sistem RAM’i ve kaç vCPU gerekir? VRAM (Video RAM / GPU RAM) Falcon-40B: 85-100GB MPT-30B: 80GB Stable Diffusion: 16GB+ ve üzeri tercih edilir Whisper: 12GB+. (OpenAI sürümü kullanılıyorsa bu kadar; topluluk sürümleriyle CPU’da da mümkün) Sistem RAM’i VRAM’in 1-2 katı vCPU’lar Büyük GPU iş yükleri değilse 8-16 vCPU yeterli Disk kapasitesi Kullanım senaryosuna göre değişir. Emin değilseniz 100GB ile başlayıp kullanımınıza uyup uymadığına bakın

(gpus.llm-utils.org)

37 puan yazan xguru 2023-08-23 | 6 yorum | WhatsApp'ta paylaş

StableDiffusion, Whisper, açık kaynak LLM’ler vb. kullanarak yapay zeka araçları geliştiriyorsanız, bunların bir yerde sürekli çalışıyor olması gerekir

Hangi GPU’yu kullanmalı?

Cloud GPU kullanacaksanız:

Falcon-40B, Falcon-40B-Uncensored veya Falcon-40B-Instruct
- Maliyet önemli değilse ve en iyi performansı istiyorsanız: 2 adet H100
- Maliyet ve performans dengesi istiyorsanız: 2 adet RTX 6000 Ada (A6000 veya RTX6000 değil)
- Ucuz olsun istiyorsanız: 2 adet A6000
MPT-30B
- En iyi performans veya fiyat/performans: 1 adet H100
- Ucuz: 1 adet A100 80GB
Stable Diffusion
- En iyi performans: 1 adet H100
- Fiyat/performans: 1 adet 4090
- Ucuz: 1 adet 3090
Reklam
Whisper
- Stable Diffusion ile aynı
- Whisper-Large daha az VRAM ile çalışabilir, ancak çoğu bulut sağlayıcısında böyle kartlar yok
- 4090/3090 üzerinde de iyi çalışır, CPU’da da mümkün
Büyük ölçekli LLM fine-tuning yapacaksanız
- H100 kümesi veya A100 kümesi
Büyük ölçekli LLM eğitmek istiyorsanız
- Büyük bir H100 kümesi
  Yerel GPU kullanacaksanız:
Yukarıdakilerle neredeyse aynı, ancak LLM eğitimi ve fine-tuning mümkün değil
Çoğu LLM’in daha küçük VRAM’de çalışabilen sürümleri vardır (40GB üzerinde Falcon gibi)

Modelleri yerelde mi çalıştırmalı, cloud GPU’da mı?

İkisi de makul seçimlerdir
Modeli bulutta çalıştırmak için en kolay seçenek Runpod şablonları
En kolay seçenek, barındırılan instance’ları kullanmak: Stable Diffusion için DreamStudio, RunDiffusion, Playground AI vb.

RTX 6000, A6000, 6000 Ada arasındaki fark ne?

Üçü tamamen farklıdır

RTX 6000 (Quadro RTX 6000, 24 GB VRAM, çıkış tarihi 2018/08/13)
RTX A6000 (48 GB VRAM, çıkış tarihi 2020/10/05)
RTX 6000 Ada (48 GB VRAM, çıkış tarihi 2022/12/03)

DGX GH200, GH200, H100?

1 adet DGX GH200, 256 adet GH200 içerir
1 adet GH200, 1 adet H100 ve 1 adet Grace CPU içerir

H100, A100’e göre büyük bir yükseltme mi?

Kesinlikle. Hız artışı çok büyük. H100, A100’e kıyasla daha fazla sayıda GPU ile ölçeklenebilir
Yani LLM eğitimi için birden fazla H100 en iyi seçenektir

AMD, Intel, Cerebras peki?

Şu anda Nvidia en kolay seçenek

Hangi GPU bulutunu kullanmalı?

Çok sayıda A100/H100 gerekiyorsa: Oracle, FluidStack, Lambda Labs ile iletişime geçin
Birkaç adet A100 gerekiyorsa: FluidStack veya Runpod
1 adet H100 gerekiyorsa: FluidStack veya Lambda Labs
Ucuz 3090, 4090, A6000 istiyorsanız: Tensordock
Sadece Stable Diffusion inference gerekiyorsa: Salad
Farklı türlerde GPU’lara ihtiyacınız varsa: Runpod veya FluidStack
Şablon kullanacaksanız veya hobi amaçlıysa: Runpod
Büyük bulut sağlayıcıları pahalı ve karmaşıktır

Başlamak için en kolay GPU Cloud

RunPod’da şablon kullanın
RunPod pod’larının tam özellikli bir VM değil, ana makinedeki Docker container’ları olduğunu unutmayın

Ne kadar VRAM, sistem RAM’i ve kaç vCPU gerekir?

VRAM (Video RAM / GPU RAM)
- Falcon-40B: 85-100GB
- MPT-30B: 80GB
- Stable Diffusion: 16GB+ ve üzeri tercih edilir
- Whisper: 12GB+. (OpenAI sürümü kullanılıyorsa bu kadar; topluluk sürümleriyle CPU’da da mümkün)
Sistem RAM’i
- VRAM’in 1-2 katı
vCPU’lar
- Büyük GPU iş yükleri değilse 8-16 vCPU yeterli
Disk kapasitesi
Kullanım senaryosuna göre değişir. Emin değilseniz 100GB ile başlayıp kullanımınıza uyup uymadığına bakın

6 yorum

wlsdk318 2024-01-30

Runpod kullanıyorum; ucuz, kullanımı kolay ve gerçekten çok iyi! Faydalı bilgiler için teşekkürler.

geekbini 2023-08-24

Çok faydalı bir bilgi!

ninebow 2023-08-24

Küçük bir şey ama altta yaklaşık 2 bölüm eksik gibi göründüğü için ekledim. :)

SXM veya PCIe, NVLink gerekli mi?

Emin değilseniz, önce önemli olmadığını varsayın
Daha ayrıntılı bilgi için: https://gpus.llm-utils.org/nvlink-sxm-and-pcie/

InfiniBand peki?

1-2 GPU kullanıyorsanız gerekli değil. Binlerce GPU’dan oluşan bir küme kullanıyorsanız gerekli.