$2000’lık EPYC sunucuda DeepSeek R1 671b modelini yerelde çalıştırma rehberi

(digitalspaceport.com)

3 puan yazan GN⁺ 2025-02-02 | 1 yorum | WhatsApp'ta paylaş

AMD EPYC Rome sistemi tabanlı Deepseek AI Rig, etkileyici performans sunuyor
Q4 671b modelinde 4.25 ile 3.5 TPS elde ediliyor; bu da yalnızca CPU ile çalıştırmanın yeterli olduğunu gösteriyor
Bu sistem, büyük GPU VRAM’e ihtiyaç duymadan çalışabiliyor ve teknik zorluklardan hoşlananlar için eğlenceli bir proje olabilir
Distile sürümlerin performansı daha düşük olduğundan, "tam model" kullanılması öneriliyor
- 16K üzeri context window desteğiyle daha iyi performans sağlıyor

Local AI CPU Compute Hardware

Mevcut dört adet 3090 rehberine göre kurulan sistem hâlâ güçlü. MZ32-AR0 anakart, 512GB ile 1TB sistem RAM’ini uygun maliyetle kurmayı mümkün kılıyor. Şu anda 2400 DDR4 RAM kullanılıyor, ancak 3200 hızında DDR4 ECC RAM kullanılırsa performansın artma ihtimali var.
Bileşenler ve maliyetler:
- Rack frame: $55
- MZ32-AR0 anakart: $500
- 420mm sıvı soğutucu Corsair h170i elite capellix xt: $170
- 64 çekirdekli AMD EPYC 7702: $650
- 512GB 2400 ECC RAM: $400
- 1TB NVMe – Samsung 980 Pro: $75
- 850W PSU: $80
Toplam maliyet: yaklaşık $2000

Rack montajı

Mevcut rehberle aynı şekilde kurulum yapılıyor, ancak GPU ve riser kartlar hariç tutuluyor
İleride GPU eklemeyi planlıyorsanız, baştan 1500W veya 1600W PSU kullanmanız öneriliyor
RAM modüllerinin sıcaklığını düşürmek için 4 adet 80mm fan ile bir fan duvarı oluşturmanız tavsiye ediliyor

Anakart yükseltme notları

AMD EPYC 7V13 CPU kullanacaksanız, MZ32-AR0 V3 sürümü anakartı tercih etmeniz öneriliyor
V1 sürümü anakartlar Milan CPU’ları desteklemeyebilir; bu durumda BIOS güncellemesiyle V3’e yükseltme yapılmalı

Yerel AI self-hosted yazılım kurulumu

Ubuntu 24.04 sunucu sürümünün kurulması öneriliyor
BMC ayarları üzerinden ağ IP ayarının statik IP olarak yapılandırılması gerekiyor
BIOS ayarlarında şu değişiklikler yapılıyor:
- NPS değeri 1 olarak ayarlanıyor
- CCD Auto olarak ayarlanıyor
- SMT devre dışı bırakılıyor
- SVM devre dışı bırakılıyor
- IOMMU devre dışı bırakılıyor
- cTDP 200 olarak ayarlanıyor
- deterministic control manual olarak ayarlanıp kaydırıcı performance konumuna getiriliyor
- quick power policy performance olarak ayarlanıyor
- BoostFMax manual olarak ayarlanıp değer 3400 yapılıyor

Ollama kurulumu

Ollama aşağıdaki komutlarla kuruluyor:

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz  
sudo tar -C /usr -xzf ollama-linux-amd64.tgz  
sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama  
sudo usermod -a -G ollama $(whoami)

Ortam değişkenleri ayarlanıyor ve ollama.service dosyası oluşturularak servis olarak kaydediliyor

DeepSeek 671b modelini indirme

DeepSeek 671b modeli aşağıdaki komutla indiriliyor:
```
ollama pull deepseek-r1:671b  
```
Bu model yaklaşık 400GB disk alanı kapladığı için yeterli depolama alanı ayrılması gerekiyor

OpenWEBUI kurulumu

Docker kullanılarak OpenWEBUI kuruluyor
Docker Compose ile OpenWEBUI servisi yapılandırılıp çalıştırılıyor

OpenWEBUI ile Ollama’yı bağlama

OpenWEBUI ayarlarından Ollama sunucusu ekleniyor ve bağlantı durumu doğrulanıyor
Gelişmiş parametrelerde GPU ayarları, Reasoning Effort, Context Length, num_thread gibi seçenekler yapılandırılıyor

Test çalıştırma

OpenWEBUI içinde yeni bir sohbet başlatılıyor, DeepSeek-r1:671b modeli seçilerek test konuşması yapılıyor

Bu rehberi izleyerek yaklaşık $2000 bütçeyle DeepSeek R1 671b modelini yerelde çalıştırabilirsiniz

1 yorum

GN⁺ 2025-02-02

Hacker News görüşleri

671B modeli Q4 kuantizasyonla tek soketli bir Epyc sunucuda çalıştırmanın maliyeti $2K ve 512GB RAM kullanıyor. Q8'de ise çift soketli Epyc sunucu 768GB RAM ile 6-8 TPS sağlıyor ve maliyeti $6K. RAM hızının TPS'yi nasıl etkilediği merak ediliyor.
Çevrimiçi olarak R1'in maliyeti $2/MTok ve bu donanım 4 tok/s üzerinde çalışarak saat başına $0.04 maliyet çıkarıyor. Elektrik maliyeti ise saat başına $0.20 olarak tahmin ediliyor. Gizlilik dışında bunun çok anlamlı olmadığı düşünülüyor.
Yapay zekadaki mevcut tuhaflığın, en iyi modelleri çalıştırmak istemek ama donanım maliyetlerinin pahalı olması olduğu söyleniyor. 1990'larda ucuz donanımla Linux çalıştırılabiliyordu. Modern yapay zeka modelleri daha fazla RAM gerektiriyor. Geçmişte de benzer bir durumun yaşanıp yaşanmadığı merak ediliyor. Bilgisayar oyunları buna iyi bir örnek olabilir.
Küçük modellerle (33b-70b) 5-10 tokens/sec elde etmenin daha ilgi çekici olacağı düşünülüyor. $3k'lık bir GPU'ya ya da $2k'lık bir düzeneğe para harcamak istenmiyor.
Sadece İngilizce ve İspanyolca çeviri yapan küçük bir modelin veya Unix yardımcı programlarını ve bash'i anlayan bir modelin anlamlı olup olmadığı sorgulanıyor. Eğitim içeriğini sınırlandırmanın sonuç kalitesi ya da model boyutu üzerinde etkisi olup olmadığı bilinmiyor.
EPYC 9274F ve 384GB RAM ile bir workstation kurulmuş, ancak beklenen performans alınamamış. Çeşitli benchmark testleri yapılmış ama Fujitsu benchmark'ının yarısına bile ulaşılamamış.
$3000'lık NVIDIA Digits'in neden daha sık gündeme gelmediği şaşırtıcı bulunuyor. Yapay zekaya şüpheyle yaklaşılıyormuş, ancak artık DeepSeek'i yerelde çalıştırma planı var.
$2K'ya satın alınabilen şeyin bu olması şaşırtıcı bulunuyor. Düşük güç tüketimli bir masaüstü sistem kurmaya yönelik öneriler aranıyor.
Bir YouTuber olarak güç tüketimi ve RAM hızıyla ilgili istatistikler paylaşılıyor. Boşta güç tüketimi 60w, yük altında 260w ve RAM hızı 2400.
Model r6a.16xlarge üzerinde çalıştırılmış, ancak ilk prompt'tan sonra modeli yüklemek çok zaman alıyor. 512GB RAM ile 4k'dan büyük context size kullanılamıyor. Model yapılandırmasına yeterince hakim olunmadığı için gözden kaçan bir şey olabilir.