$2000’lık EPYC sunucuda DeepSeek R1 671b modelini yerelde çalıştırma rehberi
(digitalspaceport.com)- AMD EPYC Rome sistemi tabanlı Deepseek AI Rig, etkileyici performans sunuyor
- Q4 671b modelinde 4.25 ile 3.5 TPS elde ediliyor; bu da yalnızca CPU ile çalıştırmanın yeterli olduğunu gösteriyor
- Bu sistem, büyük GPU VRAM’e ihtiyaç duymadan çalışabiliyor ve teknik zorluklardan hoşlananlar için eğlenceli bir proje olabilir
- Distile sürümlerin performansı daha düşük olduğundan, "tam model" kullanılması öneriliyor
- 16K üzeri context window desteğiyle daha iyi performans sağlıyor
Local AI CPU Compute Hardware
- Mevcut dört adet 3090 rehberine göre kurulan sistem hâlâ güçlü. MZ32-AR0 anakart, 512GB ile 1TB sistem RAM’ini uygun maliyetle kurmayı mümkün kılıyor. Şu anda 2400 DDR4 RAM kullanılıyor, ancak 3200 hızında DDR4 ECC RAM kullanılırsa performansın artma ihtimali var.
- Bileşenler ve maliyetler:
- Rack frame: $55
- MZ32-AR0 anakart: $500
- 420mm sıvı soğutucu Corsair h170i elite capellix xt: $170
- 64 çekirdekli AMD EPYC 7702: $650
- 512GB 2400 ECC RAM: $400
- 1TB NVMe – Samsung 980 Pro: $75
- 850W PSU: $80
- Toplam maliyet: yaklaşık $2000
Rack montajı
- Mevcut rehberle aynı şekilde kurulum yapılıyor, ancak GPU ve riser kartlar hariç tutuluyor
- İleride GPU eklemeyi planlıyorsanız, baştan 1500W veya 1600W PSU kullanmanız öneriliyor
- RAM modüllerinin sıcaklığını düşürmek için 4 adet 80mm fan ile bir fan duvarı oluşturmanız tavsiye ediliyor
Anakart yükseltme notları
- AMD EPYC 7V13 CPU kullanacaksanız, MZ32-AR0 V3 sürümü anakartı tercih etmeniz öneriliyor
- V1 sürümü anakartlar Milan CPU’ları desteklemeyebilir; bu durumda BIOS güncellemesiyle V3’e yükseltme yapılmalı
Yerel AI self-hosted yazılım kurulumu
- Ubuntu 24.04 sunucu sürümünün kurulması öneriliyor
- BMC ayarları üzerinden ağ IP ayarının statik IP olarak yapılandırılması gerekiyor
- BIOS ayarlarında şu değişiklikler yapılıyor:
- NPS değeri 1 olarak ayarlanıyor
- CCD Auto olarak ayarlanıyor
- SMT devre dışı bırakılıyor
- SVM devre dışı bırakılıyor
- IOMMU devre dışı bırakılıyor
- cTDP 200 olarak ayarlanıyor
- deterministic control manual olarak ayarlanıp kaydırıcı performance konumuna getiriliyor
- quick power policy performance olarak ayarlanıyor
- BoostFMax manual olarak ayarlanıp değer 3400 yapılıyor
Ollama kurulumu
-
Ollama aşağıdaki komutlarla kuruluyor:
curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz sudo tar -C /usr -xzf ollama-linux-amd64.tgz sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama sudo usermod -a -G ollama $(whoami) -
Ortam değişkenleri ayarlanıyor ve ollama.service dosyası oluşturularak servis olarak kaydediliyor
DeepSeek 671b modelini indirme
-
DeepSeek 671b modeli aşağıdaki komutla indiriliyor:
ollama pull deepseek-r1:671b -
Bu model yaklaşık 400GB disk alanı kapladığı için yeterli depolama alanı ayrılması gerekiyor
OpenWEBUI kurulumu
- Docker kullanılarak OpenWEBUI kuruluyor
- Docker Compose ile OpenWEBUI servisi yapılandırılıp çalıştırılıyor
OpenWEBUI ile Ollama’yı bağlama
- OpenWEBUI ayarlarından Ollama sunucusu ekleniyor ve bağlantı durumu doğrulanıyor
- Gelişmiş parametrelerde GPU ayarları, Reasoning Effort, Context Length, num_thread gibi seçenekler yapılandırılıyor
Test çalıştırma
- OpenWEBUI içinde yeni bir sohbet başlatılıyor, DeepSeek-r1:671b modeli seçilerek test konuşması yapılıyor
Bu rehberi izleyerek yaklaşık $2000 bütçeyle DeepSeek R1 671b modelini yerelde çalıştırabilirsiniz
1 yorum
Hacker News görüşleri
671B modeli Q4 kuantizasyonla tek soketli bir Epyc sunucuda çalıştırmanın maliyeti $2K ve 512GB RAM kullanıyor. Q8'de ise çift soketli Epyc sunucu 768GB RAM ile 6-8 TPS sağlıyor ve maliyeti $6K. RAM hızının TPS'yi nasıl etkilediği merak ediliyor.
Çevrimiçi olarak R1'in maliyeti $2/MTok ve bu donanım 4 tok/s üzerinde çalışarak saat başına $0.04 maliyet çıkarıyor. Elektrik maliyeti ise saat başına $0.20 olarak tahmin ediliyor. Gizlilik dışında bunun çok anlamlı olmadığı düşünülüyor.
Yapay zekadaki mevcut tuhaflığın, en iyi modelleri çalıştırmak istemek ama donanım maliyetlerinin pahalı olması olduğu söyleniyor. 1990'larda ucuz donanımla Linux çalıştırılabiliyordu. Modern yapay zeka modelleri daha fazla RAM gerektiriyor. Geçmişte de benzer bir durumun yaşanıp yaşanmadığı merak ediliyor. Bilgisayar oyunları buna iyi bir örnek olabilir.
Küçük modellerle (33b-70b) 5-10 tokens/sec elde etmenin daha ilgi çekici olacağı düşünülüyor. $3k'lık bir GPU'ya ya da $2k'lık bir düzeneğe para harcamak istenmiyor.
Sadece İngilizce ve İspanyolca çeviri yapan küçük bir modelin veya Unix yardımcı programlarını ve bash'i anlayan bir modelin anlamlı olup olmadığı sorgulanıyor. Eğitim içeriğini sınırlandırmanın sonuç kalitesi ya da model boyutu üzerinde etkisi olup olmadığı bilinmiyor.
EPYC 9274F ve 384GB RAM ile bir workstation kurulmuş, ancak beklenen performans alınamamış. Çeşitli benchmark testleri yapılmış ama Fujitsu benchmark'ının yarısına bile ulaşılamamış.
$3000'lık NVIDIA Digits'in neden daha sık gündeme gelmediği şaşırtıcı bulunuyor. Yapay zekaya şüpheyle yaklaşılıyormuş, ancak artık DeepSeek'i yerelde çalıştırma planı var.
$2K'ya satın alınabilen şeyin bu olması şaşırtıcı bulunuyor. Düşük güç tüketimli bir masaüstü sistem kurmaya yönelik öneriler aranıyor.
Bir YouTuber olarak güç tüketimi ve RAM hızıyla ilgili istatistikler paylaşılıyor. Boşta güç tüketimi 60w, yük altında 260w ve RAM hızı 2400.
Model r6a.16xlarge üzerinde çalıştırılmış, ancak ilk prompt'tan sonra modeli yüklemek çok zaman alıyor. 512GB RAM ile 4k'dan büyük context size kullanılamıyor. Model yapılandırmasına yeterince hakim olunmadığı için gözden kaçan bir şey olabilir.