Büyük GPU'lar için büyük PC gerekmez

(jeffgeerling.com)

9 puan yazan GN⁺ 2025-12-21 | 1 yorum | WhatsApp'ta paylaş

Raspberry Pi 5 üzerinde AMD, Intel, Nvidia GPU çalıştırılıp masaüstü PC ile karşılaştırılan deneylerde, çoğu durumda performans kaybının yalnızca %2–5 seviyesinde olduğu görüldü
Jellyfin transcoding, GravityMark rendering, LLM/AI inference, multi-GPU yapılandırması olmak üzere dört başlık test edilerek verimlilik ve maliyet/performans ölçüldü
4 adet Nvidia RTX A5000 bağlanan örnekte, Intel sunucuya kıyasla %2 içinde performans farkı görüldü; PCIe switch üzerinden GPU'lar arasında bellek paylaşımı burada kritik rol oynadı
Raspberry Pi eGPU sisteminin toplam maliyeti yaklaşık $350–400, PC'nin ise $1500–2000; güç tüketimi de Pi tarafında çok daha düşük (boşta 4–5W vs 30W)
Raspberry Pi'nin, büyük GPU'ları verimli kullanabilen düşük güç tüketimli ve düşük maliyetli alternatif bir platform olma potansiyelini gösteren bir örnek

Deneyin genel görünümü

Raspberry Pi 5'in PCIe Gen 3 x1 bant genişliği (8 GT/s) sınırı dikkate alınarak bile GPU kullanım olasılığı doğrulandı
- Karşılaştırma hedefi güncel masaüstü PC (PCIe Gen 5 x16, 512 GT/s) idi
Test başlıkları medya transcoding'i (Jellyfin), GPU rendering'i (GravityMark), LLM/AI performansı, multi-GPU yapılandırması oldu
Dolphin ICS'in PCIe Gen 4 harici switch'i ve 3 yuvalı backplane'i kullanılarak iki GPU'nun eşzamanlı çalıştırılması denendi

4 GPU bağlı Raspberry Pi örneği

GitHub kullanıcısı mpsparrow, tek bir Pi'ye 4 adet Nvidia RTX A5000 GPU bağladı
- Llama 3 70B modeli çalıştırılırken Intel sunucuya göre %2 içinde performans farkı görüldü (11.83 vs 12 tokens/sec)
PCIe switch sayesinde GPU'lar arasında bellek paylaşımı mümkün oldu ve Pi'nin bant genişliği kısıtı aşılmış oldu
Tek GPU yapılandırmasında da bazı iş yüklerinde masaüstüyle aynı ya da daha iyi performans görüldü

Maliyet ve verimlilik karşılaştırması

Raspberry Pi eGPU yapılandırması: yaklaşık $350–400, Intel PC yapılandırması: yaklaşık $1500–2000
Boşta güç tüketimi: Pi 4–5W, PC 30W
GPU hariç aynı koşullarda maliyet ve güç verimliliği açısından Pi üstün geldi

Jellyfin transcoding benchmark'ı

Nvidia 4070 Ti kullanıldığında, PC ham throughput (2GB/s) açısından öndeydi
- Pi tarafında PCIe 850MB/s, USB SSD 300MB/s seviyeleri görüldü
Ancak H.264/H.265 medya streaming senaryolarında Pi de 1080p ve 4K transcoding işlemlerini sorunsuz yürüttü
- NVENC donanımsal encoding desteği vardı ve aynı anda 2 transcoding işlemi de kararlıydı
AMD GPU tarafında transcoding kararlılığıyla ilgili bazı sorunlar yaşandı

GravityMark rendering testi

Testler ağırlıklı olarak AMD GPU ile yapıldı; PC biraz daha hızlıydı ama fark çok küçüktü
RX 460 kullanıldığında Pi, PC'den daha yüksek verimlilik (performans/W) gösterdi
PCIe Gen 3 bant genişliğine sahip eski GPU'larda Pi göreli avantaj elde etti

AI ve LLM performans karşılaştırması

AMD Radeon AI Pro R9700 (32GB VRAM) testinde beklenenden düşük performans görüldü; olası neden sürücü ya da BAR ayarları olabilir
Nvidia RTX 3060 (12GB) kullanıldığında, Llama 2 13B modelinde Pi PC'den daha hızlıydı
Verimlilik ölçümlerinde, Pi güç başına throughput açısından PC'den daha iyiydi
RTX 4090 testinde de büyük modeller (Qwen3 30B) için performans farkı %5 içinde kaldı; verimlilikte ise çoğu durumda Pi öndeydi
Hem CUDA backend hem de Vulkan backend Pi üzerinde sorunsuz çalıştı

Çift GPU yapılandırması deneyi

Dolphin PCIe interconnect board ve MXH932 HBA kullanıldı
ACS devre dışı bırakılarak GPU'lar arasında doğrudan bellek erişimi sağlandı
Farklı GPU modellerinin (4070, A4000) birlikte kullanıldığı durumda VRAM pooling desteklenmediği için performans artışı sınırlı kaldı
Aynı GPU'lar kullanıldığında daha büyük modellerin (Qwen3 30B vb.) çalıştırılması mümkün oldu
AMD RX 7900 XT + R9700 kombinasyonunda sürücü sorunları nedeniyle bazı modeller çalıştırılamadı
Intel PC genel olarak daha hızlıydı, ancak Pi de büyük modellerde yakın performansı korudu

Sonuç

Mutlak performans ve kullanım kolaylığı açısından PC üstün
Ancak GPU ağırlıklı iş yüklerinde ve düşük güç / düşük maliyet ortamlarında Raspberry Pi pratik bir alternatif olabilir
Boşta 20–30W güç tasarrufu sağlanabiliyor; Rockchip ve Qualcomm tabanlı SBC'ler daha yüksek verimlilik ve I/O bant genişliği sunabiliyor
Deneyin amacı Pi'nin sınırlarını ve GPU computing yapısını öğrenmekti; bu süreçte küçük sistemlerin potansiyeli de doğrulanmış oldu

1 yorum

GN⁺ 2025-12-21

Hacker News yorumları

Yerelde LLM çalıştırmak için sonuçta asıl kritik parça GPU
Bu yüzden GPU’nun yanına koyulabilecek en ucuz bilgisayarın ne olduğunu düşünüyorum
BAR gibi sorunları anlayıp düzeltecek yeteneğim yok, bu yüzden şimdilik uygun bir GPU takılmış ucuz bir x86 kutu kurup kullanıyorum
Ama yine de daha verimli bir yol olması gerektiği fikri aklımdan çıkmıyor
- Yerel LLM’ler için en iyi donanım kombinasyonlarını toplayan crowdsourcing tabanlı bir site işletiyorum
  Site inferbench.com, kaynak kodu ise GitHub deposunda
- Şimdilik tek bir PCIe cihazıyla anlamlı performans almak zor
  GPU için en az 128GB RAM gerektiğini düşünüyorum
  CPU performansı düşük olabilir ama birden fazla PCIe hattını desteklemesi gerektiğinden AMD EPYC gibi giriş seviyesi sunucu CPU’ları uygun
- M4 Max ya da M3 Ultra gibi Apple silicon kullanmayı hiç düşündün mü?
  Orta ölçekli LLM’ler için oldukça uygun
- Bahsettiğin sistemin yaptığı işi aslında DGX Spark yapıyor
Çoklu GPU kısmını şaşırtıcı bulduğunu söylemeni anlamadım
Çoğu LLM framework’ü (llama.cpp gibi) modeli katman bazında böldüğü için sıralı bağımlılık oluşuyor ve birden fazla GPU kullanılsa da işler paralel yürümüyor
Bazı GPU’lar prompt işlemekte, bazıları ise token üretiminde daha hızlı olabiliyor; bu yüzden Radeon ile NVIDIA’yı karıştırmak bazen işe yarıyor
Gerçek performans artışı tensor parallel modu gibi backend’lerde mümkün
Bu, sinir ağını veri akışı yönüne göre bölme yöntemi; bu yüzden GPU’lar arası bağlantının (PCIe x16, NVlink, Infinity Fabric vb.) iyi olması gerekiyor
Bunlar yoksa GPU kullanım oranı dengesiz görünebiliyor
LLM’i birden fazla işi paralel yürütecek şekilde bölme yöntemi, örneğin “yönetici” ve “mühendis” rollerine ayıran bir ajan mimarisi, ilginç geliyor
- Evet, bu tam olarak ajan sistemleri fikri
  Yönetici model prompt’ları oluşturuyor, alt modeller paralel çalışıp sonuçları geri döndürüyor
- Katmanlar arası aktarımın kilobayt düzeyinde olduğu söylemi abartılı
  Gerçekte bu, sekans uzunluğuna bağlı olarak megabayt düzeyine çıkıyor
  Örneğin Qwen3 30B’nin hidden state değeri 5120 ise, 8 bit kuantizasyonda bu token başına 5120 bayt demek
  200 token’ı geçince zaten MB seviyesine ulaşıyor
  PCIe x1 bant genişliğiyle (yaklaşık 2GB/s) bile yeterli olur ama daha büyük sorun gecikme (latency) olabilir
Birinin böyle deneyler yapmasına gerçekten sevindim
Ben de yedek bir dizüstü bilgisayara eGPU bağlayıp kullanırken, “Bunu Raspberry Pi ile de yapamaz mıyım?” diye düşünmüştüm
Keşke oyun performansına da bakılsaydı
Ama ARM destekleyen AAA oyun bulmak zor, FEX ile x86 emülasyonunu zorlamak da adil olmaz
- Mesele CPU darboğazı olmayan bir oyun bulmak gibi görünüyor
constrained decoding (JSON schema tabanlı) kullanıldığında CPU kullanımı %100’e çıkıyor
Aynı durumu kendi vLLM instance’ımda da gördüm
PCIe 3.0, hat başına yaklaşık 1GB/s sunuyor; yani 10Gb Ethernet düzeyinde hız veriyor
Gelecekte GPU’ların host sistem olmadan bağımsız çalıştığı bir döneme girebiliriz
Daha önce de Radeon Pro SSG gibi GPU’ya SSD eklenen örnekler vardı,
küçük bir RISC-V çipi ya da Raspberry Pi seviyesinde bir denetleyici bile yeterli olabilir
İlgili haber: TechPowerUp
GPU’nun doğrudan ağ anahtarına bağlanıp 400Gbe ya da CXL tabanlı iletişim kullanması gerçekçi bir yapı
Ayrıca High Bandwidth Flash gibi yeni nesil flash teknolojileri DRAM’in yerini alabilir
İlgili haberler: ServeTheHome, Tom’s Hardware
Bu veri noktalarını görünce kendi ana PC kurulumumu yeniden düşünmeye başladım
20W altında çalışan 300 dolarlık bir mini PC yeterli olabilir gibi duruyor
Web’de gezinme, video izleme ve hafif oyunlar için fazlasıyla yeterli,
ağır işler içinse uzaktan workstation’a bağlanmak yeter
- Ben Proxmox VM + eGPU kombinasyonuyla denemeler yapıyorum
  1 vCPU ve 4GB RAM bile internette gezinmek ve hobi projeleri için yeterli
  Donanım üreticileri sanki “profesyonellerin yüksek performanslı dizüstü bilgisayara ihtiyacı var” diye abartılı pazarlama yapmış gibi
- 8 çekirdekli bir Ryzen mini PC’den 8 çekirdekli masaüstüne geçince unit test hızı ciddi biçimde arttı
  TDP farkı performans farkını büyük ölçüde belirliyor
- Ben de Beelink mini PC kullanıyorum; masa çok daha düzenli oldu
  Yüksek performanslı ekipmanı ses yalıtımlı bir alana koyunca kullanım da daha rahat oluyor
PCI/CPU mimarisinin kendisinin neden gerekli olduğunu sorguluyorum
Apple ve NVIDIA gibi CPU ile MPP’yi aynı pakete koymak daha doğru yön gibi görünüyor
- Bu yaklaşım gecikmeye duyarlı işler için avantajlıdır,
  ama AI ya da HPC gibi büyük ölçekli hesaplamalarda çok büyük fark yaratmayabilir

Büyük GPU'lar için büyük PC gerekmez

Deneyin genel görünümü

4 GPU bağlı Raspberry Pi örneği

Maliyet ve verimlilik karşılaştırması

Jellyfin transcoding benchmark'ı

GravityMark rendering testi

AI ve LLM performans karşılaştırması

Çift GPU yapılandırması deneyi

Sonuç

İlgili okumalar

1 yorum

Hacker News yorumları