- Raspberry Pi 5 üzerinde AMD, Intel, Nvidia GPU çalıştırılıp masaüstü PC ile karşılaştırılan deneylerde, çoğu durumda performans kaybının yalnızca %2–5 seviyesinde olduğu görüldü
- Jellyfin transcoding, GravityMark rendering, LLM/AI inference, multi-GPU yapılandırması olmak üzere dört başlık test edilerek verimlilik ve maliyet/performans ölçüldü
- 4 adet Nvidia RTX A5000 bağlanan örnekte, Intel sunucuya kıyasla %2 içinde performans farkı görüldü; PCIe switch üzerinden GPU'lar arasında bellek paylaşımı burada kritik rol oynadı
- Raspberry Pi eGPU sisteminin toplam maliyeti yaklaşık $350–400, PC'nin ise $1500–2000; güç tüketimi de Pi tarafında çok daha düşük (boşta 4–5W vs 30W)
- Raspberry Pi'nin, büyük GPU'ları verimli kullanabilen düşük güç tüketimli ve düşük maliyetli alternatif bir platform olma potansiyelini gösteren bir örnek
Deneyin genel görünümü
- Raspberry Pi 5'in PCIe Gen 3 x1 bant genişliği (8 GT/s) sınırı dikkate alınarak bile GPU kullanım olasılığı doğrulandı
- Karşılaştırma hedefi güncel masaüstü PC (PCIe Gen 5 x16, 512 GT/s) idi
- Test başlıkları medya transcoding'i (Jellyfin), GPU rendering'i (GravityMark), LLM/AI performansı, multi-GPU yapılandırması oldu
- Dolphin ICS'in PCIe Gen 4 harici switch'i ve 3 yuvalı backplane'i kullanılarak iki GPU'nun eşzamanlı çalıştırılması denendi
4 GPU bağlı Raspberry Pi örneği
- GitHub kullanıcısı mpsparrow, tek bir Pi'ye 4 adet Nvidia RTX A5000 GPU bağladı
- Llama 3 70B modeli çalıştırılırken Intel sunucuya göre %2 içinde performans farkı görüldü (11.83 vs 12 tokens/sec)
- PCIe switch sayesinde GPU'lar arasında bellek paylaşımı mümkün oldu ve Pi'nin bant genişliği kısıtı aşılmış oldu
- Tek GPU yapılandırmasında da bazı iş yüklerinde masaüstüyle aynı ya da daha iyi performans görüldü
Maliyet ve verimlilik karşılaştırması
- Raspberry Pi eGPU yapılandırması: yaklaşık $350–400, Intel PC yapılandırması: yaklaşık $1500–2000
- Boşta güç tüketimi: Pi 4–5W, PC 30W
- GPU hariç aynı koşullarda maliyet ve güç verimliliği açısından Pi üstün geldi
Jellyfin transcoding benchmark'ı
- Nvidia 4070 Ti kullanıldığında, PC ham throughput (2GB/s) açısından öndeydi
- Pi tarafında PCIe 850MB/s, USB SSD 300MB/s seviyeleri görüldü
- Ancak H.264/H.265 medya streaming senaryolarında Pi de 1080p ve 4K transcoding işlemlerini sorunsuz yürüttü
- NVENC donanımsal encoding desteği vardı ve aynı anda 2 transcoding işlemi de kararlıydı
- AMD GPU tarafında transcoding kararlılığıyla ilgili bazı sorunlar yaşandı
GravityMark rendering testi
- Testler ağırlıklı olarak AMD GPU ile yapıldı; PC biraz daha hızlıydı ama fark çok küçüktü
- RX 460 kullanıldığında Pi, PC'den daha yüksek verimlilik (performans/W) gösterdi
- PCIe Gen 3 bant genişliğine sahip eski GPU'larda Pi göreli avantaj elde etti
AI ve LLM performans karşılaştırması
- AMD Radeon AI Pro R9700 (32GB VRAM) testinde beklenenden düşük performans görüldü; olası neden sürücü ya da BAR ayarları olabilir
- Nvidia RTX 3060 (12GB) kullanıldığında, Llama 2 13B modelinde Pi PC'den daha hızlıydı
- Verimlilik ölçümlerinde, Pi güç başına throughput açısından PC'den daha iyiydi
- RTX 4090 testinde de büyük modeller (Qwen3 30B) için performans farkı %5 içinde kaldı; verimlilikte ise çoğu durumda Pi öndeydi
- Hem CUDA backend hem de Vulkan backend Pi üzerinde sorunsuz çalıştı
Çift GPU yapılandırması deneyi
- Dolphin PCIe interconnect board ve MXH932 HBA kullanıldı
- ACS devre dışı bırakılarak GPU'lar arasında doğrudan bellek erişimi sağlandı
- Farklı GPU modellerinin (4070, A4000) birlikte kullanıldığı durumda VRAM pooling desteklenmediği için performans artışı sınırlı kaldı
- Aynı GPU'lar kullanıldığında daha büyük modellerin (Qwen3 30B vb.) çalıştırılması mümkün oldu
- AMD RX 7900 XT + R9700 kombinasyonunda sürücü sorunları nedeniyle bazı modeller çalıştırılamadı
- Intel PC genel olarak daha hızlıydı, ancak Pi de büyük modellerde yakın performansı korudu
Sonuç
- Mutlak performans ve kullanım kolaylığı açısından PC üstün
- Ancak GPU ağırlıklı iş yüklerinde ve düşük güç / düşük maliyet ortamlarında Raspberry Pi pratik bir alternatif olabilir
- Boşta 20–30W güç tasarrufu sağlanabiliyor; Rockchip ve Qualcomm tabanlı SBC'ler daha yüksek verimlilik ve I/O bant genişliği sunabiliyor
- Deneyin amacı Pi'nin sınırlarını ve GPU computing yapısını öğrenmekti; bu süreçte küçük sistemlerin potansiyeli de doğrulanmış oldu
1 yorum
Hacker News yorumları
Yerelde LLM çalıştırmak için sonuçta asıl kritik parça GPU
Bu yüzden GPU’nun yanına koyulabilecek en ucuz bilgisayarın ne olduğunu düşünüyorum
BAR gibi sorunları anlayıp düzeltecek yeteneğim yok, bu yüzden şimdilik uygun bir GPU takılmış ucuz bir x86 kutu kurup kullanıyorum
Ama yine de daha verimli bir yol olması gerektiği fikri aklımdan çıkmıyor
Site inferbench.com, kaynak kodu ise GitHub deposunda
GPU için en az 128GB RAM gerektiğini düşünüyorum
CPU performansı düşük olabilir ama birden fazla PCIe hattını desteklemesi gerektiğinden AMD EPYC gibi giriş seviyesi sunucu CPU’ları uygun
Orta ölçekli LLM’ler için oldukça uygun
Çoklu GPU kısmını şaşırtıcı bulduğunu söylemeni anlamadım
Çoğu LLM framework’ü (
llama.cppgibi) modeli katman bazında böldüğü için sıralı bağımlılık oluşuyor ve birden fazla GPU kullanılsa da işler paralel yürümüyorBazı GPU’lar prompt işlemekte, bazıları ise token üretiminde daha hızlı olabiliyor; bu yüzden Radeon ile NVIDIA’yı karıştırmak bazen işe yarıyor
Gerçek performans artışı tensor parallel modu gibi backend’lerde mümkün
Bu, sinir ağını veri akışı yönüne göre bölme yöntemi; bu yüzden GPU’lar arası bağlantının (PCIe x16, NVlink, Infinity Fabric vb.) iyi olması gerekiyor
Bunlar yoksa GPU kullanım oranı dengesiz görünebiliyor
LLM’i birden fazla işi paralel yürütecek şekilde bölme yöntemi, örneğin “yönetici” ve “mühendis” rollerine ayıran bir ajan mimarisi, ilginç geliyor
Yönetici model prompt’ları oluşturuyor, alt modeller paralel çalışıp sonuçları geri döndürüyor
Gerçekte bu, sekans uzunluğuna bağlı olarak megabayt düzeyine çıkıyor
Örneğin Qwen3 30B’nin hidden state değeri 5120 ise, 8 bit kuantizasyonda bu token başına 5120 bayt demek
200 token’ı geçince zaten MB seviyesine ulaşıyor
PCIe x1 bant genişliğiyle (yaklaşık 2GB/s) bile yeterli olur ama daha büyük sorun gecikme (latency) olabilir
Birinin böyle deneyler yapmasına gerçekten sevindim
Ben de yedek bir dizüstü bilgisayara eGPU bağlayıp kullanırken, “Bunu Raspberry Pi ile de yapamaz mıyım?” diye düşünmüştüm
Keşke oyun performansına da bakılsaydı
Ama ARM destekleyen AAA oyun bulmak zor, FEX ile x86 emülasyonunu zorlamak da adil olmaz
constrained decoding (JSON schema tabanlı) kullanıldığında CPU kullanımı %100’e çıkıyor
Aynı durumu kendi vLLM instance’ımda da gördüm
PCIe 3.0, hat başına yaklaşık 1GB/s sunuyor; yani 10Gb Ethernet düzeyinde hız veriyor
Gelecekte GPU’ların host sistem olmadan bağımsız çalıştığı bir döneme girebiliriz
Daha önce de Radeon Pro SSG gibi GPU’ya SSD eklenen örnekler vardı,
küçük bir RISC-V çipi ya da Raspberry Pi seviyesinde bir denetleyici bile yeterli olabilir
İlgili haber: TechPowerUp
GPU’nun doğrudan ağ anahtarına bağlanıp 400Gbe ya da CXL tabanlı iletişim kullanması gerçekçi bir yapı
Ayrıca High Bandwidth Flash gibi yeni nesil flash teknolojileri DRAM’in yerini alabilir
İlgili haberler: ServeTheHome, Tom’s Hardware
Bu veri noktalarını görünce kendi ana PC kurulumumu yeniden düşünmeye başladım
20W altında çalışan 300 dolarlık bir mini PC yeterli olabilir gibi duruyor
Web’de gezinme, video izleme ve hafif oyunlar için fazlasıyla yeterli,
ağır işler içinse uzaktan workstation’a bağlanmak yeter
1 vCPU ve 4GB RAM bile internette gezinmek ve hobi projeleri için yeterli
Donanım üreticileri sanki “profesyonellerin yüksek performanslı dizüstü bilgisayara ihtiyacı var” diye abartılı pazarlama yapmış gibi
TDP farkı performans farkını büyük ölçüde belirliyor
Yüksek performanslı ekipmanı ses yalıtımlı bir alana koyunca kullanım da daha rahat oluyor
PCI/CPU mimarisinin kendisinin neden gerekli olduğunu sorguluyorum
Apple ve NVIDIA gibi CPU ile MPP’yi aynı pakete koymak daha doğru yön gibi görünüyor
ama AI ya da HPC gibi büyük ölçekli hesaplamalarda çok büyük fark yaratmayabilir