9 puan yazan GN⁺ 2025-12-21 | 1 yorum | WhatsApp'ta paylaş
  • Raspberry Pi 5 üzerinde AMD, Intel, Nvidia GPU çalıştırılıp masaüstü PC ile karşılaştırılan deneylerde, çoğu durumda performans kaybının yalnızca %2–5 seviyesinde olduğu görüldü
  • Jellyfin transcoding, GravityMark rendering, LLM/AI inference, multi-GPU yapılandırması olmak üzere dört başlık test edilerek verimlilik ve maliyet/performans ölçüldü
  • 4 adet Nvidia RTX A5000 bağlanan örnekte, Intel sunucuya kıyasla %2 içinde performans farkı görüldü; PCIe switch üzerinden GPU'lar arasında bellek paylaşımı burada kritik rol oynadı
  • Raspberry Pi eGPU sisteminin toplam maliyeti yaklaşık $350–400, PC'nin ise $1500–2000; güç tüketimi de Pi tarafında çok daha düşük (boşta 4–5W vs 30W)
  • Raspberry Pi'nin, büyük GPU'ları verimli kullanabilen düşük güç tüketimli ve düşük maliyetli alternatif bir platform olma potansiyelini gösteren bir örnek

Deneyin genel görünümü

  • Raspberry Pi 5'in PCIe Gen 3 x1 bant genişliği (8 GT/s) sınırı dikkate alınarak bile GPU kullanım olasılığı doğrulandı
    • Karşılaştırma hedefi güncel masaüstü PC (PCIe Gen 5 x16, 512 GT/s) idi
  • Test başlıkları medya transcoding'i (Jellyfin), GPU rendering'i (GravityMark), LLM/AI performansı, multi-GPU yapılandırması oldu
  • Dolphin ICS'in PCIe Gen 4 harici switch'i ve 3 yuvalı backplane'i kullanılarak iki GPU'nun eşzamanlı çalıştırılması denendi

4 GPU bağlı Raspberry Pi örneği

  • GitHub kullanıcısı mpsparrow, tek bir Pi'ye 4 adet Nvidia RTX A5000 GPU bağladı
    • Llama 3 70B modeli çalıştırılırken Intel sunucuya göre %2 içinde performans farkı görüldü (11.83 vs 12 tokens/sec)
  • PCIe switch sayesinde GPU'lar arasında bellek paylaşımı mümkün oldu ve Pi'nin bant genişliği kısıtı aşılmış oldu
  • Tek GPU yapılandırmasında da bazı iş yüklerinde masaüstüyle aynı ya da daha iyi performans görüldü

Maliyet ve verimlilik karşılaştırması

  • Raspberry Pi eGPU yapılandırması: yaklaşık $350–400, Intel PC yapılandırması: yaklaşık $1500–2000
  • Boşta güç tüketimi: Pi 4–5W, PC 30W
  • GPU hariç aynı koşullarda maliyet ve güç verimliliği açısından Pi üstün geldi

Jellyfin transcoding benchmark'ı

  • Nvidia 4070 Ti kullanıldığında, PC ham throughput (2GB/s) açısından öndeydi
    • Pi tarafında PCIe 850MB/s, USB SSD 300MB/s seviyeleri görüldü
  • Ancak H.264/H.265 medya streaming senaryolarında Pi de 1080p ve 4K transcoding işlemlerini sorunsuz yürüttü
    • NVENC donanımsal encoding desteği vardı ve aynı anda 2 transcoding işlemi de kararlıydı
  • AMD GPU tarafında transcoding kararlılığıyla ilgili bazı sorunlar yaşandı

GravityMark rendering testi

  • Testler ağırlıklı olarak AMD GPU ile yapıldı; PC biraz daha hızlıydı ama fark çok küçüktü
  • RX 460 kullanıldığında Pi, PC'den daha yüksek verimlilik (performans/W) gösterdi
  • PCIe Gen 3 bant genişliğine sahip eski GPU'larda Pi göreli avantaj elde etti

AI ve LLM performans karşılaştırması

  • AMD Radeon AI Pro R9700 (32GB VRAM) testinde beklenenden düşük performans görüldü; olası neden sürücü ya da BAR ayarları olabilir
  • Nvidia RTX 3060 (12GB) kullanıldığında, Llama 2 13B modelinde Pi PC'den daha hızlıydı
  • Verimlilik ölçümlerinde, Pi güç başına throughput açısından PC'den daha iyiydi
  • RTX 4090 testinde de büyük modeller (Qwen3 30B) için performans farkı %5 içinde kaldı; verimlilikte ise çoğu durumda Pi öndeydi
  • Hem CUDA backend hem de Vulkan backend Pi üzerinde sorunsuz çalıştı

Çift GPU yapılandırması deneyi

  • Dolphin PCIe interconnect board ve MXH932 HBA kullanıldı
  • ACS devre dışı bırakılarak GPU'lar arasında doğrudan bellek erişimi sağlandı
  • Farklı GPU modellerinin (4070, A4000) birlikte kullanıldığı durumda VRAM pooling desteklenmediği için performans artışı sınırlı kaldı
  • Aynı GPU'lar kullanıldığında daha büyük modellerin (Qwen3 30B vb.) çalıştırılması mümkün oldu
  • AMD RX 7900 XT + R9700 kombinasyonunda sürücü sorunları nedeniyle bazı modeller çalıştırılamadı
  • Intel PC genel olarak daha hızlıydı, ancak Pi de büyük modellerde yakın performansı korudu

Sonuç

  • Mutlak performans ve kullanım kolaylığı açısından PC üstün
  • Ancak GPU ağırlıklı iş yüklerinde ve düşük güç / düşük maliyet ortamlarında Raspberry Pi pratik bir alternatif olabilir
  • Boşta 20–30W güç tasarrufu sağlanabiliyor; Rockchip ve Qualcomm tabanlı SBC'ler daha yüksek verimlilik ve I/O bant genişliği sunabiliyor
  • Deneyin amacı Pi'nin sınırlarını ve GPU computing yapısını öğrenmekti; bu süreçte küçük sistemlerin potansiyeli de doğrulanmış oldu

1 yorum

 
GN⁺ 2025-12-21
Hacker News yorumları
  • Yerelde LLM çalıştırmak için sonuçta asıl kritik parça GPU
    Bu yüzden GPU’nun yanına koyulabilecek en ucuz bilgisayarın ne olduğunu düşünüyorum
    BAR gibi sorunları anlayıp düzeltecek yeteneğim yok, bu yüzden şimdilik uygun bir GPU takılmış ucuz bir x86 kutu kurup kullanıyorum
    Ama yine de daha verimli bir yol olması gerektiği fikri aklımdan çıkmıyor

    • Yerel LLM’ler için en iyi donanım kombinasyonlarını toplayan crowdsourcing tabanlı bir site işletiyorum
      Site inferbench.com, kaynak kodu ise GitHub deposunda
    • Şimdilik tek bir PCIe cihazıyla anlamlı performans almak zor
      GPU için en az 128GB RAM gerektiğini düşünüyorum
      CPU performansı düşük olabilir ama birden fazla PCIe hattını desteklemesi gerektiğinden AMD EPYC gibi giriş seviyesi sunucu CPU’ları uygun
    • M4 Max ya da M3 Ultra gibi Apple silicon kullanmayı hiç düşündün mü?
      Orta ölçekli LLM’ler için oldukça uygun
    • Bahsettiğin sistemin yaptığı işi aslında DGX Spark yapıyor
  • Çoklu GPU kısmını şaşırtıcı bulduğunu söylemeni anlamadım
    Çoğu LLM framework’ü (llama.cpp gibi) modeli katman bazında böldüğü için sıralı bağımlılık oluşuyor ve birden fazla GPU kullanılsa da işler paralel yürümüyor
    Bazı GPU’lar prompt işlemekte, bazıları ise token üretiminde daha hızlı olabiliyor; bu yüzden Radeon ile NVIDIA’yı karıştırmak bazen işe yarıyor
    Gerçek performans artışı tensor parallel modu gibi backend’lerde mümkün
    Bu, sinir ağını veri akışı yönüne göre bölme yöntemi; bu yüzden GPU’lar arası bağlantının (PCIe x16, NVlink, Infinity Fabric vb.) iyi olması gerekiyor
    Bunlar yoksa GPU kullanım oranı dengesiz görünebiliyor
    LLM’i birden fazla işi paralel yürütecek şekilde bölme yöntemi, örneğin “yönetici” ve “mühendis” rollerine ayıran bir ajan mimarisi, ilginç geliyor

    • Evet, bu tam olarak ajan sistemleri fikri
      Yönetici model prompt’ları oluşturuyor, alt modeller paralel çalışıp sonuçları geri döndürüyor
    • Katmanlar arası aktarımın kilobayt düzeyinde olduğu söylemi abartılı
      Gerçekte bu, sekans uzunluğuna bağlı olarak megabayt düzeyine çıkıyor
      Örneğin Qwen3 30B’nin hidden state değeri 5120 ise, 8 bit kuantizasyonda bu token başına 5120 bayt demek
      200 token’ı geçince zaten MB seviyesine ulaşıyor
      PCIe x1 bant genişliğiyle (yaklaşık 2GB/s) bile yeterli olur ama daha büyük sorun gecikme (latency) olabilir
  • Birinin böyle deneyler yapmasına gerçekten sevindim
    Ben de yedek bir dizüstü bilgisayara eGPU bağlayıp kullanırken, “Bunu Raspberry Pi ile de yapamaz mıyım?” diye düşünmüştüm

  • Keşke oyun performansına da bakılsaydı
    Ama ARM destekleyen AAA oyun bulmak zor, FEX ile x86 emülasyonunu zorlamak da adil olmaz

    • Mesele CPU darboğazı olmayan bir oyun bulmak gibi görünüyor
  • constrained decoding (JSON schema tabanlı) kullanıldığında CPU kullanımı %100’e çıkıyor
    Aynı durumu kendi vLLM instance’ımda da gördüm

  • PCIe 3.0, hat başına yaklaşık 1GB/s sunuyor; yani 10Gb Ethernet düzeyinde hız veriyor
    Gelecekte GPU’ların host sistem olmadan bağımsız çalıştığı bir döneme girebiliriz
    Daha önce de Radeon Pro SSG gibi GPU’ya SSD eklenen örnekler vardı,
    küçük bir RISC-V çipi ya da Raspberry Pi seviyesinde bir denetleyici bile yeterli olabilir
    İlgili haber: TechPowerUp
    GPU’nun doğrudan ağ anahtarına bağlanıp 400Gbe ya da CXL tabanlı iletişim kullanması gerçekçi bir yapı
    Ayrıca High Bandwidth Flash gibi yeni nesil flash teknolojileri DRAM’in yerini alabilir
    İlgili haberler: ServeTheHome, Tom’s Hardware

  • Bu veri noktalarını görünce kendi ana PC kurulumumu yeniden düşünmeye başladım
    20W altında çalışan 300 dolarlık bir mini PC yeterli olabilir gibi duruyor
    Web’de gezinme, video izleme ve hafif oyunlar için fazlasıyla yeterli,
    ağır işler içinse uzaktan workstation’a bağlanmak yeter

    • Ben Proxmox VM + eGPU kombinasyonuyla denemeler yapıyorum
      1 vCPU ve 4GB RAM bile internette gezinmek ve hobi projeleri için yeterli
      Donanım üreticileri sanki “profesyonellerin yüksek performanslı dizüstü bilgisayara ihtiyacı var” diye abartılı pazarlama yapmış gibi
    • 8 çekirdekli bir Ryzen mini PC’den 8 çekirdekli masaüstüne geçince unit test hızı ciddi biçimde arttı
      TDP farkı performans farkını büyük ölçüde belirliyor
    • Ben de Beelink mini PC kullanıyorum; masa çok daha düzenli oldu
      Yüksek performanslı ekipmanı ses yalıtımlı bir alana koyunca kullanım da daha rahat oluyor
  • PCI/CPU mimarisinin kendisinin neden gerekli olduğunu sorguluyorum
    Apple ve NVIDIA gibi CPU ile MPP’yi aynı pakete koymak daha doğru yön gibi görünüyor

    • Bu yaklaşım gecikmeye duyarlı işler için avantajlıdır,
      ama AI ya da HPC gibi büyük ölçekli hesaplamalarda çok büyük fark yaratmayabilir