3 puan yazan GN⁺ 2025-09-20 | 5 yorum | WhatsApp'ta paylaş
  • Raspberry Pi Compute Blade 10 adet ve CM5 modülleri kullanılarak yaklaşık 3.000 dolarlık bir yapay zeka kümesi kuruldu, ancak performans ve fiyat/performans açısından beklentilerin altında kaldı
  • HPC kıyaslamalarında tek bir Pi'ye kıyasla 10 kat performans artışı (325 Gflops) elde edildi, ancak Framework masaüstü kümesinden 4 kat daha yavaş sonuç verdi
  • Yapay zeka testlerinde GPU hızlandırma desteklenmediği için CPU tabanlı çıkarıma dayanıldı ve Llama 70B modelini çalıştırırken token üretim hızı 0,85 t/s düzeyinde kaldı
  • Buna karşın düşük güç tüketimi, düşük gürültü ve yüksek yoğunluk avantajları sayesinde CI işleri, güvenliğin kritik olduğu edge dağıtımları veya Tor relay düğümleri gibi özel kullanım alanlarında anlamlı olabilir
  • Genel olarak öğrenme ve deney amaçları için eğlenceli olsa da, tipik yapay zeka/HPC kullanımı için uygun olmadığı vurgulanıyor; bu da blade sunucuların sınırlarını gösteren bir örnek

Giriş ve küme genel görünümü

  • 2 yıl önce, 2023 Nisan'ında 10 adet Compute Blade sipariş edilmişti; hepsi ancak kısa süre önce ulaştı ve küme böylece tamamlandı
  • Bu arada Raspberry Pi CM4'ten CM5'e yükseldiği için 16 GB CM5 Lite modülünden 10 adet daha sipariş edildi ve toplam 160 GB bellek yapılandırması tamamlandı
  • Toplam maliyet 3.000 dolardı (kargo dahil) ve bu, kişinin yaptığı en büyük Pi kümesiydi
  • Pi tabanlı blade bilgisayarlar arasında Xerxes Pi de var, ancak çıkış ve teslimat gecikmesi olasılığı yüksek; buna rağmen merak nedeniyle destek verilmiş
  • Pi kümesinin hâlâ değerli olup olmadığı merak ediliyordu ve performans, yoğunluk, verimlilik gibi ölçütlerde Framework masaüstü kümesiyle karşılaştırılarak bu yatırımın anlamlı olup olmadığı sınanmak istendi

Kümenin kurulumu ve tekrarlanan işler

  • Çeşitli SSD uyumluluk sorunları ve ısınma problemleri nedeniyle küme üç kez yeniden toplandı
      1. yeniden toplama: Farklı NVMe SSD'ler kullanıldı ancak uyumluluk ve güvenilirlik sorunları ortaya çıktı; ardından tümü Patriot P300 SSD ile değiştirilince kararlılık iyileşti
      1. yeniden toplama: Isı kaynaklı throttling yaşandı; heatsink'ler sağlam biçimde sabitlenerek termal yönetim sorunu çözüldü

HPC (High Performance Computing) kıyaslama sonuçları

  • Süper bilgisayar performansı High Performance Linpack (Top500) benchmark'ı ile ölçüldü
    • Heatsink takılmadan önce performans 275 Gflops idi, sonrasında en fazla 325 Gflops seviyesine çıktı
    • Bu değer, yerleşik 8 GB CM5 tek düğüme kıyasla 10 kat performans anlamına geliyor; güç tüketimi ise 130 W
  • Ancak 8.000 dolarlık Framework Desktop 4 düğümlü küme ile karşılaştırıldığında Pi kümesi 4 kat daha yavaştı
  • Enerji verimliliğinde (Gflops/W) az farkla önde olsa da fiyat başına performansta Framework kümesinin gerisinde kaldı
  • Büyük ölçekli HPC için uygun bir çözüm değil

Yapay zeka kullanım testi ve sınırlamalar

  • 160 GB bellek sayesinde bir yapay zeka kümesi beklense de Pi 5'in iGPU'sunda Vulkan üzerinden hızlandırma mümkün değildi
  • Yapay zeka çıkarımı CPU ile sınırlı kaldı ve Arm Cortex A76'nın sınırları nedeniyle işlem performansı ciddi biçimde düştü
  • Llama 3.2:3B modelinde tek düğüm saniyede yalnızca 6 token işleyebildi
  • Tüm düğümler kullanılarak büyük modeller (Llama 3.3:70B) dağıtık şekilde çalıştırılsa bile hız 0,28 ila 0,85 token/saniye aralığında kaldı; bu da Framework kümesinden en az 5 ila 25 kat daha yavaş
  • Exo, distributed-llama gibi diğer dağıtık yapay zeka araçları da pratik kullanım için ya kararsız kaldı ya da yetersiz performans sundu
  • Genel olarak yapay zeka iş yükleri için uygun değil

Sonuç ve gerçekçi kullanım önerileri

  • Pi blade kümesi, performans/fiyat açısından rekabetçi olmayan bir seçenek ve öğrenme, deney, hobi amaçları dışında önermek zor
  • Buna karşılık yönetim kolaylığı, düşük gürültü, kompakt yapı ve düğüm yoğunluğu ile ayrışabilirlik açısından avantajları var
  • Pratikte ancak CI (continuous integration) işleri veya yüksek güvenlikli, edge computing benzeri izole ortamlar gerektiren senaryolarda sınırlı biçimde düşünülebilir
  • Unredacted Labs bunu Tor exit relay gibi çok sayıda düğüm gerektiren ortamlarda verimlilik ve düğüm yoğunluğunu en üst düzeye çıkarmak için kullanıyor
  • Ancak çoğu kullanıcı için benzer maliyet düzeyinde daha yüksek performans ve verimlilik sunan başka alternatifler mevcut
  • Üretici Gateworks da bir dönem endüstriyel GBlade satmıştı, ancak pazarda başarı elde edemedi ve ürün kaldırıldı
  • Bakım ve pratiklik açısından büyük kümeleri işletmeye göre daha basit olsa da, özel bir gerekçe yoksa tavsiye edilmesi zor bir ortam

Kullanılan parça listesi

  • (Yazar ayrıca kullandığı parçalardan oluşan bir liste paylaştı, ancak benzer bir yapılandırmanın birebir kopyalanmasını önermediğini belirtti)

5 yorum

 
euphcat 2025-09-22

Vulkan ile ilgili olarak, tam ifade etmek gerekirse doğru olan şu: Pi 5'in iGPU'sunun desteklediği Vulkan API, llama.cpp tarafından henüz desteklenmiyor. Bu desteklenmiş olsaydı performansın ne kadar olacağını ben de merak ediyorum.

 
GN⁺ 2025-09-20
Hacker News görüşleri
  • Dağıtık sistemlerle ilgilenenlere, en yeni 16 çekirdekli AMD CPU takılı tek bir makinede 8 sanal makine çalıştırmayı şiddetle tavsiye ederim. Her VM'e 4 hyper-thread ve toplam RAM'in 1/8'ini ayırmak yeterli; Proxmox gibi bir sanallaştırma yazılımında sanal ağ kurarak küme deneyimi yaşanabilir. Hatta tek tıkla bir VM'i durdurup dayanıklılık testi yapmak da mümkün. Bu yaklaşım, Pi kümesine göre Perf/W ve kullanım kolaylığı açısından çok daha iyi. Parça birleştirme stresi olmadan yalnızca CPU, anakart, m.2 SSD ve iki RAM modülü yeterli. Elbette yüksek çekirdekli bir makinede sanallaştırma olmadan doğrudan çalıştırmak en yüksek Perf/W değerini verir ama benchmark'larda gözden kaçan nokta boşta güç tüketimidir. Küme sürekli açık kalıp nadiren kullanılacaksa bu da çok önemlidir

    • CPU performansının o kadar yüksek olması gerektiğini sanmıyorum. Eski bir dört çekirdekli sistemle de gayet yapılabilir

    • Bununla bağlantılı olarak, eski MPI programlarını AMD çok yongalı bir workstation benzeri ortamda çalıştırmanın daha çok yayılacağını sanmıştım ama öyle olmadı; bu beni şaşırttı

    • Aslında bu kadar CPU gücüne ihtiyaç olup olmadığı da şüpheli. Dağıtık sistem pratiği için eski bir Linux kutusu ya da tek bir Raspberry Pi'ye yalnızca Erlang kurup birkaç node oluşturarak da yeterince deney yapılabilir

    • Birkaç yıl önceki Raspberry Pi çılgınlığı sırasında insanların bu oyuncak kümeleri yapmak için cihaz kovalamalarını üzücü bulmuştum. Pi aslında eğitim amaçlıydı ama pratikte çoğu zaman israf edildiğini düşünüyorum. Ben xcp-ng ile bir K8s "kümesi" çalıştırıyorum ama aslında bundan da basit olabilir. Docker Machine de tek satırla birden fazla host ayağa kaldırabiliyordu. Şimdi proje bitmiş gibi görünüyor ama Docker Swarm ile hypervisor olmadan da servis ölçeklendirmesi kolayca yapılabilir

    • Ben bu yöntemle Postgres hot standby ve read replica pratiği yaptım. Hadoop ve Cassandra kümelerini de bu şekilde çalıştım. Bu sistemlerin kurulum ve kurtarma simülasyonu deneyimimden söz edebilmem sayesinde maaşımı ikiye, üçe katlayan yeni işler buldum. Bir miktar gerçek iş deneyimi olan geliştiricilere bunu mutlaka denemelerini kuvvetle öneririm. Kariyer seviyesini yükseltmekte çok faydalı oluyor

  • NormConf'taki “Just use one big machine for model training and inference.” oturumunu hatırlattı. İlgili video tavsiye edilir. Bir de eski klasik makale “Scalability! But at what COST?” (bağlantı) gerçekten çok ilginç. Yalnızca sonucu özetlemek gerekirse, paralel işlemenin performansında Amdahl's Law'un ötesinde düşünülmesi gereken çok fazla unsur var. Scale-out sistemler, tek node'da olmayan bir sürü ek iş gerektiriyor. Aslında multithread de sıralı koda kıyasla pek çok ek yük getiriyor. Gerçek performansın sırrı, “çalıştırılmayan işlemin en hızlı işlem olması”dır

  • Çalıştırdığım ilk benchmark top500 High Performance Linpack küme benchmark'ıydı. Geleneksel süper bilgisayar performans ölçümü olduğu için seviyorum. Isı sorununu çözünce yaklaşık 130W çekip 325 Gflops verdi. top500 sitesindeki liste 1993'ten başladığı için Pi kümesinin 70'lerin absürt tarihinde bir yere girebileceğini umuyordum ama oldukça yeni kaldı. 1993 (1.'lik 131 Gflop/s, 10.'luk 15.24 Gflop/s) ile 1997 (1.'lik 1,830,40, 10.'luk 326.4) arasında ve 2002~2003 civarında top500'den düşüyor gibi görünüyor. Ölçüt Rpeak olduğu için Rmax'e göre yeniden sıralamak daha doğru olurdu ama hepsini tek tek geçmek zor, o yüzden atlıyorum. Böyle oyuncak bir küme için epey iyi iş çıkardığını düşünüyorum. Eskiden “Apple Watch, Apollo bilgisayarından daha hızlı” türü şakalara alışkın olduğum için daha eski yıllara gideceğini sanmıştım

  • RPI'ın CPU performansı hep berbattı. Pi zaten ucuz bir Broadcom çipini kullanıp “eğitim amaçlı” bahanesiyle yapılmış bir üründü. Çocukların Raspberry Pi ile LED yakıp söndürerek devre öğrenmesi içindi. Pi kümesiyle yüksek performanslı hesaplama yapma fikri baştan beri mantıksızdı

  • Yazının içeriğini fazla kelimesi kelimesine almamak lazım. Yazar, pahalı ekipman alıp gösteren ve sonra fiyatına söylenerek bundan para kazanan başarılı bir teknoloji influencer'ı. Onun ekonomi anlayışının benimkiyle aynı olması gerekmiyor

    • Bu zaten bariz ama asıl nokta şu: bugün bir şey yapmak istiyorsanız cevap büyük ihtimalle Raspberry Pi değil. Fiyat/özellik dengesi hiç uymuyor ve pazar da durgun

    • Yine de Jeff'in videosunu tazeleyici buluyorum. Diğer YouTuber'lar sürekli “YouTube videosu için render süresi, renk doğruluğu, kamera kalitesi, ses kalitesi” karşılaştırmalarına saplanmış durumda; o farklı

    • Keşke Dan Luu da böyle içeriklere yönelse

    • Elinden iş gelen herkes, tek bir GPU ile hesaplama performansının 10 kat arttığını zaten biliyor

  • Başlık biraz kışkırtıcı geldi ama yazarın deneyin kendisinden ve donanımı toplamaktan gerçekten keyif aldığı anlaşılıyor. Yine de “2023 Nisan'ında 10'lu Compute Blades seti sipariş ettim ve şimdi geldi” şeklindeki ilk cümle epey can sıkıcı

    • En büyük pişmanlık da bu. Şimdiye kadar 6 Kickstarter projesine destek oldum; ortalama teslim süresi yaklaşık 1 yıl oldu. Yine de ilginç şekilde hepsi sonunda gerçekten ulaştı. Donanım girişimleri gerçekten çok zor; küçük bir fikir olarak başlayıp müşteriye teslim etmeden önce yarıdan fazlasının battığını defalarca gördüm. Şanslı olanlar ancak prototip veya örnek üretip gönderebiliyor, sonra teslimat ve lojistikte büyük karmaşa yaşayabiliyorlar
  • Eğer Pi kümesi gerçekten performansa göre maliyet açısından rekabetçi olsaydı, veri merkezleri şimdiye kadar çoktan Pi ile dolmuş olurdu

    • Bu biraz ekonomistlerin “yerdeki 20 doları kimsenin neden almadığı” şakasına benziyor. Mükemmel piyasa verimliliği uzun vadede işlese de kısa vadede belirleyici olan çoğunlukla alışkanlıklar ve sezgisel deneyimdir

    • PlayStation hakkında da aynı şeylerin söylendiğini unutmamak gerek

    • Pi kümeleri ... gerçekten hiçbir kullanım alanında fiyat açısından rekabetçi görünmüyor

    • Mythic Beasts adlı şirket RPI sunucu kiralama hizmeti veriyor(bağlantı). Çok küçük bir pazarda belli ki yine de bir kullanım alanı var

  • Son 10 yıldır süper bilgisayarların GPU kullanmasının bir nedeni var. GPU çok daha verimli. 32bit paralel işlem gerekiyorsa tüketici GPU'su, 64bit gerekiyorsa RTX 6000 Pro gibi prosumer sınıfı bir GPU alıp takmak yeterli. Artık kimse CPU kümesi kurmuyor

    • Ne yazık ki RTX 6000 Pro'nun double precision performansı da yalnızca 2 TFLOPS; yani single precision'dan 64 kat daha yavaş. EPYC 9755 yaklaşık 10 TFLOPS verebiliyor, üstelik daha düşük güçte. A100 de benzer durumda. Hobi düzeyinde HPC için DP işlem istiyorsanız eski AMD kartları daha mantıklı olabilir. Artık hem AMD hem NVIDIA, bilim insanı müşterilerin yüksek hassasiyet performansı için büyük bedel ödeyeceğini biliyor

    • El Capitan süper bilgisayarı da AMD CPU kullanıyor (içinde entegre GPU var) ve yakın zamanda sıralamada 1 numaraydı. Frontier da benzer bir yapıyla arkasından geliyor. GPU'ların ayrı veri yolu ve ayrı belleğe sahip olması her zaman en iyi çözüm olmayabilir

  • Pi kümeleri aslında yüksek performans için değil, eğlenceli bir hobi olarak tuhaf ekipmanlar. Zaten çoğu kişi bunun maliyet açısından verimli olmasını beklemiyor. Bu daha çok YouTube tarzı kışkırtıcı başlıkların bloglara sıçramış hali gibi. Gerçekten amaç Linux kümesi pratiği ise masaüstü CPU'ya hypervisor kurup VM oluşturmak çok daha ekonomik. Amaç bir sürü kablo takıp o hissi yaşamak değilse, sistem kaynaklarının kullanımı ve esneklik açısından bu yöntem çok daha verimli

    • Gerçekten maliyet etkin pratik istiyorsanız bulutu kullanın. Genelde pratik bittikten kısa süre sonra ilgi kaybolduğu için, bulut faturası masaüstü donanım maliyetine ulaşmadan önce bırakmanız daha olasıdır

    • Hesap yaptım; Mac Studio'da en yeni Mx Ultra işlemci ve en yüksek kapasiteli bellek, 100B+ parametreli modelleri denemek için en maliyet etkin yöntem gibi görünüyor

    • Geleneksel hesaplamada alan kaybettirir ama güç ve maliyet açısından kazandırır. Fakat yapay zekada GPU kullanılamadı ve llama.cpp'nin kümeleme yazılımı yeterince olgun olmadığı için anlamlı bir sonuca varmak zor. Yazılım iyileşirse bu değişebilir

    • Bence bu tartışmalarda teknik arka plan olmasa bile sonuç net görülebilir. Herkesin yapay zekada GPU kullanması ve NVIDIA hissesinin fırlaması bile yeterli. OP gerçekten de dünyanın Raspberry Pi takmanın çözüm olduğunu henüz fark etmediğini mi sanıyordu, merak ediyorum

    • Bazı Raspberry Pi ürünleri zararına satılıyor; bu yüzden “fiyat açısından rekabetçi olabilir” gibi bir yanlış anlama doğabiliyor

  • Yazarın “Bloga geldiyseniz videodan çok yazıyı seviyorsunuzdur, o yüzden doğrudan geçiyorum” sözü hoşuma gitti

 
chcv0313 2025-09-20

Bu kadar eğlenip sonra pişman olduğunu söylemek de ne bileyim haha, oyun süren 1000 saati aşmışken "eğlenceli değildi" demekten ne farkı var ki

 
gafani 2025-09-25

Benzetme tam cuk oturmuş lol

 
kandk 2025-09-22

Hahahahahahahaha