4 Raspberry Pi 5 ile Qwen3 30B A3B’de saniyede 13 token elde edildi

(github.com/b4rtaz)

18 puan yazan GN⁺ 2025-09-09 | 3 yorum | WhatsApp'ta paylaş

4 küçük Raspberry Pi kartının dağıtık çıkarım düğümleri olarak birleştirilip Qwen3 30B MoE’nin A3B Q40 nicemlenmiş modelinin çalıştırıldığı bir kurulum ve benchmark örneği tanıtılıyor
Ağ anahtarı üzerinden 1 ROOT + 3 WORKER (tamamı Raspberry Pi 5 8GB) olacak şekilde ağ yapısı kuruldu
Token üretim hızı değerlendirme aşamasında 14.33 tok/s, tahmin aşamasında 13.04 tok/s olarak ölçüldü
Model, Qwen3 MoE mimarisi temelinde olup 48 katman ve 128 uzmandan oluşuyor
Düşük maliyetli donanımla yüksek performanslı dil modellerini çalıştırmayı mümkün kılarak Raspberry Pi kümesinin potansiyelini ve maliyet etkin yapay zeka araştırmasını ortaya koyuyor

Projeye genel bakış

Distributed Llama v0.16.0 kullanılarak 4 adet Raspberry Pi 5 8GB üzerinde Qwen3 30B A3B Q40 modeli çalıştırıldı
- Büyük dil modellerini düşük maliyetli cihazlarda çalıştırılabilir kılmak üzere tasarlandı
- Ağ bağlantısı için TP-Link LS1008G anahtarı kullanıldı
Temel hedef, yüksek performanslı hesaplama kaynakları olmadan da yapay zeka modellerini verimli şekilde çalıştırmak
- İş yükü 4 cihaz arasında dağıtıldı (1 root, 3 worker)
- IP adresleri: root (10.0.0.2), worker’lar (10.0.0.1, 10.0.0.3, 10.0.0.4)

Yapılandırma: 4 adet Raspberry Pi 5 8GB’den oluşan bir küme
- Her cihaz TP-Link LS1008G anahtarına bağlı
- Root düğüm ile 3 worker düğümü ağ üzerinden haberleşiyor
Ağ başlatma: tüm worker düğümlerine (10.0.0.1:9999, 10.0.0.3:9999, 10.0.0.4:9999) başarıyla bağlanıldı
- Ağ non-blocking modda çalışıyor
- Veri aktarımı: değerlendirme sırasında gönderilen 12084kB, alınan 20085kB
CPU kullanımı: Neon Dotprod FP16 desteğiyle optimize edilmiş hesaplama işleme

Model: Qwen3 30B A3B Q40
- Mimari: Qwen3 MoE (Mixture of Experts)
- Katman sayısı: 48
- Uzman sayısı: 128, etkin uzman sayısı 8
- Boyutlar: Dim 2048, QDim 4096, KvDim 512, HiddenDim 6144
Tokenizer: sözlük boyutu 151669, model sözlük boyutu 151936 ile küçük bir uyumsuzluk var
- Genel sözlük boyutu: 151643
- Özel sözlük boyutu: 26
Bellek gereksinimi: 5513MB
- Maksimum sekans uzunluğu: 4096
- NormEpsilon: 0.000001, RopeTheta: 10000000

Değerlendirme aşaması
- Batch sayısı: 32
- Token sayısı: 19
- Token üretim hızı: 14.33 tok/s (69.80ms/tok)
Tahmin aşaması
- Token sayısı: 109
- Token üretim hızı: 13.04 tok/s (76.69ms/tok)
Tahmin ayrıntı logları:
- Her tahmin adımı yaklaşık 49~70ms sürüyor, senkronizasyon süresi 14~94ms
- Gönderilen veri 636kB, alınan veri 1057kB ile sabit
- Örnek olarak Of, course, Poland gibi token’lar üretildi
- Thread sayısı: 4
- Buffer float tipi: Q80
- Maksimum sekans uzunluğu: 4096

Tokenizer vocab size ile Model vocab size arasında uyumsuzluk uyarısı bulunduğundan tokenizer tutarlılığının doğrulanması gerekiyor
A3B Q40, agresif nicemleme kategorisine girdiği için doğruluk ve yanıt kalitesi açısından ödünleşim göz önünde bulundurulmalı
Pi 5 8GB × 4 yapılandırması bellek ve işlem sınırlarına sahip olduğundan prompt uzunluğu, eşzamanlılık ve ağ kalitesine bağlı değişkenlik yüksek olabilir

Düşük maliyetli yapay zeka çalıştırma olasılığını gösteren bir proje
Düşük maliyetli SBC kümesi ile 30B sınıfı bir MoE modelinin dağıtık çalıştırıldığı yeniden üretim örneği olarak, on-premise hafif çıkarım ve geliştirme deneyleri için giriş eşiğini düşürebilecek bir referans olabilir
Token başına ağ ve senkronizasyon logları içerdiğinden dağıtık ek yükün ölçülmesi ve ayarlanması için anlamlı veriler sunuyor
Dağıtık framework + nicemlenmiş model birleşimi, edge/kişisel araştırma ortamlarında TCO’ya göre performansı artırabilir

seohc 2025-09-10

n serisi mini PC'ler de ucuz ama 16 GB'lık 4 tanesini bir araya getirince... düşününce fiyat 8845'e 32 GB eklenmiş haline geliyor gibi görünüyor haha

ndrgrd 2025-09-10

Harika. Son zamanlarda düşük yükte LLM çalıştırmaya dair giderek daha fazla bilgi ortaya çıkıyor gibi geliyor, bu da hoşuma gidiyor.

developerjhp 2025-09-09

Harika..