- 4 küçük Raspberry Pi kartının dağıtık çıkarım düğümleri olarak birleştirilip Qwen3 30B MoE’nin A3B Q40 nicemlenmiş modelinin çalıştırıldığı bir kurulum ve benchmark örneği tanıtılıyor
- Ağ anahtarı üzerinden 1 ROOT + 3 WORKER (tamamı Raspberry Pi 5 8GB) olacak şekilde ağ yapısı kuruldu
- Token üretim hızı değerlendirme aşamasında 14.33 tok/s, tahmin aşamasında 13.04 tok/s olarak ölçüldü
- Model, Qwen3 MoE mimarisi temelinde olup 48 katman ve 128 uzmandan oluşuyor
- Düşük maliyetli donanımla yüksek performanslı dil modellerini çalıştırmayı mümkün kılarak Raspberry Pi kümesinin potansiyelini ve maliyet etkin yapay zeka araştırmasını ortaya koyuyor
Projeye genel bakış
- Distributed Llama v0.16.0 kullanılarak 4 adet Raspberry Pi 5 8GB üzerinde Qwen3 30B A3B Q40 modeli çalıştırıldı
- Büyük dil modellerini düşük maliyetli cihazlarda çalıştırılabilir kılmak üzere tasarlandı
- Ağ bağlantısı için TP-Link LS1008G anahtarı kullanıldı
- Temel hedef, yüksek performanslı hesaplama kaynakları olmadan da yapay zeka modellerini verimli şekilde çalıştırmak
- İş yükü 4 cihaz arasında dağıtıldı (1 root, 3 worker)
- IP adresleri: root (10.0.0.2), worker’lar (10.0.0.1, 10.0.0.3, 10.0.0.4)
Donanım ve ağ kurulumu
- Yapılandırma: 4 adet Raspberry Pi 5 8GB’den oluşan bir küme
- Her cihaz TP-Link LS1008G anahtarına bağlı
- Root düğüm ile 3 worker düğümü ağ üzerinden haberleşiyor
- Ağ başlatma: tüm worker düğümlerine (10.0.0.1:9999, 10.0.0.3:9999, 10.0.0.4:9999) başarıyla bağlanıldı
- Ağ non-blocking modda çalışıyor
- Veri aktarımı: değerlendirme sırasında gönderilen 12084kB, alınan 20085kB
- CPU kullanımı: Neon Dotprod FP16 desteğiyle optimize edilmiş hesaplama işleme
Model ayrıntıları
- Model: Qwen3 30B A3B Q40
- Mimari: Qwen3 MoE (Mixture of Experts)
- Katman sayısı: 48
- Uzman sayısı: 128, etkin uzman sayısı 8
- Boyutlar: Dim 2048, QDim 4096, KvDim 512, HiddenDim 6144
- Tokenizer: sözlük boyutu 151669, model sözlük boyutu 151936 ile küçük bir uyumsuzluk var
- Genel sözlük boyutu: 151643
- Özel sözlük boyutu: 26
- Bellek gereksinimi: 5513MB
- Maksimum sekans uzunluğu: 4096
- NormEpsilon: 0.000001, RopeTheta: 10000000
Benchmark performansı
- Değerlendirme aşaması
- Batch sayısı: 32
- Token sayısı: 19
- Token üretim hızı: 14.33 tok/s (69.80ms/tok)
- Tahmin aşaması
- Token sayısı: 109
- Token üretim hızı: 13.04 tok/s (76.69ms/tok)
- Tahmin ayrıntı logları:
- Her tahmin adımı yaklaşık 49~70ms sürüyor, senkronizasyon süresi 14~94ms
- Gönderilen veri 636kB, alınan veri 1057kB ile sabit
- Örnek olarak
Of, course, Poland gibi token’lar üretildi
- Thread sayısı: 4
- Buffer float tipi: Q80
- Maksimum sekans uzunluğu: 4096
Dikkat edilmesi gerekenler ve sınırlamalar (Notes & Caveats)
- Tokenizer vocab size ile Model vocab size arasında uyumsuzluk uyarısı bulunduğundan tokenizer tutarlılığının doğrulanması gerekiyor
- A3B Q40, agresif nicemleme kategorisine girdiği için doğruluk ve yanıt kalitesi açısından ödünleşim göz önünde bulundurulmalı
- Pi 5 8GB × 4 yapılandırması bellek ve işlem sınırlarına sahip olduğundan prompt uzunluğu, eşzamanlılık ve ağ kalitesine bağlı değişkenlik yüksek olabilir
Pratik anlamı
- Düşük maliyetli yapay zeka çalıştırma olasılığını gösteren bir proje
- Düşük maliyetli SBC kümesi ile 30B sınıfı bir MoE modelinin dağıtık çalıştırıldığı yeniden üretim örneği olarak, on-premise hafif çıkarım ve geliştirme deneyleri için giriş eşiğini düşürebilecek bir referans olabilir
- Token başına ağ ve senkronizasyon logları içerdiğinden dağıtık ek yükün ölçülmesi ve ayarlanması için anlamlı veriler sunuyor
- Dağıtık framework + nicemlenmiş model birleşimi, edge/kişisel araştırma ortamlarında TCO’ya göre performansı artırabilir
3 yorum
n serisi mini PC'ler de ucuz ama 16 GB'lık 4 tanesini bir araya getirince... düşününce fiyat 8845'e 32 GB eklenmiş haline geliyor gibi görünüyor haha
Harika. Son zamanlarda düşük yükte LLM çalıştırmaya dair giderek daha fazla bilgi ortaya çıkıyor gibi geliyor, bu da hoşuma gidiyor.
Harika..