18 puan yazan GN⁺ 2025-09-09 | 3 yorum | WhatsApp'ta paylaş
  • 4 küçük Raspberry Pi kartının dağıtık çıkarım düğümleri olarak birleştirilip Qwen3 30B MoE’nin A3B Q40 nicemlenmiş modelinin çalıştırıldığı bir kurulum ve benchmark örneği tanıtılıyor
  • Ağ anahtarı üzerinden 1 ROOT + 3 WORKER (tamamı Raspberry Pi 5 8GB) olacak şekilde ağ yapısı kuruldu
  • Token üretim hızı değerlendirme aşamasında 14.33 tok/s, tahmin aşamasında 13.04 tok/s olarak ölçüldü
  • Model, Qwen3 MoE mimarisi temelinde olup 48 katman ve 128 uzmandan oluşuyor
  • Düşük maliyetli donanımla yüksek performanslı dil modellerini çalıştırmayı mümkün kılarak Raspberry Pi kümesinin potansiyelini ve maliyet etkin yapay zeka araştırmasını ortaya koyuyor

Projeye genel bakış

  • Distributed Llama v0.16.0 kullanılarak 4 adet Raspberry Pi 5 8GB üzerinde Qwen3 30B A3B Q40 modeli çalıştırıldı
    • Büyük dil modellerini düşük maliyetli cihazlarda çalıştırılabilir kılmak üzere tasarlandı
    • Ağ bağlantısı için TP-Link LS1008G anahtarı kullanıldı
  • Temel hedef, yüksek performanslı hesaplama kaynakları olmadan da yapay zeka modellerini verimli şekilde çalıştırmak
    • İş yükü 4 cihaz arasında dağıtıldı (1 root, 3 worker)
    • IP adresleri: root (10.0.0.2), worker’lar (10.0.0.1, 10.0.0.3, 10.0.0.4)

Donanım ve ağ kurulumu

  • Yapılandırma: 4 adet Raspberry Pi 5 8GB’den oluşan bir küme
    • Her cihaz TP-Link LS1008G anahtarına bağlı
    • Root düğüm ile 3 worker düğümü ağ üzerinden haberleşiyor
  • Ağ başlatma: tüm worker düğümlerine (10.0.0.1:9999, 10.0.0.3:9999, 10.0.0.4:9999) başarıyla bağlanıldı
    • Ağ non-blocking modda çalışıyor
    • Veri aktarımı: değerlendirme sırasında gönderilen 12084kB, alınan 20085kB
  • CPU kullanımı: Neon Dotprod FP16 desteğiyle optimize edilmiş hesaplama işleme

Model ayrıntıları

  • Model: Qwen3 30B A3B Q40
    • Mimari: Qwen3 MoE (Mixture of Experts)
    • Katman sayısı: 48
    • Uzman sayısı: 128, etkin uzman sayısı 8
    • Boyutlar: Dim 2048, QDim 4096, KvDim 512, HiddenDim 6144
  • Tokenizer: sözlük boyutu 151669, model sözlük boyutu 151936 ile küçük bir uyumsuzluk var
    • Genel sözlük boyutu: 151643
    • Özel sözlük boyutu: 26
  • Bellek gereksinimi: 5513MB
    • Maksimum sekans uzunluğu: 4096
    • NormEpsilon: 0.000001, RopeTheta: 10000000

Benchmark performansı

  • Değerlendirme aşaması
    • Batch sayısı: 32
    • Token sayısı: 19
    • Token üretim hızı: 14.33 tok/s (69.80ms/tok)
  • Tahmin aşaması
    • Token sayısı: 109
    • Token üretim hızı: 13.04 tok/s (76.69ms/tok)
  • Tahmin ayrıntı logları:
    • Her tahmin adımı yaklaşık 49~70ms sürüyor, senkronizasyon süresi 14~94ms
    • Gönderilen veri 636kB, alınan veri 1057kB ile sabit
    • Örnek olarak Of, course, Poland gibi token’lar üretildi
    • Thread sayısı: 4
    • Buffer float tipi: Q80
    • Maksimum sekans uzunluğu: 4096

Dikkat edilmesi gerekenler ve sınırlamalar (Notes & Caveats)

  • Tokenizer vocab size ile Model vocab size arasında uyumsuzluk uyarısı bulunduğundan tokenizer tutarlılığının doğrulanması gerekiyor
  • A3B Q40, agresif nicemleme kategorisine girdiği için doğruluk ve yanıt kalitesi açısından ödünleşim göz önünde bulundurulmalı
  • Pi 5 8GB × 4 yapılandırması bellek ve işlem sınırlarına sahip olduğundan prompt uzunluğu, eşzamanlılık ve ağ kalitesine bağlı değişkenlik yüksek olabilir

Pratik anlamı

  • Düşük maliyetli yapay zeka çalıştırma olasılığını gösteren bir proje
  • Düşük maliyetli SBC kümesi ile 30B sınıfı bir MoE modelinin dağıtık çalıştırıldığı yeniden üretim örneği olarak, on-premise hafif çıkarım ve geliştirme deneyleri için giriş eşiğini düşürebilecek bir referans olabilir
  • Token başına ağ ve senkronizasyon logları içerdiğinden dağıtık ek yükün ölçülmesi ve ayarlanması için anlamlı veriler sunuyor
  • Dağıtık framework + nicemlenmiş model birleşimi, edge/kişisel araştırma ortamlarında TCO’ya göre performansı artırabilir

3 yorum

 
seohc 2025-09-10

n serisi mini PC'ler de ucuz ama 16 GB'lık 4 tanesini bir araya getirince... düşününce fiyat 8845'e 32 GB eklenmiş haline geliyor gibi görünüyor haha

 
ndrgrd 2025-09-10

Harika. Son zamanlarda düşük yükte LLM çalıştırmaya dair giderek daha fazla bilgi ortaya çıkıyor gibi geliyor, bu da hoşuma gidiyor.

 
developerjhp 2025-09-09

Harika..