Raspberry Pi üzerinde gerçek zamanlı çalışan 30 milyar parametreli Qwen modeli

(byteshape.com)

22 puan yazan GN⁺ 2026-01-07 | 1 yorum | WhatsApp'ta paylaş

Qwen3-30B-A3B-Instruct-2507 modeli, Raspberry Pi 5 (16GB) üzerinde gerçek zamanlı çalışıyor; 8.03 TPS ve BF16 kalitesinin %94.18'ini koruyor
ByteShape'in ShapeLearn bit uzunluğu öğrenme yöntemi, her cihazın bellek sınırı içinde hız ve kalite dengesini optimize ediyor
Unsloth ve MagicQuant ile karşılaştırıldığında, aynı kalitede daha yüksek TPS veya aynı TPS'de daha yüksek kalite sağlıyor
Hem CPU hem de GPU'da (özellikle RTX 5090·4080) 4 bit civarı en iyi performans aralığı olarak öne çıkıyor; bit sayısını azaltmak her zaman daha yüksek hız anlamına gelmiyor
Genel olarak ByteShape modelleri, “belleği bir bütçe olarak görüp TPS/kaliteyi optimize etme” yaklaşımıyla uç cihazlardan veri merkezlerine kadar verimli performans sunuyor

ShapeLearn tabanlı optimizasyona genel bakış

ByteShape, model çalıştırırken kullanıcının hissedeceği hız ve yanıt kalitesini merkeze alarak optimizasyon yapıyor
- ShapeLearn, her tensörün ağırlık veri tipini (bit length) öğrenerek TPS (saniye başına token) ile çıktı kalitesini aynı anda en üst düzeye çıkarıyor
- Amaç yalnızca dosya boyutunu küçültmek değil, hız ve kalitedeki gerçek dengeyi iyileştirmek
llama.cpp ortamında bit sayısını düşürmek her zaman hız artışı sağlamıyor; kernel seçimi ve ek yük performansı büyük ölçüde etkiliyor
ByteShape, belleği “yeterince sığacak bir bütçe” olarak görüyor; sonrasında ayarlamayı TPS ve kalite ekseninde yapıyor

Raspberry Pi 5 performansı

Raspberry Pi 5 (16GB) üzerinde 30B model, 8.5 TPS ve %92'nin üzerinde doğruluk koruyor
- Q3_K_S-2.70bpw [KQ-2] modeli, gerçek zamanlı sohbet düzeyinde yanıt hızı sunuyor
Doğruluk öncelikli model senaryosunda ByteShape, %1.1~1.3 göreli hata (yaklaşık %98.8 doğruluk) ile Unsloth'a kıyasla en fazla 1.87 kat daha düşük hata oranına ulaşıyor
- Aynı ortamda 5~6 TPS korunuyor; doğruluk odaklı işler için uygun
Hız öncelikli model (Q3_K_S-3.25bpw [KQ-5]) de Unsloth'a göre daha küçük ve daha hızlıyken doğruluk üstünlüğünü koruyor
Unsloth ve MagicQuant'ın birçok modeli, bellek kısıtları nedeniyle Pi ortamında çalıştırılamıyor

Intel i7 (64GB) performansı

Tüm modellerin belleğe sığdığı bu ortamda ByteShape, Unsloth ve MagicQuant'a kıyasla daha yüksek kalite ve TPS sunuyor
Kalite odaklı aralık: ByteShape'in IQ4_XS-4.67bpw [KQ-9] modeli, Unsloth'un Q6_K modeline göre 1.44 kat daha düşük hata oranı ve daha yüksek TPS sağlıyor
Dengeli aralık: ByteShape'in Q3_K_S-3.25bpw modeli, Unsloth'a göre 1.73 kat daha düşük hata oranı sunarken, MagicQuant'a karşı da hem doğrulukta hem hızda üstün
26+ TPS bölgesiyle yüksek kalite bölgesini aynı anda kapsayabilen tek çözüm ByteShape oluyor

GPU performans karşılaştırması (RTX 5090 / RTX 4080)

GPU tarafında performansı kernel seçimi ve VRAM erişim verimliliği belirliyor
- 4 bit civarı (~4bpw), TPS ve kalite açısından tatlı nokta olarak doğrulanıyor
RTX 5090 (32GB)
- Unsloth, MagicQuant ve ByteShape'in tümü 4b aralığında 302~303 TPS ve %98.4~98.9 doğruluk veriyor
- ByteShape'in IQ4_XS-4.67bpw modeli, 272.98 TPS ve %99.75 doğrulukla en yüksek doğruluğa ulaşıyor
- Unsloth Q6_K (6.57bpw, 264.88 TPS, %99.64) ve MagicQuant mxfp4 (5.46bpw, 240.42 TPS, %99.32) karşısında üstünlük sağlıyor
RTX 4080 (16GB)
- VRAM kısıtı nedeniyle 4b modeller çalışmıyor; ByteShape, aynı 16GB koşulunda Unsloth'tan hem TPS hem doğrulukta daha iyi sonuç veriyor
- ByteShape IQ4_XS-3.87bpw: 214.81 TPS, %98.66 doğruluk
  - Unsloth Q3_K_XL'e göre 1.59 kat daha düşük hata oranı, %9.4 daha yüksek TPS
  - Unsloth IQ2_M'e göre 2.54 kat daha düşük hata oranı

Bit sayısı ve hız paradoksu

3 bitin altına inmek hız artışını garanti etmiyor
- GPU'lar 32 iş parçacıklı warp birimleriyle çalışıyor ve belirli veri biçimleriyle erişim desenlerine göre optimize ediliyor
- VRAM, 32 bayt hizalı bloklar halinde okunduğundan, daha küçük veriler de aynı bant genişliğini kullanabiliyor
- Düşük bit genişliği, dekodlama ek yükünü artırarak sistemi daha da yavaşlatabiliyor
Örnek: RTX 5090'da iq4_xs 54µs sürerken iq3_xxs 62µs sürüyor → kapasitede %25 azalma, hızda %13 düşüşe yol açıyor
ShapeLearn, bu donanım özelliklerini dikkate alarak tensör bazında veri tipi seçiyor; böylece hız ve doğruluğu birlikte koruyor

Değerlendirme yöntemi ve sonuç

Tüm modeller, aynı değerlendirme düzeneğiyle TPS ve normalize kalite puanı (BF16'ya göre) üzerinden ölçüldü
- Kalite değerlendirmesi, MMLU, GSM8K, IFEval, LiveCodeBench V4 sonuçlarının birleştirilmesiyle yapıldı
Temel sonuçlar:
- “Belleği hedef değil, kısıt olarak ele alın.”
- Model cihaza sığdıktan sonra asıl önemli olan TPS ile kalite arasındaki denge eğrisi
- ByteShape, tüm cihazlarda aynı kalitede daha hızlı ya da aynı hızda daha yüksek kaliteli sonuçlar veriyor
Raspberry Pi 5 üzerinde Q3_K_S-2.70bpw [KQ-2] modeli gerçek zamanlı sohbet için uygun
Aynı ilke büyük CPU ve GPU ortamlarında da geçerli: “Önce sığdır, sonra optimize et.”
ByteShape, ileride daha fazla cihaza özel optimize edilmiş model yayımlamayı planlıyor

1 yorum

GN⁺ 2026-01-07

Hacker News görüşleri

Bence burada büyük bir pazar fırsatı var
Benim istediğim şey Alexa benzeri bir sesli asistan, ama yerel çıkarım ve depolama temelinde standartlaştırılmış bileşenlere sahip bir sistem
- Etkileşimli cihaz: iyi hoparlöre ve sesli kontrol özelliklerine sahip Alexa/Google/Apple tarzı bir cihaz ya da TV giriş aygıtı. Wi-Fi genişletici veya yönlendirici olarak da çalışsa harika olur. Her odaya bir tane koyup gerçek bir mesh ağ kurmak isterim
- Ev bulut sunucusu: ucuz bir CPU, biraz RAM ve yeterli depolama alanına sahip bir cihaz olup evdeki uygulamaları ve ağ yedeklerini yöneten merkezi düğüm olsa iyi olur
- Çıkarım motoru: servisleri standart bir biçimde duyurup kontrol düğümünün otomatik bağlanması iyi olurdu. Sadece takıp hemen çalışan bir plug-and-play ortam istiyorum
  Önemli olan gizlilik ve birlikte çalışabilirlik. Hesap kaydı ya da harici sunucu bağlantısı gerekiyorsa satın almam. “Freddy, 10 dakikalık zamanlayıcı kur” gibi komutları yerelde işlemek istiyorum
- Henüz tamamen plug-and-play bir ürün yok, ama Home Assistant ve onun Voice Preview Edition sürümüyle oldukça iyi sonuçlar aldım
  Evin çeşitli yerlerine birden fazla düşük maliyetli Wi-Fi + mikrofon + hoparlör cihazı koyup ses işlemeyi merkezi, güçlü bir kutuda yapmak şeklinde bir yapı
  Sonuçta bu tek bir program gibi çalışıyor; bu yüzden biraz daha güçlü bir makineye Wi-Fi kartı eklenirse Wi-Fi genişletici olarak da iş görebilir
- Ben de bu fikre katılıyorum. Home Assistant(HA) içinde ChatGPT ile ses bağlantısını sorunsuz hale getirmekte zorlanıyorum
  Uyandırma sözcüğü (wake word) kavramı da hoşuma gitmiyor. Tüm yığında hâlâ geliştirilecek çok şey var gibi geliyor
- Ayrıca oyuncaklarda da böyle bir sistemin uygulanması eğlenceli olabilir
Farklı modelleri kolayca karşılaştırabileceğim iyi bir kaynak olup olmadığını merak ediyorum
gpt-oss-20b ile gpt-oss-120b arasındaki parametre sayısı farkını biliyorum ama gerçek performans farkını pek bilmiyorum
Yalnızca Gemini ya da GPT gibi büyük modeller kullandım; kendi donanımımda ne kadar küçük modellere kadar faydalı şekilde kullanabileceğimi bilmek istiyorum
- swe-rebench.com üzerinden modellere göre benchmark karşılaştırması yapılabilir
“Gerçek zamanlı” performansın ne seviyede olduğunu merak edip baktım
Pi 5(16GB) üzerinde Q3_K_S-2.70bpw [KQ-2] modeli 8.03 TPS veriyor ve BF16 kalitesinin %94.18 seviyesini koruyor deniyor
Makale başka donanım ayrıntılarını da ele alıyor
- Keşke yalnızca böyle temel metrikleri çekip gösteren bir Hacker News özet sayfası olsa diye düşünüyorum
Ben de Pi 5(16GB) üzerinde en güncel llama.cpp ile denedim ama segmentation fault (segfault) oluştu
Bellek yetersizliği hata mesajı çıktı ve yaklaşık 10GB RAM kullandıktan sonra kapandı
Bağlam boyutunu küçültmek için -c 4096 seçeneğini verince yükleme başarılı oldu
- illama ya da ik_llama.cpp içindeki 4 bit kuantize modeller, ya da Microsoft BitNet de denemeye değer olabilir
  BitNet b1.58-2B-4T-gguf gibi modeller düşük özellikli cihazlar veya yalnızca iGPU'ya sahip ofis bilgisayarlarında karşılaştırmalı denemeler için uygun görünüyor
- Belki de swap belleği eklemiş olabilirler
Doğruluğu ölçme yönteminin alışıldık perplexity ile farklı olup olmadığını merak ediyorum
BF16'dan 2.8'e düşürülmesine rağmen kalite kaybının sadece %5 olması tuhaf geliyor
GPT-OSS-20B yaklaşık 11.2GB olduğu için, 16GB bellekli cihazlarda da kalite kaybı olmadan rahatça çalıştırılabilir

Raspberry Pi üzerinde gerçek zamanlı çalışan 30 milyar parametreli Qwen modeli

ShapeLearn tabanlı optimizasyona genel bakış

Raspberry Pi 5 performansı

Intel i7 (64GB) performansı

GPU performans karşılaştırması (RTX 5090 / RTX 4080)

Bit sayısı ve hız paradoksu

Değerlendirme yöntemi ve sonuç

İlgili okumalar

1 yorum

Hacker News görüşleri