22 puan yazan GN⁺ 2026-01-07 | 1 yorum | WhatsApp'ta paylaş
  • Qwen3-30B-A3B-Instruct-2507 modeli, Raspberry Pi 5 (16GB) üzerinde gerçek zamanlı çalışıyor; 8.03 TPS ve BF16 kalitesinin %94.18'ini koruyor
  • ByteShape'in ShapeLearn bit uzunluğu öğrenme yöntemi, her cihazın bellek sınırı içinde hız ve kalite dengesini optimize ediyor
  • Unsloth ve MagicQuant ile karşılaştırıldığında, aynı kalitede daha yüksek TPS veya aynı TPS'de daha yüksek kalite sağlıyor
  • Hem CPU hem de GPU'da (özellikle RTX 5090·4080) 4 bit civarı en iyi performans aralığı olarak öne çıkıyor; bit sayısını azaltmak her zaman daha yüksek hız anlamına gelmiyor
  • Genel olarak ByteShape modelleri, “belleği bir bütçe olarak görüp TPS/kaliteyi optimize etme” yaklaşımıyla uç cihazlardan veri merkezlerine kadar verimli performans sunuyor

ShapeLearn tabanlı optimizasyona genel bakış

  • ByteShape, model çalıştırırken kullanıcının hissedeceği hız ve yanıt kalitesini merkeze alarak optimizasyon yapıyor
    • ShapeLearn, her tensörün ağırlık veri tipini (bit length) öğrenerek TPS (saniye başına token) ile çıktı kalitesini aynı anda en üst düzeye çıkarıyor
    • Amaç yalnızca dosya boyutunu küçültmek değil, hız ve kalitedeki gerçek dengeyi iyileştirmek
  • llama.cpp ortamında bit sayısını düşürmek her zaman hız artışı sağlamıyor; kernel seçimi ve ek yük performansı büyük ölçüde etkiliyor
  • ByteShape, belleği “yeterince sığacak bir bütçe” olarak görüyor; sonrasında ayarlamayı TPS ve kalite ekseninde yapıyor

Raspberry Pi 5 performansı

  • Raspberry Pi 5 (16GB) üzerinde 30B model, 8.5 TPS ve %92'nin üzerinde doğruluk koruyor
    • Q3_K_S-2.70bpw [KQ-2] modeli, gerçek zamanlı sohbet düzeyinde yanıt hızı sunuyor
  • Doğruluk öncelikli model senaryosunda ByteShape, %1.1~1.3 göreli hata (yaklaşık %98.8 doğruluk) ile Unsloth'a kıyasla en fazla 1.87 kat daha düşük hata oranına ulaşıyor
    • Aynı ortamda 5~6 TPS korunuyor; doğruluk odaklı işler için uygun
  • Hız öncelikli model (Q3_K_S-3.25bpw [KQ-5]) de Unsloth'a göre daha küçük ve daha hızlıyken doğruluk üstünlüğünü koruyor
  • Unsloth ve MagicQuant'ın birçok modeli, bellek kısıtları nedeniyle Pi ortamında çalıştırılamıyor

Intel i7 (64GB) performansı

  • Tüm modellerin belleğe sığdığı bu ortamda ByteShape, Unsloth ve MagicQuant'a kıyasla daha yüksek kalite ve TPS sunuyor
  • Kalite odaklı aralık: ByteShape'in IQ4_XS-4.67bpw [KQ-9] modeli, Unsloth'un Q6_K modeline göre 1.44 kat daha düşük hata oranı ve daha yüksek TPS sağlıyor
  • Dengeli aralık: ByteShape'in Q3_K_S-3.25bpw modeli, Unsloth'a göre 1.73 kat daha düşük hata oranı sunarken, MagicQuant'a karşı da hem doğrulukta hem hızda üstün
  • 26+ TPS bölgesiyle yüksek kalite bölgesini aynı anda kapsayabilen tek çözüm ByteShape oluyor

GPU performans karşılaştırması (RTX 5090 / RTX 4080)

  • GPU tarafında performansı kernel seçimi ve VRAM erişim verimliliği belirliyor
    • 4 bit civarı (~4bpw), TPS ve kalite açısından tatlı nokta olarak doğrulanıyor
  • RTX 5090 (32GB)
    • Unsloth, MagicQuant ve ByteShape'in tümü 4b aralığında 302~303 TPS ve %98.4~98.9 doğruluk veriyor
    • ByteShape'in IQ4_XS-4.67bpw modeli, 272.98 TPS ve %99.75 doğrulukla en yüksek doğruluğa ulaşıyor
    • Unsloth Q6_K (6.57bpw, 264.88 TPS, %99.64) ve MagicQuant mxfp4 (5.46bpw, 240.42 TPS, %99.32) karşısında üstünlük sağlıyor
  • RTX 4080 (16GB)
    • VRAM kısıtı nedeniyle 4b modeller çalışmıyor; ByteShape, aynı 16GB koşulunda Unsloth'tan hem TPS hem doğrulukta daha iyi sonuç veriyor
    • ByteShape IQ4_XS-3.87bpw: 214.81 TPS, %98.66 doğruluk
      • Unsloth Q3_K_XL'e göre 1.59 kat daha düşük hata oranı, %9.4 daha yüksek TPS
      • Unsloth IQ2_M'e göre 2.54 kat daha düşük hata oranı

Bit sayısı ve hız paradoksu

  • 3 bitin altına inmek hız artışını garanti etmiyor
    • GPU'lar 32 iş parçacıklı warp birimleriyle çalışıyor ve belirli veri biçimleriyle erişim desenlerine göre optimize ediliyor
    • VRAM, 32 bayt hizalı bloklar halinde okunduğundan, daha küçük veriler de aynı bant genişliğini kullanabiliyor
    • Düşük bit genişliği, dekodlama ek yükünü artırarak sistemi daha da yavaşlatabiliyor
  • Örnek: RTX 5090'da iq4_xs 54µs sürerken iq3_xxs 62µs sürüyor → kapasitede %25 azalma, hızda %13 düşüşe yol açıyor
  • ShapeLearn, bu donanım özelliklerini dikkate alarak tensör bazında veri tipi seçiyor; böylece hız ve doğruluğu birlikte koruyor

Değerlendirme yöntemi ve sonuç

  • Tüm modeller, aynı değerlendirme düzeneğiyle TPS ve normalize kalite puanı (BF16'ya göre) üzerinden ölçüldü
    • Kalite değerlendirmesi, MMLU, GSM8K, IFEval, LiveCodeBench V4 sonuçlarının birleştirilmesiyle yapıldı
  • Temel sonuçlar:
    • “Belleği hedef değil, kısıt olarak ele alın.”
    • Model cihaza sığdıktan sonra asıl önemli olan TPS ile kalite arasındaki denge eğrisi
    • ByteShape, tüm cihazlarda aynı kalitede daha hızlı ya da aynı hızda daha yüksek kaliteli sonuçlar veriyor
  • Raspberry Pi 5 üzerinde Q3_K_S-2.70bpw [KQ-2] modeli gerçek zamanlı sohbet için uygun
  • Aynı ilke büyük CPU ve GPU ortamlarında da geçerli: “Önce sığdır, sonra optimize et.”
  • ByteShape, ileride daha fazla cihaza özel optimize edilmiş model yayımlamayı planlıyor

1 yorum

 
GN⁺ 2026-01-07
Hacker News görüşleri
  • Bence burada büyük bir pazar fırsatı var
    Benim istediğim şey Alexa benzeri bir sesli asistan, ama yerel çıkarım ve depolama temelinde standartlaştırılmış bileşenlere sahip bir sistem

    • Etkileşimli cihaz: iyi hoparlöre ve sesli kontrol özelliklerine sahip Alexa/Google/Apple tarzı bir cihaz ya da TV giriş aygıtı. Wi-Fi genişletici veya yönlendirici olarak da çalışsa harika olur. Her odaya bir tane koyup gerçek bir mesh ağ kurmak isterim
    • Ev bulut sunucusu: ucuz bir CPU, biraz RAM ve yeterli depolama alanına sahip bir cihaz olup evdeki uygulamaları ve ağ yedeklerini yöneten merkezi düğüm olsa iyi olur
    • Çıkarım motoru: servisleri standart bir biçimde duyurup kontrol düğümünün otomatik bağlanması iyi olurdu. Sadece takıp hemen çalışan bir plug-and-play ortam istiyorum
      Önemli olan gizlilik ve birlikte çalışabilirlik. Hesap kaydı ya da harici sunucu bağlantısı gerekiyorsa satın almam. “Freddy, 10 dakikalık zamanlayıcı kur” gibi komutları yerelde işlemek istiyorum
    • Henüz tamamen plug-and-play bir ürün yok, ama Home Assistant ve onun Voice Preview Edition sürümüyle oldukça iyi sonuçlar aldım
      Evin çeşitli yerlerine birden fazla düşük maliyetli Wi-Fi + mikrofon + hoparlör cihazı koyup ses işlemeyi merkezi, güçlü bir kutuda yapmak şeklinde bir yapı
      Sonuçta bu tek bir program gibi çalışıyor; bu yüzden biraz daha güçlü bir makineye Wi-Fi kartı eklenirse Wi-Fi genişletici olarak da iş görebilir
    • Ben de bu fikre katılıyorum. Home Assistant(HA) içinde ChatGPT ile ses bağlantısını sorunsuz hale getirmekte zorlanıyorum
      Uyandırma sözcüğü (wake word) kavramı da hoşuma gitmiyor. Tüm yığında hâlâ geliştirilecek çok şey var gibi geliyor
    • Ayrıca oyuncaklarda da böyle bir sistemin uygulanması eğlenceli olabilir
  • Farklı modelleri kolayca karşılaştırabileceğim iyi bir kaynak olup olmadığını merak ediyorum
    gpt-oss-20b ile gpt-oss-120b arasındaki parametre sayısı farkını biliyorum ama gerçek performans farkını pek bilmiyorum
    Yalnızca Gemini ya da GPT gibi büyük modeller kullandım; kendi donanımımda ne kadar küçük modellere kadar faydalı şekilde kullanabileceğimi bilmek istiyorum

    • swe-rebench.com üzerinden modellere göre benchmark karşılaştırması yapılabilir
  • “Gerçek zamanlı” performansın ne seviyede olduğunu merak edip baktım
    Pi 5(16GB) üzerinde Q3_K_S-2.70bpw [KQ-2] modeli 8.03 TPS veriyor ve BF16 kalitesinin %94.18 seviyesini koruyor deniyor
    Makale başka donanım ayrıntılarını da ele alıyor

    • Keşke yalnızca böyle temel metrikleri çekip gösteren bir Hacker News özet sayfası olsa diye düşünüyorum
  • Ben de Pi 5(16GB) üzerinde en güncel llama.cpp ile denedim ama segmentation fault (segfault) oluştu
    Bellek yetersizliği hata mesajı çıktı ve yaklaşık 10GB RAM kullandıktan sonra kapandı
    Bağlam boyutunu küçültmek için -c 4096 seçeneğini verince yükleme başarılı oldu

    • illama ya da ik_llama.cpp içindeki 4 bit kuantize modeller, ya da Microsoft BitNet de denemeye değer olabilir
      BitNet b1.58-2B-4T-gguf gibi modeller düşük özellikli cihazlar veya yalnızca iGPU'ya sahip ofis bilgisayarlarında karşılaştırmalı denemeler için uygun görünüyor
    • Belki de swap belleği eklemiş olabilirler
  • Doğruluğu ölçme yönteminin alışıldık perplexity ile farklı olup olmadığını merak ediyorum
    BF16'dan 2.8'e düşürülmesine rağmen kalite kaybının sadece %5 olması tuhaf geliyor

  • GPT-OSS-20B yaklaşık 11.2GB olduğu için, 16GB bellekli cihazlarda da kalite kaybı olmadan rahatça çalıştırılabilir