Gemma 4 QAT modeli: mobil ve dizüstü verimliliği için sıkıştırma optimizasyonu

(blog.google)

4 puan yazan GN⁺ 2026-06-06 | 1 yorum | WhatsApp'ta paylaş

Gemma 4 kuantalama farkındalıklı eğitim (QAT) kontrol noktaları, sıradan uç cihazlar ve tüketici GPU'larında yerel çalıştırmayı desteklemek için bellek gereksinimlerini ve cihaz üstü performansı optimize eder
QAT, eğitim sırasında kuantalamayı simüle ederek sıkıştırma sırasında kalite kaybını azaltır ve standart PTQ taban çizgisine göre genel olarak daha yüksek kalite üretir
Yayınlanan kontrol noktaları Q4_0 biçimini ve mobil odaklı biçimi hedefler; mobil biçim, Gemma 4 E2B'nin bellek ayak izini 1GB'a düşürür
Mobil şema; statik aktivasyonlar, kanal başına kuantalama, seçici 2 bit kuantalama ve embedding·KV cache optimizasyonuyla mobil çiplerin iş yükünü ve aktif bellek kullanımını azaltır
Hugging Face ağırlıkları, llama.cpp·Ollama·LM Studio, LiteRT-LM·Transformers.js, SGLang·vLLM·MLX·Unsloth desteğiyle yerel çalıştırma, cihaz üstü dağıtım ve ince ayar yapılabilir

Yayınlanma arka planı ve kapsam

Gemma 4 çıkışından iki ay sonra Google, çıkarım hızlandırma için Multi-Token Prediction(MTP) ve E4B·26B MOE modelleri arasını dolduran 12B modelini tanıtmasının ardından QAT kontrol noktalarını yayınladı
Yeni kontrol noktaları, Gemma 4'ü sıradan uç cihazlar ve tüketici GPU'larında yerel olarak çalıştırılabilir hale getirmeye yönelik bir verimlilik çalışmasıdır
QAT, eğitim sırasında kuantalamayı simüle ederek model sıkıştırmasında kalite kaybını en aza indiren bir yöntemdir
Bu sürüm, popüler Q4_0 kuantalama biçimi için QAT kontrol noktaları ve mobil kullanım senaryolarına özel yeni bir kuantalama biçimi sunar

Sıkıştırma ve kalite dengesi

Kuantalama, modelleri tüketici donanımında çalıştırmak için temel bir teknolojidir; bellek ayak izini azaltır ve decode hızını artırır
Standart eğitim sonrası kuantalama (PTQ) çoğu zaman performans düşüşüne yol açsa da QAT, kuantalama sürecini doğrudan eğitime entegre eder
PTQ da kalite korumada etkilidir, ancak QAT sonuçları standart PTQ taban çizgisine göre daha yüksek genel kalite üretir
Google, tüm modellerde performansı en üst düzeye çıkarmak için Q4_0 biçimine QAT reçetesini uyguladı; E2B·E4B uç modelleri içinse mobil odaklı bir kuantalama şeması ayrıca tasarladı

Mobil optimizasyon yapısı

Standart sıkıştırma biçimleri mobil işlemcilerde verimli çalıştırma için çoğu zaman uygun değildir; bu nedenle Gemma 4, uç donanım için özelleştirilmiş bir mobil kuantalama şeması kullanır
Statik aktivasyonlar, veri ölçek ayarlarını eğitim sırasında önceden hesaplayarak mobil çiplerin iş yükünü azaltır ve yanıt hızını artırır
Kanal başına kuantalama, sıkıştırılmış veriyi mobil hızlandırıcı mimarisine uygun biçimde düzenleyerek yavaş dolaylı yöntemler olmadan yerel hesaplamayı mümkün kılar
Seçici 2 bit kuantalama, token üretim bölümünü 2 bit ile agresif biçimde sıkıştırırken temel çıkarım katmanlarını daha yüksek hassasiyette tutarak depolama alanından tasarruf sağlar
Embedding ve KV cache optimizasyonu, modelin kelime dağarcığı ve kısa süreli belleğinde sıkıştırmaya odaklanarak aktif bellek ayak izini büyük ölçüde azaltır ve uzun sohbetleri mümkün kılar
Ses·görüntü encoder'ına ihtiyaç duymayan kullanım senaryolarında yalnızca gerekli modalite dağıtılarak bellek ayak izi daha da azaltılabilir; Per-Layer Embeddings içermeyen Gemma 4 E2B salt metin modeli 1GB'ın altında bellek gerektirir

Kullanım yöntemleri ve araç desteği

Google, Q4_0 ve mobile model ağırlıklarını Hugging Face üzerinden sunuyor
GGUF biçimi doğrudan llama.cpp'de kullanılabilir, sıkıştırılmış tensörler vLLM için sağlanır ve diğer iş akışları için Q4_0 destekli biçimlere dönüştürülüp kuantalanabilen kuantalanmamış kontrol noktaları paylaşılır
Dağıtım yöntemleri dokümanda görülebilir
Masaüstünde llama.cpp, Ollama, LM Studio ile Gemma 4 QAT modelleri yerelde indirilebilir, yönetilebilir ve çalıştırılabilir
Cihaz üstü dağıtım için Google'ın hafif LiteRT-LM runtime'ı kullanılabilir; web'de ise Transformers.js ile doğrudan çalıştırılabilir
Büyük model serving için SGLang ve vLLM kullanılabilir; Apple Silicon optimizasyonu için MLX kullanılabilir
MTP QAT kontrol noktaları, modeli kuantalarken MTP hız artışını korur ve ağırlıklar Hugging Face Transformers ile Unsloth üzerinden doğrudan ince ayarlanabilir

1 yorum

GN⁺ 2026-06-06

Hacker News yorumları

Mac’te uvx litert-lm run ile Gemma 4 E2B’yi yerelde çalıştırmayı denedim; ilk çalıştırmada ~/.cache/huggingface/hub/models--litert-community--gemma-4-E2B-it-litert-lm konumuna 3.2GB indiriyor
Bu boyuttaki bir modelin ses ve görüntü girdilerini de işleyebilmesi oldukça etkileyici; görüntü için --attachment image.jpg --prompt describe, ses içinse --attachment audio.wav --prompt transcribe şeklinde çalıştırılabiliyor
Pelikan SVG çıktısının kendisi pek iyi değildi ama 3.2GB’lık bir dosyanın geçerli bir SVG üretebilmesi şaşırtıcıydı: https://gist.github.com/simonw/94b318afde4b1ce5ff67d4b5d0362...
- Bunun gerçekten kuantizasyon farkındalıklı eğitim (QAT) olup olmadığından emin değilim
  MLX Community modellerinde bu isimde geçiyor ama burada modellerde öyle yazmıyor ve yükleme tarihleri de tam olarak uyuşuyor gibi görünmüyor
- Yalnızca metin için 0.8GB sürüm de olması şaşırtıcı
  Artık cihaz içinde video ve sesi anlayan temel gerçek zamanlı konuşmalar mümkün hale geldi
- Ayrı olarak, uvx kullanması gerçekten çok rahat
  Keşke Nvidia da insanları Docker etrafından dolanmak zorunda bırakmak yerine bunu birinci sınıf şekilde desteklese
Bir de Unsloth koleksiyonu var [0] ve sonuçlar da yayımlanmış [1]
Kuantize edilmemiş BF16 modele kıyasla neredeyse %100 doğruluğa çok yakın görünüyor ve yazıdaki Google’ın özgün QAT’inden daha iyiymiş gibi duruyor
Ben de kişisel olarak telefona gömülü model varken Unsloth Studio ve API ile 2B modeli web araması ve yapılandırılmış JSON çıktısı için kullanıyorum; bu kullanım için gayet iyi uyuyor
[0] https://huggingface.co/collections/unsloth/gemma-4-qat
[1] https://unsloth.ai/docs/models/gemma-4/qat#qat-analysis
- Sanırım o grafiği yanlış yorumlamışsın
  Orada görünen normal BF16 değil, BF16 QAT Q4_0
  Anlamı daha çok şu: Google modeli 4 bit’e kuantize ettikten sonra, alt seviye paketleyicilerle uyumluluk ve kullanım kolaylığı için sonucu BF16 biçiminde saklamış
  Bu, küçük 8 bit sayıları 32 bit tamsayıların içine koymaya benziyor; yani kuantize edilmemiş BF16’nın %100’üne yakın demek değil
  Yine de Google’ın yayımladığı 4 bit QAT Q4_0’ın neden BF16 QAT Q4_0’ın tam %100’ü olmadığını merak ediyorum. İki paketleme türü arasındaki dönüşüm ek kuantizasyon olmadan sadece bit işlemi olmalı gibi geliyor, ama Unsloth bunun ızgara hizalaması sorunu olduğunu söylüyor
  Bunun dışında Google, Qwen gibi küçük model üreticilerinin yeni modeller çıkarırken yalnızca BF16 benchmark’ları göstermesinden hoşlanmıyorum. Gerçekte insanlar 4~8 bit kuantizasyon çalıştırıyor ve 4 bit ile 6 bitte ne kadar kayıp yaşandığını anlamak çok zor
- Kafam karıştı; Unsloth modeli yaklaşık 600MB iken Google tarafı 7GB mı?
Sadece bu haftaya bakınca bile Gemma ekosisteminin ne kadar hızlı geliştiği etkileyici
Gemma 12B, çoklu token tahmini ve resmi kuantize modeller çıktı; Google’ın bu yayın akışına gerçekten ciddi biçimde yüklendiği hissi veriyor, bu da heyecan verici
WWDC’den hemen önceki cuma günü olması ve Apple’ın Google modeli tabanlı “geliştirilmiş” Siri’yi duyuracak olmasının dikkat çekici olduğu söylenebilir
Şu anda kapalı bir ortaklık olabilir ama Google’ın, Apple’ın gelecek hafta göstereceği modeli önceden yayımlıyor olması da mümkün
Kesin bir bilgi yok, sadece bir tahmin
ollama ile hf.co/google/gemma-4-12B-it-qat-q4_0-gguf:Q4_0 modelini AMD Ryzen 9 8940HX, NVIDIA GeForce RTX 5060 8GB ve 14GB RAM’li bir dizüstünde çalıştırdım; beklediğimden hızlıydı
Gemma 4 12B’yi yayımlayıp(https://news.ycombinator.com/item?id=48385906), birkaç gün sonra resmi Q4_0 Gemma 4 12B sürümünü çıkarmak biraz tuhaf
Yine de bu yazının Q4_0 Gemma 4 12B için tahmini VRAM kullanımını 6.7GB olarak vermesi iyi olmuş; Google’ın söylediği 16GB sınırına rahatça sığdığı iddiasıyla uyumlu ama bunun sonuçta sadece kuantize sürüm için geçerli olduğu da doğrulanmış oluyor
Bununla ilgili olarak Google’ın macOS için yeni yayımladığı Edge Gallery’de 16GB makinelerde bile RAM yetersizliği nedeniyle Gemma 4 12B’nin desteklenmediği açıkça yazıyor; ancak buradaki tahmini VRAM kullanımına bakılırsa Q4_0 varyantı kesinlikle sığmalı, dolayısıyla Google’ın bunu düzeltmesi gerekiyor
- Birden fazla sürüm olmasının neden tuhaf olduğunu pek anlamıyorum
  Model ve varyantlar hazır oldukça yayımlanması, her şey aynı anda hazır olana kadar bekletilmesinden daha iyi bence
  Q4_0, mevcut Gemma 4 12B’nin basitçe kuantize edilmiş hali değil; kuantizasyon farkındalıklı eğitim kontrol noktası
- Doğru anladıysam, 4Q ile QAT 4Q aynı şey değil
Google Pixel Intelligence, Apple Intelligence’ı geçebilir
12B modelini 8GB VRAM’de çalıştırabilmek büyük bir değişim
Küçük yerel modellerin ne kadar hızlı geliştiği gerçekten şaşırtıcı
Gemma 4 E2B Unsloth 4Q ile oldukça iyi sonuç aldım: https://youtube.com/shorts/XLsAnz5aAAI
E4B modeli telefonumdaki TPU’ya sığmadığı için RAM’e swap ediyor, bu yüzden QAT sürümünün daha iyi doğruluk vermesi sevindirici
- Bununla nasıl faydalı sonuç aldığını merak ediyorum
  Biz kuantize edilmemiş E2B modelini bile en basit gerçek sınıflandırma görevlerinde tamamen işe yaramaz bulduk
- Bunun TPU’da mı çalıştığını yoksa RAM’e mi swap ettiğini nasıl anladığını merak ediyorum
  Ben de Pixel’imde denemek istiyorum

Gemma 4 QAT modeli: mobil ve dizüstü verimliliği için sıkıştırma optimizasyonu

Yayınlanma arka planı ve kapsam

Sıkıştırma ve kalite dengesi

Mobil optimizasyon yapısı

Kullanım yöntemleri ve araç desteği

İlgili okumalar

1 yorum

Hacker News yorumları