1 puan yazan GN⁺ 4 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • Gemma 4 kuantalama farkındalıklı eğitim (QAT) kontrol noktaları, sıradan uç cihazlar ve tüketici GPU'larında yerel çalıştırmayı desteklemek için bellek gereksinimlerini ve cihaz üstü performansı optimize eder
  • QAT, eğitim sırasında kuantalamayı simüle ederek sıkıştırma sırasında kalite kaybını azaltır ve standart PTQ taban çizgisine göre genel olarak daha yüksek kalite üretir
  • Yayınlanan kontrol noktaları Q4_0 biçimini ve mobil odaklı biçimi hedefler; mobil biçim, Gemma 4 E2B'nin bellek ayak izini 1GB'a düşürür
  • Mobil şema; statik aktivasyonlar, kanal başına kuantalama, seçici 2 bit kuantalama ve embedding·KV cache optimizasyonuyla mobil çiplerin iş yükünü ve aktif bellek kullanımını azaltır
  • Hugging Face ağırlıkları, llama.cpp·Ollama·LM Studio, LiteRT-LM·Transformers.js, SGLang·vLLM·MLX·Unsloth desteğiyle yerel çalıştırma, cihaz üstü dağıtım ve ince ayar yapılabilir

Yayınlanma arka planı ve kapsam

  • Gemma 4 çıkışından iki ay sonra Google, çıkarım hızlandırma için Multi-Token Prediction(MTP) ve E4B·26B MOE modelleri arasını dolduran 12B modelini tanıtmasının ardından QAT kontrol noktalarını yayınladı
  • Yeni kontrol noktaları, Gemma 4'ü sıradan uç cihazlar ve tüketici GPU'larında yerel olarak çalıştırılabilir hale getirmeye yönelik bir verimlilik çalışmasıdır
  • QAT, eğitim sırasında kuantalamayı simüle ederek model sıkıştırmasında kalite kaybını en aza indiren bir yöntemdir
  • Bu sürüm, popüler Q4_0 kuantalama biçimi için QAT kontrol noktaları ve mobil kullanım senaryolarına özel yeni bir kuantalama biçimi sunar

Sıkıştırma ve kalite dengesi

  • Kuantalama, modelleri tüketici donanımında çalıştırmak için temel bir teknolojidir; bellek ayak izini azaltır ve decode hızını artırır
  • Standart eğitim sonrası kuantalama (PTQ) çoğu zaman performans düşüşüne yol açsa da QAT, kuantalama sürecini doğrudan eğitime entegre eder
  • PTQ da kalite korumada etkilidir, ancak QAT sonuçları standart PTQ taban çizgisine göre daha yüksek genel kalite üretir
  • Google, tüm modellerde performansı en üst düzeye çıkarmak için Q4_0 biçimine QAT reçetesini uyguladı; E2B·E4B uç modelleri içinse mobil odaklı bir kuantalama şeması ayrıca tasarladı

Mobil optimizasyon yapısı

  • Standart sıkıştırma biçimleri mobil işlemcilerde verimli çalıştırma için çoğu zaman uygun değildir; bu nedenle Gemma 4, uç donanım için özelleştirilmiş bir mobil kuantalama şeması kullanır
  • Statik aktivasyonlar, veri ölçek ayarlarını eğitim sırasında önceden hesaplayarak mobil çiplerin iş yükünü azaltır ve yanıt hızını artırır
  • Kanal başına kuantalama, sıkıştırılmış veriyi mobil hızlandırıcı mimarisine uygun biçimde düzenleyerek yavaş dolaylı yöntemler olmadan yerel hesaplamayı mümkün kılar
  • Seçici 2 bit kuantalama, token üretim bölümünü 2 bit ile agresif biçimde sıkıştırırken temel çıkarım katmanlarını daha yüksek hassasiyette tutarak depolama alanından tasarruf sağlar
  • Embedding ve KV cache optimizasyonu, modelin kelime dağarcığı ve kısa süreli belleğinde sıkıştırmaya odaklanarak aktif bellek ayak izini büyük ölçüde azaltır ve uzun sohbetleri mümkün kılar
  • Ses·görüntü encoder'ına ihtiyaç duymayan kullanım senaryolarında yalnızca gerekli modalite dağıtılarak bellek ayak izi daha da azaltılabilir; Per-Layer Embeddings içermeyen Gemma 4 E2B salt metin modeli 1GB'ın altında bellek gerektirir

Kullanım yöntemleri ve araç desteği

  • Google, Q4_0 ve mobile model ağırlıklarını Hugging Face üzerinden sunuyor
  • GGUF biçimi doğrudan llama.cpp'de kullanılabilir, sıkıştırılmış tensörler vLLM için sağlanır ve diğer iş akışları için Q4_0 destekli biçimlere dönüştürülüp kuantalanabilen kuantalanmamış kontrol noktaları paylaşılır
  • Dağıtım yöntemleri dokümanda görülebilir
  • Masaüstünde llama.cpp, Ollama, LM Studio ile Gemma 4 QAT modelleri yerelde indirilebilir, yönetilebilir ve çalıştırılabilir
  • Cihaz üstü dağıtım için Google'ın hafif LiteRT-LM runtime'ı kullanılabilir; web'de ise Transformers.js ile doğrudan çalıştırılabilir
  • Büyük model serving için SGLang ve vLLM kullanılabilir; Apple Silicon optimizasyonu için MLX kullanılabilir
  • MTP QAT kontrol noktaları, modeli kuantalarken MTP hız artışını korur ve ağırlıklar Hugging Face Transformers ile Unsloth üzerinden doğrudan ince ayarlanabilir

1 yorum

 
GN⁺ 4 시간 전
Hacker News yorumları
  • Mac’te uvx litert-lm run ile Gemma 4 E2B’yi yerelde çalıştırmayı denedim; ilk çalıştırmada ~/.cache/huggingface/hub/models--litert-community--gemma-4-E2B-it-litert-lm konumuna 3.2GB indiriyor
    Bu boyuttaki bir modelin ses ve görüntü girdilerini de işleyebilmesi oldukça etkileyici; görüntü için --attachment image.jpg --prompt describe, ses içinse --attachment audio.wav --prompt transcribe şeklinde çalıştırılabiliyor
    Pelikan SVG çıktısının kendisi pek iyi değildi ama 3.2GB’lık bir dosyanın geçerli bir SVG üretebilmesi şaşırtıcıydı: https://gist.github.com/simonw/94b318afde4b1ce5ff67d4b5d0362...

    • Bunun gerçekten kuantizasyon farkındalıklı eğitim (QAT) olup olmadığından emin değilim
      MLX Community modellerinde bu isimde geçiyor ama burada modellerde öyle yazmıyor ve yükleme tarihleri de tam olarak uyuşuyor gibi görünmüyor
    • Yalnızca metin için 0.8GB sürüm de olması şaşırtıcı
      Artık cihaz içinde video ve sesi anlayan temel gerçek zamanlı konuşmalar mümkün hale geldi
    • Ayrı olarak, uvx kullanması gerçekten çok rahat
      Keşke Nvidia da insanları Docker etrafından dolanmak zorunda bırakmak yerine bunu birinci sınıf şekilde desteklese
  • Bir de Unsloth koleksiyonu var [0] ve sonuçlar da yayımlanmış [1]
    Kuantize edilmemiş BF16 modele kıyasla neredeyse %100 doğruluğa çok yakın görünüyor ve yazıdaki Google’ın özgün QAT’inden daha iyiymiş gibi duruyor
    Ben de kişisel olarak telefona gömülü model varken Unsloth Studio ve API ile 2B modeli web araması ve yapılandırılmış JSON çıktısı için kullanıyorum; bu kullanım için gayet iyi uyuyor
    [0] https://huggingface.co/collections/unsloth/gemma-4-qat
    [1] https://unsloth.ai/docs/models/gemma-4/qat#qat-analysis

    • Sanırım o grafiği yanlış yorumlamışsın
      Orada görünen normal BF16 değil, BF16 QAT Q4_0
      Anlamı daha çok şu: Google modeli 4 bit’e kuantize ettikten sonra, alt seviye paketleyicilerle uyumluluk ve kullanım kolaylığı için sonucu BF16 biçiminde saklamış
      Bu, küçük 8 bit sayıları 32 bit tamsayıların içine koymaya benziyor; yani kuantize edilmemiş BF16’nın %100’üne yakın demek değil
      Yine de Google’ın yayımladığı 4 bit QAT Q4_0’ın neden BF16 QAT Q4_0’ın tam %100’ü olmadığını merak ediyorum. İki paketleme türü arasındaki dönüşüm ek kuantizasyon olmadan sadece bit işlemi olmalı gibi geliyor, ama Unsloth bunun ızgara hizalaması sorunu olduğunu söylüyor
      Bunun dışında Google, Qwen gibi küçük model üreticilerinin yeni modeller çıkarırken yalnızca BF16 benchmark’ları göstermesinden hoşlanmıyorum. Gerçekte insanlar 4~8 bit kuantizasyon çalıştırıyor ve 4 bit ile 6 bitte ne kadar kayıp yaşandığını anlamak çok zor
    • Kafam karıştı; Unsloth modeli yaklaşık 600MB iken Google tarafı 7GB mı?
  • Sadece bu haftaya bakınca bile Gemma ekosisteminin ne kadar hızlı geliştiği etkileyici
    Gemma 12B, çoklu token tahmini ve resmi kuantize modeller çıktı; Google’ın bu yayın akışına gerçekten ciddi biçimde yüklendiği hissi veriyor, bu da heyecan verici

  • WWDC’den hemen önceki cuma günü olması ve Apple’ın Google modeli tabanlı “geliştirilmiş” Siri’yi duyuracak olmasının dikkat çekici olduğu söylenebilir
    Şu anda kapalı bir ortaklık olabilir ama Google’ın, Apple’ın gelecek hafta göstereceği modeli önceden yayımlıyor olması da mümkün
    Kesin bir bilgi yok, sadece bir tahmin

  • ollama ile hf.co/google/gemma-4-12B-it-qat-q4_0-gguf:Q4_0 modelini AMD Ryzen 9 8940HX, NVIDIA GeForce RTX 5060 8GB ve 14GB RAM’li bir dizüstünde çalıştırdım; beklediğimden hızlıydı

  • Gemma 4 12B’yi yayımlayıp(https://news.ycombinator.com/item?id=48385906), birkaç gün sonra resmi Q4_0 Gemma 4 12B sürümünü çıkarmak biraz tuhaf
    Yine de bu yazının Q4_0 Gemma 4 12B için tahmini VRAM kullanımını 6.7GB olarak vermesi iyi olmuş; Google’ın söylediği 16GB sınırına rahatça sığdığı iddiasıyla uyumlu ama bunun sonuçta sadece kuantize sürüm için geçerli olduğu da doğrulanmış oluyor
    Bununla ilgili olarak Google’ın macOS için yeni yayımladığı Edge Gallery’de 16GB makinelerde bile RAM yetersizliği nedeniyle Gemma 4 12B’nin desteklenmediği açıkça yazıyor; ancak buradaki tahmini VRAM kullanımına bakılırsa Q4_0 varyantı kesinlikle sığmalı, dolayısıyla Google’ın bunu düzeltmesi gerekiyor

    • Birden fazla sürüm olmasının neden tuhaf olduğunu pek anlamıyorum
      Model ve varyantlar hazır oldukça yayımlanması, her şey aynı anda hazır olana kadar bekletilmesinden daha iyi bence
      Q4_0, mevcut Gemma 4 12B’nin basitçe kuantize edilmiş hali değil; kuantizasyon farkındalıklı eğitim kontrol noktası
    • Doğru anladıysam, 4Q ile QAT 4Q aynı şey değil
  • Google Pixel Intelligence, Apple Intelligence’ı geçebilir

  • 12B modelini 8GB VRAM’de çalıştırabilmek büyük bir değişim
    Küçük yerel modellerin ne kadar hızlı geliştiği gerçekten şaşırtıcı

  • Gemma 4 E2B Unsloth 4Q ile oldukça iyi sonuç aldım: https://youtube.com/shorts/XLsAnz5aAAI
    E4B modeli telefonumdaki TPU’ya sığmadığı için RAM’e swap ediyor, bu yüzden QAT sürümünün daha iyi doğruluk vermesi sevindirici

    • Bununla nasıl faydalı sonuç aldığını merak ediyorum
      Biz kuantize edilmemiş E2B modelini bile en basit gerçek sınıflandırma görevlerinde tamamen işe yaramaz bulduk
    • Bunun TPU’da mı çalıştığını yoksa RAM’e mi swap ettiğini nasıl anladığını merak ediyorum
      Ben de Pixel’imde denemek istiyorum