Gemma 3 QAT modelleri: En gelişmiş yapay zekayı tüketici GPU'larına getirmek
(developers.googleblog.com)- Geçen ay duyurulan Gemma 3, en gelişmiş performansı sunan açık bir yapay zeka modeli ve NVIDIA H100 gibi tek bir yüksek performanslı GPU'da bile çalışabiliyor
- QAT (Quantization-Aware Training) tekniğinin uygulandığı hafifletilmiş sürüm yayımlandı; böylece artık tüketici GPU'larında da çalışabiliyor
- int4 nicemleme sayesinde bellek kullanımı büyük ölçüde azalıyor ve performans kaybı en aza indiriliyor
- QAT modelleri RTX 3090, RTX 4060 gibi yaygın GPU'larda da çalışabiliyor ve Hugging Face, Ollama, LM Studio gibi platformlarda doğrudan kullanılabiliyor
- Topluluk sürümündeki çeşitli PTQ modelleri de birlikte sunuluyor, böylece esnek seçim mümkün oluyor
Gemma 3'e giriş ve performans genel görünümü
- Google'ın duyurduğu en yeni açık model Gemma 3, güçlü performansa sahip bir büyük dil modeli
- BF16 (16 bit kayan nokta) hassasiyetiyle NVIDIA H100 GPU üzerinde çalışabiliyor ve üstün Chatbot Arena Elo puanı kaydediyor
- BF16 kullanılmasının nedeni, modeller arası performans karşılaştırmasını adil kılmak; böylece farklı optimizasyon yöntemleri hariç tutularak modelin kendi performansı karşılaştırılabiliyor
Erişilebilirliği artırmak için QAT tabanlı nicemleme
- Mevcut büyük modeller yüksek özellikli bulut ortamları gerektiriyordu, ancak tüketici donanımında da çalışmasını sağlamak için QAT tekniği uygulandı
- Nicemleme (Quantization), model içindeki sayısal hassasiyeti azaltarak bellek kullanımını düşürür ve çalıştırmayı hızlandırır
- Örneğin BF16 yerine int4 biçimi kullanıldığında 4 katın üzerinde sıkıştırma etkisi elde edilir
QAT ile kaliteyi korumak
- Basit bir sonradan nicemleme yerine, eğitim sırasında nicemlemeyi hesaba katan QAT (Quantization-Aware Training) yaklaşımı kullanıldı
- Eğitim sürecinde yaklaşık 5.000 adım boyunca nicemlenmemiş checkpoint'in tahmin olasılıkları hedef değer olarak kullanıldı
- Bu yöntemle Q4_0 nicemlemesinde Perplexity düşüş oranı %54 azaltıldı
VRAM kullanımında çarpıcı düşüş
-
int4 nicemlemenin sağladığı VRAM tasarrufu oldukça büyük; model bazında düşüş aşağıdaki gibi:
- Gemma 3 27B: 54GB → 14.1GB
- Gemma 3 12B: 24GB → 6.6GB
- Gemma 3 4B: 8GB → 2.6GB
- Gemma 3 1B: 2GB → 0.5GB
-
Bu sayılar yalnızca model ağırlıklarını yüklemek için gereken VRAM'i içerir; çalışma sırasında gereken KV cache ise ek VRAM ister
Çeşitli cihazlarda çalıştırılabilir
- Gemma 3 27B (int4): RTX 3090 (24GB VRAM) üzerinde yerelde çalıştırılabilir
- Gemma 3 12B (int4): RTX 4060 Laptop (8GB VRAM) üzerinde de sorunsuz çalışır
- Gemma 3 4B, 1B: akıllı telefonlar ve düşük özellikli cihazlarda da çalıştırılabilir
Kolay entegrasyon ve kullanım
-
QAT modelleri çeşitli platform ve araçlarda doğrudan kullanılabiliyor:
- Ollama: tek satırlık komutla çalıştırma
- LM Studio: GUI ortamında indirme ve çalıştırma
- MLX: Apple Silicon üzerinde yüksek verimli çıkarım desteği
- Gemma.cpp: CPU ortamında yüksek performanslı çalışma
- llama.cpp: GGUF formatıyla kolay entegrasyon
Gemmaverse topluluk modelleri
- Resmî QAT modellerinin yanı sıra çeşitli topluluk PTQ modelleri de sunuluyor
- Başlıca katkı sağlayanlar: Bartowski, Unsloth, GGML
- Farklı modeller arasından hız, boyut ve kalite dengesi gözetilerek seçim yapılabiliyor
Hemen başlamak mümkün
- Yapay zekanın yaygınlaşması için önemli bir adım olarak, Gemma 3'ün QAT sürümü artık herkes tarafından yerelde çalıştırılabiliyor
- Çalıştırma yöntemleri:
- PC: Ollama
- Model indirme: Hugging Face, Kaggle
- Mobilde çalıştırma: Google AI Edge kullanımı
1 yorum
Hacker News görüşleri
gemma-3-27b-it-qat-4bitmodeli, Mistral Small 3.1 24B ile birlikte yeni tercih edilen modelimKişisel "ortam yoklama" sorularında 4bit QAT 27B modeli doğru yanıtlar veriyor
İlk grafik, "Elo Score" karşılaştırmasını BF16 hassasiyetinde gösteriyor; ikinci grafik ise VRAM kullanımını karşılaştırıyor
32G bellekli Mac'te günlük işler için
qwen2.5yerinegemma3:27b-it-qatkullanıyorum16 çekirdekli AMD 3950x CPU üzerinde çalıştırıyorum; çeviri ve görsel açıklama işlerinde çok etkileyici
En güncel QAT
gemma3:27bsürümünü indirdikten sonra performans 1.47 kat arttıYerel LLM'lerin şirketler tarafından birinci sınıf vatandaş gibi ele alınması gerekiyor
Microsoft ve Apple, AI PC ve Apple Intelligence'ı tanıttı; ancak gerçekte tüketici GPU'larında kullanılabilen modeller yalnızca üst seviye GPU'larda mümkün
Gemma 3, Llama 4'ten çok daha iyi
Ollama'da kullanılabiliyor