Gemma 3 QAT modelleri: En gelişmiş yapay zekayı tüketici GPU'larına getirmek

(developers.googleblog.com)

12 puan yazan GN⁺ 2025-04-21 | 1 yorum | WhatsApp'ta paylaş

Geçen ay duyurulan Gemma 3, en gelişmiş performansı sunan açık bir yapay zeka modeli ve NVIDIA H100 gibi tek bir yüksek performanslı GPU'da bile çalışabiliyor
QAT (Quantization-Aware Training) tekniğinin uygulandığı hafifletilmiş sürüm yayımlandı; böylece artık tüketici GPU'larında da çalışabiliyor
int4 nicemleme sayesinde bellek kullanımı büyük ölçüde azalıyor ve performans kaybı en aza indiriliyor
QAT modelleri RTX 3090, RTX 4060 gibi yaygın GPU'larda da çalışabiliyor ve Hugging Face, Ollama, LM Studio gibi platformlarda doğrudan kullanılabiliyor
Topluluk sürümündeki çeşitli PTQ modelleri de birlikte sunuluyor, böylece esnek seçim mümkün oluyor

Gemma 3'e giriş ve performans genel görünümü

Google'ın duyurduğu en yeni açık model Gemma 3, güçlü performansa sahip bir büyük dil modeli
BF16 (16 bit kayan nokta) hassasiyetiyle NVIDIA H100 GPU üzerinde çalışabiliyor ve üstün Chatbot Arena Elo puanı kaydediyor
BF16 kullanılmasının nedeni, modeller arası performans karşılaştırmasını adil kılmak; böylece farklı optimizasyon yöntemleri hariç tutularak modelin kendi performansı karşılaştırılabiliyor

Erişilebilirliği artırmak için QAT tabanlı nicemleme

Mevcut büyük modeller yüksek özellikli bulut ortamları gerektiriyordu, ancak tüketici donanımında da çalışmasını sağlamak için QAT tekniği uygulandı
Nicemleme (Quantization), model içindeki sayısal hassasiyeti azaltarak bellek kullanımını düşürür ve çalıştırmayı hızlandırır
Örneğin BF16 yerine int4 biçimi kullanıldığında 4 katın üzerinde sıkıştırma etkisi elde edilir

QAT ile kaliteyi korumak

Basit bir sonradan nicemleme yerine, eğitim sırasında nicemlemeyi hesaba katan QAT (Quantization-Aware Training) yaklaşımı kullanıldı
Eğitim sürecinde yaklaşık 5.000 adım boyunca nicemlenmemiş checkpoint'in tahmin olasılıkları hedef değer olarak kullanıldı
Bu yöntemle Q4_0 nicemlemesinde Perplexity düşüş oranı %54 azaltıldı

VRAM kullanımında çarpıcı düşüş

int4 nicemlemenin sağladığı VRAM tasarrufu oldukça büyük; model bazında düşüş aşağıdaki gibi:
Reklam
- Gemma 3 27B: 54GB → 14.1GB
- Gemma 3 12B: 24GB → 6.6GB
- Gemma 3 4B: 8GB → 2.6GB
- Gemma 3 1B: 2GB → 0.5GB
Bu sayılar yalnızca model ağırlıklarını yüklemek için gereken VRAM'i içerir; çalışma sırasında gereken KV cache ise ek VRAM ister

Çeşitli cihazlarda çalıştırılabilir

Gemma 3 27B (int4): RTX 3090 (24GB VRAM) üzerinde yerelde çalıştırılabilir
Gemma 3 12B (int4): RTX 4060 Laptop (8GB VRAM) üzerinde de sorunsuz çalışır
Gemma 3 4B, 1B: akıllı telefonlar ve düşük özellikli cihazlarda da çalıştırılabilir

Kolay entegrasyon ve kullanım

QAT modelleri çeşitli platform ve araçlarda doğrudan kullanılabiliyor:
Reklam
- Ollama: tek satırlık komutla çalıştırma
- LM Studio: GUI ortamında indirme ve çalıştırma
- MLX: Apple Silicon üzerinde yüksek verimli çıkarım desteği
- Gemma.cpp: CPU ortamında yüksek performanslı çalışma
- llama.cpp: GGUF formatıyla kolay entegrasyon

Gemmaverse topluluk modelleri

Resmî QAT modellerinin yanı sıra çeşitli topluluk PTQ modelleri de sunuluyor
Başlıca katkı sağlayanlar: Bartowski, Unsloth, GGML
Farklı modeller arasından hız, boyut ve kalite dengesi gözetilerek seçim yapılabiliyor

Hemen başlamak mümkün

Yapay zekanın yaygınlaşması için önemli bir adım olarak, Gemma 3'ün QAT sürümü artık herkes tarafından yerelde çalıştırılabiliyor
Çalıştırma yöntemleri:
- PC: Ollama
- Model indirme: Hugging Face, Kaggle
- Mobilde çalıştırma: Google AI Edge kullanımı

1 yorum

GN⁺ 2025-04-21

Hacker News görüşleri

gemma-3-27b-it-qat-4bit modeli, Mistral Small 3.1 24B ile birlikte yeni tercih edilen modelim
- M2 64GB üzerinde Ollama ve MLX aracılığıyla kullanıyorum; bellek kullanımı düşük olduğu için diğer uygulamaları çalıştırmak için yeterince boş alan kalıyor
- LLM araçları için eklenti yazarken başarılı sonuçlar aldım
Kişisel "ortam yoklama" sorularında 4bit QAT 27B modeli doğru yanıtlar veriyor
- 13GB ağırlığa sığan bilgi yoğunluğuna şaşırdım
- Deepmind'in Gemma 3 27B modeli, açık kaynak modeller arasında en etkileyicisi
İlk grafik, "Elo Score" karşılaştırmasını BF16 hassasiyetinde gösteriyor; ikinci grafik ise VRAM kullanımını karşılaştırıyor
- BF16 ile QAT arasındaki kalite karşılaştırma grafiğinin olmaması üzücü
32G bellekli Mac'te günlük işler için qwen2.5 yerine gemma3:27b-it-qat kullanıyorum
- Python, Haskell ve Common Lisp geliştirmede çok faydalı
- Açık kaynak bir modeli yerelde çalıştırmak tatmin edici
16 çekirdekli AMD 3950x CPU üzerinde çalıştırıyorum; çeviri ve görsel açıklama işlerinde çok etkileyici
- Çeviride, giriş dilini analiz etmesini engellemek için komutu ayarlıyorum
En güncel QAT gemma3:27b sürümünü indirdikten sonra performans 1.47 kat arttı
Yerel LLM'lerin şirketler tarafından birinci sınıf vatandaş gibi ele alınması gerekiyor
- İlk grafik, DeepSeek r1'i FP16 ile çalıştırmak için gereken H100 sayısı konusunda yanlış anlaşılmaya yol açabilir
Microsoft ve Apple, AI PC ve Apple Intelligence'ı tanıttı; ancak gerçekte tüketici GPU'larında kullanılabilen modeller yalnızca üst seviye GPU'larda mümkün
Gemma 3, Llama 4'ten çok daha iyi
- Meta, LLM pazarındaki konumunu kaybedebilir
- Llama 4'ün model boyutu çok büyük olduğu için kullanıcıları kısıtlıyor
- Gemma 3, her donanım ölçeğinde yaygın şekilde kullanılabiliyor
Ollama'da kullanılabiliyor

Gemma 3 QAT modelleri: En gelişmiş yapay zekayı tüketici GPU'larına getirmek

Gemma 3'e giriş ve performans genel görünümü

Erişilebilirliği artırmak için QAT tabanlı nicemleme

QAT ile kaliteyi korumak

VRAM kullanımında çarpıcı düşüş

Çeşitli cihazlarda çalıştırılabilir

Kolay entegrasyon ve kullanım

Gemmaverse topluluk modelleri

Hemen başlamak mümkün

İlgili okumalar

1 yorum

Hacker News görüşleri