12 puan yazan GN⁺ 2025-04-21 | 1 yorum | WhatsApp'ta paylaş
  • Geçen ay duyurulan Gemma 3, en gelişmiş performansı sunan açık bir yapay zeka modeli ve NVIDIA H100 gibi tek bir yüksek performanslı GPU'da bile çalışabiliyor
  • QAT (Quantization-Aware Training) tekniğinin uygulandığı hafifletilmiş sürüm yayımlandı; böylece artık tüketici GPU'larında da çalışabiliyor
  • int4 nicemleme sayesinde bellek kullanımı büyük ölçüde azalıyor ve performans kaybı en aza indiriliyor
  • QAT modelleri RTX 3090, RTX 4060 gibi yaygın GPU'larda da çalışabiliyor ve Hugging Face, Ollama, LM Studio gibi platformlarda doğrudan kullanılabiliyor
  • Topluluk sürümündeki çeşitli PTQ modelleri de birlikte sunuluyor, böylece esnek seçim mümkün oluyor

Gemma 3'e giriş ve performans genel görünümü

  • Google'ın duyurduğu en yeni açık model Gemma 3, güçlü performansa sahip bir büyük dil modeli
  • BF16 (16 bit kayan nokta) hassasiyetiyle NVIDIA H100 GPU üzerinde çalışabiliyor ve üstün Chatbot Arena Elo puanı kaydediyor
  • BF16 kullanılmasının nedeni, modeller arası performans karşılaştırmasını adil kılmak; böylece farklı optimizasyon yöntemleri hariç tutularak modelin kendi performansı karşılaştırılabiliyor

Erişilebilirliği artırmak için QAT tabanlı nicemleme

  • Mevcut büyük modeller yüksek özellikli bulut ortamları gerektiriyordu, ancak tüketici donanımında da çalışmasını sağlamak için QAT tekniği uygulandı
  • Nicemleme (Quantization), model içindeki sayısal hassasiyeti azaltarak bellek kullanımını düşürür ve çalıştırmayı hızlandırır
  • Örneğin BF16 yerine int4 biçimi kullanıldığında 4 katın üzerinde sıkıştırma etkisi elde edilir

QAT ile kaliteyi korumak

  • Basit bir sonradan nicemleme yerine, eğitim sırasında nicemlemeyi hesaba katan QAT (Quantization-Aware Training) yaklaşımı kullanıldı
  • Eğitim sürecinde yaklaşık 5.000 adım boyunca nicemlenmemiş checkpoint'in tahmin olasılıkları hedef değer olarak kullanıldı
  • Bu yöntemle Q4_0 nicemlemesinde Perplexity düşüş oranı %54 azaltıldı

VRAM kullanımında çarpıcı düşüş

  • int4 nicemlemenin sağladığı VRAM tasarrufu oldukça büyük; model bazında düşüş aşağıdaki gibi:

    • Gemma 3 27B: 54GB → 14.1GB
    • Gemma 3 12B: 24GB → 6.6GB
    • Gemma 3 4B: 8GB → 2.6GB
    • Gemma 3 1B: 2GB → 0.5GB
  • Bu sayılar yalnızca model ağırlıklarını yüklemek için gereken VRAM'i içerir; çalışma sırasında gereken KV cache ise ek VRAM ister

Çeşitli cihazlarda çalıştırılabilir

  • Gemma 3 27B (int4): RTX 3090 (24GB VRAM) üzerinde yerelde çalıştırılabilir
  • Gemma 3 12B (int4): RTX 4060 Laptop (8GB VRAM) üzerinde de sorunsuz çalışır
  • Gemma 3 4B, 1B: akıllı telefonlar ve düşük özellikli cihazlarda da çalıştırılabilir

Kolay entegrasyon ve kullanım

  • QAT modelleri çeşitli platform ve araçlarda doğrudan kullanılabiliyor:

    • Ollama: tek satırlık komutla çalıştırma
    • LM Studio: GUI ortamında indirme ve çalıştırma
    • MLX: Apple Silicon üzerinde yüksek verimli çıkarım desteği
    • Gemma.cpp: CPU ortamında yüksek performanslı çalışma
    • llama.cpp: GGUF formatıyla kolay entegrasyon

Gemmaverse topluluk modelleri

  • Resmî QAT modellerinin yanı sıra çeşitli topluluk PTQ modelleri de sunuluyor
  • Başlıca katkı sağlayanlar: Bartowski, Unsloth, GGML
  • Farklı modeller arasından hız, boyut ve kalite dengesi gözetilerek seçim yapılabiliyor

Hemen başlamak mümkün

  • Yapay zekanın yaygınlaşması için önemli bir adım olarak, Gemma 3'ün QAT sürümü artık herkes tarafından yerelde çalıştırılabiliyor
  • Çalıştırma yöntemleri:

1 yorum

 
GN⁺ 2025-04-21
Hacker News görüşleri
  • gemma-3-27b-it-qat-4bit modeli, Mistral Small 3.1 24B ile birlikte yeni tercih edilen modelim

    • M2 64GB üzerinde Ollama ve MLX aracılığıyla kullanıyorum; bellek kullanımı düşük olduğu için diğer uygulamaları çalıştırmak için yeterince boş alan kalıyor
    • LLM araçları için eklenti yazarken başarılı sonuçlar aldım
  • Kişisel "ortam yoklama" sorularında 4bit QAT 27B modeli doğru yanıtlar veriyor

    • 13GB ağırlığa sığan bilgi yoğunluğuna şaşırdım
    • Deepmind'in Gemma 3 27B modeli, açık kaynak modeller arasında en etkileyicisi
  • İlk grafik, "Elo Score" karşılaştırmasını BF16 hassasiyetinde gösteriyor; ikinci grafik ise VRAM kullanımını karşılaştırıyor

    • BF16 ile QAT arasındaki kalite karşılaştırma grafiğinin olmaması üzücü
  • 32G bellekli Mac'te günlük işler için qwen2.5 yerine gemma3:27b-it-qat kullanıyorum

    • Python, Haskell ve Common Lisp geliştirmede çok faydalı
    • Açık kaynak bir modeli yerelde çalıştırmak tatmin edici
  • 16 çekirdekli AMD 3950x CPU üzerinde çalıştırıyorum; çeviri ve görsel açıklama işlerinde çok etkileyici

    • Çeviride, giriş dilini analiz etmesini engellemek için komutu ayarlıyorum
  • En güncel QAT gemma3:27b sürümünü indirdikten sonra performans 1.47 kat arttı

  • Yerel LLM'lerin şirketler tarafından birinci sınıf vatandaş gibi ele alınması gerekiyor

    • İlk grafik, DeepSeek r1'i FP16 ile çalıştırmak için gereken H100 sayısı konusunda yanlış anlaşılmaya yol açabilir
  • Microsoft ve Apple, AI PC ve Apple Intelligence'ı tanıttı; ancak gerçekte tüketici GPU'larında kullanılabilen modeller yalnızca üst seviye GPU'larda mümkün

  • Gemma 3, Llama 4'ten çok daha iyi

    • Meta, LLM pazarındaki konumunu kaybedebilir
    • Llama 4'ün model boyutu çok büyük olduğu için kullanıcıları kısıtlıyor
    • Gemma 3, her donanım ölçeğinde yaygın şekilde kullanılabiliyor
  • Ollama'da kullanılabiliyor