- Gemma 3, Google DeepMind'in 1B ile 27B arasında değişen parametre ölçeklerine sahip yeni hafif açık model ailesidir
- Başlıca iyileştirmeler:
- Çok modlu yetenekler eklendi → görsel anlama kapasitesi içeriyor
- Uzun bağlam işleme → en fazla 128K token işleyebiliyor
- Çok dilli destek güçlendirildi → farklı dillerde performans artırıldı
- Bellek kullanımı optimize edildi → yerel ve global attention katman oranının (5:1) ayarlanmasıyla KV-cache bellek kullanımı azaltıldı
- Bilgi damıtma (Knowledge Distillation) yöntemiyle eğitildi → önceki sürüme kıyasla performans artırıldı
# Model mimarisi
- Yalnızca decoder kullanan Transformer mimarisi korundu
- Grouped-Query Attention (GQA) eklendi → daha verimli bir attention mekanizması uygulandı
- Yerel/global attention oranı 5:1 olarak ayarlandı → yerel pencere boyutu 1024 token olarak korundu
- RoPE (Rotary Position Embedding) temel frekansı 10K'dan 1M'e çıkarıldı → uzun bağlam desteği güçlendirildi
- Görsel encoder: SigLIP tabanlı encoder kullanılıyor (400M parametre)
# Görsel modalite
- Görsel encoder: 896 x 896 çözünürlükte çalışıyor
- Pan & Scan (P&S) tekniği uygulandı → standart olmayan en-boy oranlı görseller işlenebiliyor
- Görsel encoder 4B, 12B ve 27B modelleri arasında paylaşılıyor → eğitim sırasında sabit tutuluyor
# Ön eğitim (Pre-training)
- Eğitim bilgi damıtma yöntemiyle gerçekleştirildi
- Eğitimde kullanılan token sayısı:
- 1B → 2T token
- 4B → 4T token
- 12B → 12T token
- 27B → 14T token
- Çok dilli performans iyileştirildi → tek dilli ve paralel veri dahil edildi
- Arındırma süreci → kişisel bilgiler ve hassas veriler kaldırıldı
# Nicemleme farkındalıklı eğitim (Quantization Aware Training)
- Eğitim sonrası nicemleme uygulandı → int4, fp8 gibi çeşitli biçimlerde sunuluyor
- Bellek tasarrufu etkisi:
- 27B model bazında:
- Orijinal: 54GB → nicemleme sonrası: en az 14.1GB
# Komut ince ayarı (Instruction Tuning)
- Pekiştirmeli öğrenme ve bilgi damıtma birlikte uygulandı
- Yardımseverlik, matematik, kodlama, akıl yürütme ve çok dilli yetenekler güçlendirildi
- Pekiştirmeli öğrenmede kullanılan başlıca teknikler:
- BOND, WARM, WARP → ödül temelli pekiştirmeli öğrenme teknikleri uygulandı
- Veri arındırıldı → gereksiz veriler ve hassas bilgiler kaldırıldı
# Performans değerlendirmesi
LMSYS Chatbot Arena değerlendirme sonuçları
- Gemma 3 27B IT modelinin Elo skoru: 1338 → ilk 10 düzeyinde performans
- GPT-4.5 ve Grok-3-Preview'e yakın performans gösterdi
- Önceki sürüm Gemma 2 27B'ye göre 118 puan yükseldi
Standart benchmark performansı
- MMLU-Pro: 67.5 (Gemma 2'ye göre yaklaşık 10 puan artış)
- MATH: 89.0 (Gemma 2'ye göre yaklaşık 34 puan artış)
- LiveCodeBench: 29.7 (Gemma 2'ye göre yaklaşık 9 puan artış)
# Yapısal değişimlere göre performans analizi
- Yerel:global attention oranı → performans ve bellek kullanımı açısından 5:1 en uygun oran
- Kayar pencere boyutu → 1024 token, performans düşmeden bellek verimliliğini koruyor
- KV cache bellek tasarrufu → yalnızca global attention'a kıyasla %15 azalma
# Uzun bağlam desteğinin güçlendirilmesi
- Eğitimde 32K token ile başlandı → ardından 128K token seviyesine ölçeklendi
- RoPE frekans ayarı → performans kaybı olmadan bağlam genişletildi
# Görsel encoder performans değerlendirmesi
- Girdi çözünürlüğü arttıkça performans yükseldi:
- 256 → 896 çözünürlük durumunda performans en fazla %20 arttı
- Pan & Scan tekniği uygulandığında performans arttı:
- DocVQA → +4.8%
- InfoVQA → +17.0%
# Bellek ve gizlilik koruması
- Ezberleme oranı (Memorization Rate) düşürüldü:
- Gemma 3'te Gemma 2'ye kıyasla bellek kullanımı azaldı
- Kişisel bilgi sızıntısı riski daha düşük
# Sorumluluk, güvenlik ve emniyet
- Google'ın güvenlik politikalarına göre zararlı içerik önleniyor:
- Çocuk istismarı, nefret söylemi, kişisel bilgi sızıntısı vb. engelleniyor
- Güçlendirilmiş pekiştirmeli öğrenme ve RLHF uygulandı → zararlı içerik üretimi en aza indirildi
# Sonuç
- Gemma 3, önceki Gemma 2 modeline kıyasla çok modlu, çok dilli ve uzun bağlam performansında büyük gelişmeler sunuyor
- Görsel anlama yeteneği ile matematik ve kodlama performansı güçlendirildi
- Bellek kullanımının optimize edilmesiyle hem performans hem de verimlilik artırıldı
Henüz yorum yok.