Google DeepMind'in Gemma 3 teknik raporu [pdf]

(storage.googleapis.com)

2 puan yazan GN⁺ 2025-03-13 | Henüz yorum yok. | WhatsApp'ta paylaş

Gemma 3, Google DeepMind'in 1B ile 27B arasında değişen parametre ölçeklerine sahip yeni hafif açık model ailesidir
Başlıca iyileştirmeler:
- Çok modlu yetenekler eklendi → görsel anlama kapasitesi içeriyor
- Uzun bağlam işleme → en fazla 128K token işleyebiliyor
- Çok dilli destek güçlendirildi → farklı dillerde performans artırıldı
- Bellek kullanımı optimize edildi → yerel ve global attention katman oranının (5:1) ayarlanmasıyla KV-cache bellek kullanımı azaltıldı
Bilgi damıtma (Knowledge Distillation) yöntemiyle eğitildi → önceki sürüme kıyasla performans artırıldı

Yalnızca decoder kullanan Transformer mimarisi korundu
Grouped-Query Attention (GQA) eklendi → daha verimli bir attention mekanizması uygulandı
Yerel/global attention oranı 5:1 olarak ayarlandı → yerel pencere boyutu 1024 token olarak korundu
RoPE (Rotary Position Embedding) temel frekansı 10K'dan 1M'e çıkarıldı → uzun bağlam desteği güçlendirildi
Görsel encoder: SigLIP tabanlı encoder kullanılıyor (400M parametre)

Görsel encoder: 896 x 896 çözünürlükte çalışıyor
Pan & Scan (P&S) tekniği uygulandı → standart olmayan en-boy oranlı görseller işlenebiliyor
Görsel encoder 4B, 12B ve 27B modelleri arasında paylaşılıyor → eğitim sırasında sabit tutuluyor

Eğitim bilgi damıtma yöntemiyle gerçekleştirildi
Eğitimde kullanılan token sayısı:
- 1B → 2T token
- 4B → 4T token
- 12B → 12T token
- 27B → 14T token
Çok dilli performans iyileştirildi → tek dilli ve paralel veri dahil edildi
Arındırma süreci → kişisel bilgiler ve hassas veriler kaldırıldı

Eğitim sonrası nicemleme uygulandı → int4, fp8 gibi çeşitli biçimlerde sunuluyor
Bellek tasarrufu etkisi:
- 27B model bazında:
  - Orijinal: 54GB → nicemleme sonrası: en az 14.1GB

Pekiştirmeli öğrenme ve bilgi damıtma birlikte uygulandı
Yardımseverlik, matematik, kodlama, akıl yürütme ve çok dilli yetenekler güçlendirildi
Pekiştirmeli öğrenmede kullanılan başlıca teknikler:
- BOND, WARM, WARP → ödül temelli pekiştirmeli öğrenme teknikleri uygulandı
Veri arındırıldı → gereksiz veriler ve hassas bilgiler kaldırıldı

Yerel:global attention oranı → performans ve bellek kullanımı açısından 5:1 en uygun oran
Kayar pencere boyutu → 1024 token, performans düşmeden bellek verimliliğini koruyor
KV cache bellek tasarrufu → yalnızca global attention'a kıyasla %15 azalma

Eğitimde 32K token ile başlandı → ardından 128K token seviyesine ölçeklendi
RoPE frekans ayarı → performans kaybı olmadan bağlam genişletildi

Girdi çözünürlüğü arttıkça performans yükseldi:
- 256 → 896 çözünürlük durumunda performans en fazla %20 arttı
Pan & Scan tekniği uygulandığında performans arttı:
- DocVQA → +4.8%
- InfoVQA → +17.0%

Ezberleme oranı (Memorization Rate) düşürüldü:
- Gemma 3'te Gemma 2'ye kıyasla bellek kullanımı azaldı
- Kişisel bilgi sızıntısı riski daha düşük

Google'ın güvenlik politikalarına göre zararlı içerik önleniyor:
- Çocuk istismarı, nefret söylemi, kişisel bilgi sızıntısı vb. engelleniyor
Güçlendirilmiş pekiştirmeli öğrenme ve RLHF uygulandı → zararlı içerik üretimi en aza indirildi

Gemma 3, önceki Gemma 2 modeline kıyasla çok modlu, çok dilli ve uzun bağlam performansında büyük gelişmeler sunuyor
Görsel anlama yeteneği ile matematik ve kodlama performansı güçlendirildi
Bellek kullanımının optimize edilmesiyle hem performans hem de verimlilik artırıldı

İlgili okumalar