2 puan yazan GN⁺ 2025-03-13 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Gemma 3, Google DeepMind'in 1B ile 27B arasında değişen parametre ölçeklerine sahip yeni hafif açık model ailesidir
  • Başlıca iyileştirmeler:
    • Çok modlu yetenekler eklendi → görsel anlama kapasitesi içeriyor
    • Uzun bağlam işleme → en fazla 128K token işleyebiliyor
    • Çok dilli destek güçlendirildi → farklı dillerde performans artırıldı
    • Bellek kullanımı optimize edildi → yerel ve global attention katman oranının (5:1) ayarlanmasıyla KV-cache bellek kullanımı azaltıldı
  • Bilgi damıtma (Knowledge Distillation) yöntemiyle eğitildi → önceki sürüme kıyasla performans artırıldı

# Model mimarisi

  • Yalnızca decoder kullanan Transformer mimarisi korundu
  • Grouped-Query Attention (GQA) eklendi → daha verimli bir attention mekanizması uygulandı
  • Yerel/global attention oranı 5:1 olarak ayarlandı → yerel pencere boyutu 1024 token olarak korundu
  • RoPE (Rotary Position Embedding) temel frekansı 10K'dan 1M'e çıkarıldı → uzun bağlam desteği güçlendirildi
  • Görsel encoder: SigLIP tabanlı encoder kullanılıyor (400M parametre)

# Görsel modalite

  • Görsel encoder: 896 x 896 çözünürlükte çalışıyor
  • Pan & Scan (P&S) tekniği uygulandı → standart olmayan en-boy oranlı görseller işlenebiliyor
  • Görsel encoder 4B, 12B ve 27B modelleri arasında paylaşılıyor → eğitim sırasında sabit tutuluyor

# Ön eğitim (Pre-training)

  • Eğitim bilgi damıtma yöntemiyle gerçekleştirildi
  • Eğitimde kullanılan token sayısı:
    • 1B → 2T token
    • 4B → 4T token
    • 12B → 12T token
    • 27B → 14T token
  • Çok dilli performans iyileştirildi → tek dilli ve paralel veri dahil edildi
  • Arındırma süreci → kişisel bilgiler ve hassas veriler kaldırıldı

# Nicemleme farkındalıklı eğitim (Quantization Aware Training)

  • Eğitim sonrası nicemleme uygulandı → int4, fp8 gibi çeşitli biçimlerde sunuluyor
  • Bellek tasarrufu etkisi:
    • 27B model bazında:
      • Orijinal: 54GB → nicemleme sonrası: en az 14.1GB

# Komut ince ayarı (Instruction Tuning)

  • Pekiştirmeli öğrenme ve bilgi damıtma birlikte uygulandı
  • Yardımseverlik, matematik, kodlama, akıl yürütme ve çok dilli yetenekler güçlendirildi
  • Pekiştirmeli öğrenmede kullanılan başlıca teknikler:
    • BOND, WARM, WARP → ödül temelli pekiştirmeli öğrenme teknikleri uygulandı
  • Veri arındırıldı → gereksiz veriler ve hassas bilgiler kaldırıldı

# Performans değerlendirmesi

LMSYS Chatbot Arena değerlendirme sonuçları

  • Gemma 3 27B IT modelinin Elo skoru: 1338 → ilk 10 düzeyinde performans
  • GPT-4.5 ve Grok-3-Preview'e yakın performans gösterdi
  • Önceki sürüm Gemma 2 27B'ye göre 118 puan yükseldi

Standart benchmark performansı

  • MMLU-Pro: 67.5 (Gemma 2'ye göre yaklaşık 10 puan artış)
  • MATH: 89.0 (Gemma 2'ye göre yaklaşık 34 puan artış)
  • LiveCodeBench: 29.7 (Gemma 2'ye göre yaklaşık 9 puan artış)

# Yapısal değişimlere göre performans analizi

  • Yerel:global attention oranı → performans ve bellek kullanımı açısından 5:1 en uygun oran
  • Kayar pencere boyutu → 1024 token, performans düşmeden bellek verimliliğini koruyor
  • KV cache bellek tasarrufu → yalnızca global attention'a kıyasla %15 azalma

# Uzun bağlam desteğinin güçlendirilmesi

  • Eğitimde 32K token ile başlandı → ardından 128K token seviyesine ölçeklendi
  • RoPE frekans ayarı → performans kaybı olmadan bağlam genişletildi

# Görsel encoder performans değerlendirmesi

  • Girdi çözünürlüğü arttıkça performans yükseldi:
    • 256 → 896 çözünürlük durumunda performans en fazla %20 arttı
  • Pan & Scan tekniği uygulandığında performans arttı:
    • DocVQA → +4.8%
    • InfoVQA → +17.0%

# Bellek ve gizlilik koruması

  • Ezberleme oranı (Memorization Rate) düşürüldü:
    • Gemma 3'te Gemma 2'ye kıyasla bellek kullanımı azaldı
    • Kişisel bilgi sızıntısı riski daha düşük

# Sorumluluk, güvenlik ve emniyet

  • Google'ın güvenlik politikalarına göre zararlı içerik önleniyor:
    • Çocuk istismarı, nefret söylemi, kişisel bilgi sızıntısı vb. engelleniyor
  • Güçlendirilmiş pekiştirmeli öğrenme ve RLHF uygulandı → zararlı içerik üretimi en aza indirildi

# Sonuç

  • Gemma 3, önceki Gemma 2 modeline kıyasla çok modlu, çok dilli ve uzun bağlam performansında büyük gelişmeler sunuyor
  • Görsel anlama yeteneği ile matematik ve kodlama performansı güçlendirildi
  • Bellek kullanımının optimize edilmesiyle hem performans hem de verimlilik artırıldı

Henüz yorum yok.

Henüz yorum yok.