Google Gemma 3n duyuruldu - Yeni nesil cihaz üstü çok modlu yapay zeka geliyor
(developers.googleblog.com)- Gemma 3n, mobil ve edge ortamları için geliştirilen en yeni cihaz üstü çok modlu yapay zeka modeli olup görüntü, ses, video ve metnin tamamını işleyebiliyor
- Verimlilik odaklı yapı ve yenilikçi mimariyle (MatFormer, Per-Layer Embeddings, MobileNet-V5 vb.), mevcut bulut tabanlı büyük modeller düzeyindeki performansı 2~3 GB bellek içinde sunuyor
- İki model boyutu sunuluyor: E2B ve E4B; ayrıca Mix-n-Match yaklaşımıyla donanıma uygun ayrıntılı özel boyutlandırma desteği veriliyor
- Konuşma tanıma ve çeviri, gerçek zamanlı görsel analiz, 140 dilde çok dilli işleme gibi çeşitli cihaz üstü yapay zeka kullanım senaryolarına hemen uygulanabiliyor
- Hugging Face, Ollama, llama.cpp gibi başlıca açık kaynak yapay zeka ekosistemleriyle geniş entegrasyon sunuyor ve çeşitli araçlar, API'ler ve SDK'larla doğrudan kullanılabiliyor
Genel bakış ve arka plan
- Geçen yılın başında yayınlanan ilk Gemma modeli, 160 milyondan fazla indirmeye ulaşarak Gemmaverse adlı bir ekosisteme dönüştü
- Bu ekosistem; güvenlik, sağlık gibi alanlara özel modelleri ve topluluk katkılarıyla ortaya çıkan çeşitli yenilikçi kullanım örneklerini içeriyor
- Google, bu başarının ardından mobil öncelikli olarak tasarlanan Gemma 3n'in resmi sürümünü duyurdu
- Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama gibi geliştirici dostu ekosistem ve araçlarla geniş entegrasyon sunuyor
- Yazıda, Gemma 3n'in temel yenilikleri, benchmark sonuçları ve geliştirme yöntemleri geliştirici bakış açısından derinlemesine ele alınıyor
Gemma 3n'de neler yeni?
- Gemma 3n, cihaz üstü yapay zekada yeni bir sıçramayı temsil ediyor
- Metin, görüntü, ses, video girişi ve metin çıktısı için yerel çok modlu destek sunuyor
- Verimliliği en üst düzeye çıkararak E2B (5B parametre), E4B (8B parametre) olmak üzere iki model boyutuyla geliyor ve düşük bellekle de (2 GB, 3 GB) çalışabiliyor
- MatFormer, Per Layer Embeddings, LAuReL, AltUp gibi yenilikçi mimariler uygulanıyor ve yeni ses ile görsel kodlayıcılar içeriyor
- 140 dil desteği, 35 dilde çok modlu anlama, güçlendirilmiş matematik, kodlama ve akıl yürütme yetenekleri; ayrıca E4B için LMArena'da 1300 puanın aşılması öne çıkıyor
MatFormer: tek model, farklı boyutlar
- MatFormer (🪆Matryoshka Transformer) mimarisi, ölçeklenebilirlik ve esneklik için tasarlanmış yeni bir transformer yapısıdır
- Büyük modelin içinde daha küçük modellerin bağımsız biçimde yer aldığı Rus matruşka ilkesini kullanır
- E4B eğitilirken E2B alt modeli de aynı anda optimize edilir; böylece ayrı önceden çıkarılmış model indirmeye gerek kalmaz ve çıkarım en fazla 2 kat hızlanabilir
- Mix-n-Match yöntemiyle, donanım kısıtlarına uygun özelleştirilmiş ara modeller (feedforward network veya layer skip kullanarak) üretilebilir
- MatFormer Lab üzerinde benchmark tabanlı en uygun ayarlar görülebilir ve model üretilebilir
- Gelecekte Elastic execution desteğiyle gerçek zamanlı dinamik model boyutu değiştirme de planlanıyor
Per-Layer Embeddings (PLE): cihaz üstünde bellek verimliliğini en üst düzeye çıkarma
- Per-Layer Embeddings (katman başına gömme), cihaz üstü dağıtımda kaliteyi artırırken bellek kullanımını en aza indirir
- Toplam parametrelerin (5B/8B) içinden yalnızca embedding'ler CPU üzerinde verimli biçimde yüklenip işlenir; transformer çekirdeği (2B/4B) ise VRAM'de tutulur
- Bu sayede, önceye kıyasla çok daha küçük bellekle (hızlandırıcı tarafında yaklaşık yalnızca 2B parametre) kalite kaybı olmadan çalışabilir
KV Cache Sharing: uzun bağlam girdileri için optimizasyon
- Gemma 3n, uzun ses/video gibi sıralı girdileri hızlı işlemek için KV Cache Sharing özelliğini ekliyor
- Prefill (ilk giriş işleme) aşamasında ara katmanların KV cache'i üst katmanlarla doğrudan paylaşılır; bu da performansı 2 katın üzerine çıkarabilir
- Uzun dizi prompt'larını önceye göre daha hızlı anlayarak çok modlu uygulamalarda gerçek zamanlılığı artırabilir
Ses tanıma: STT ve çeviri desteği
- Universal Speech Model (USM) tabanlı bir ses kodlayıcı içerir; 160 ms'lik ses token'larını dil modelinin girdisi olarak kullanır
- Cihaz üstünde yüksek kaliteli konuşma tanıma (ASR) ve konuşma çevirisi (AST) gerçekleştirebilir
- İngilizce↔İspanyolca, Fransızca, İtalyanca, Portekizce gibi başlıca dil çiftlerinde yüksek performans doğrulandı
- Chain-of-Thought prompt tekniği kullanıldığında çeviri kalitesi daha da artırılabilir
- İlk sürümde ses kodlayıcı 30 saniyeye kadar klipleri destekliyor; ileride daha uzun streaming işleme için genişletilmesi planlanıyor
MobileNet-V5: en yeni görsel kodlayıcı
- Gemma 3n'e entegre edilen MobileNet-V5-300M, edge cihazlarda da güçlü performans sunan yüksek verimli bir görsel kodlayıcıdır
- 256x256, 512x512, 768x768 piksel gibi farklı giriş çözünürlüklerini destekleyerek ihtiyaca göre performans ve ayrıntı düzeyi ayarlanabilir
- Büyük ölçekli çok modlu veri kümeleri üzerinde ortak eğitim sayesinde görüntü ve video anlamada geniş kapsam sağlanır ve ayrıntılı görsel görevlerde güçlüdür
- Google Pixel üzerinde saniyede 60 kare gerçek zamanlı analiz yapılabilir
- Mimari tarafta MobileNet-V4 tabanlı bloklar (universal inverted bottleneck, Mobile MQA), hibrit piramit yapısı ve Multi-Scale Fusion VLM adapter gibi birçok yenilik uygulanıyor
- SoViT'e (Gemma 3 tabanı) kıyasla 13 kat hız, %46 daha az parametre, 4 kat daha küçük bellek kullanımı ve daha yüksek doğruluk sağlıyor
- Teknik raporda mimari, veri ölçekleme stratejileri ve derin öğrenme distillation teknikleri gibi ek ayrıntılar da paylaşılacak
Pratik kullanım ve nasıl başlanır
- Hemen AI Studio'da deneyin: https://aistudio.google.com/prompts/new_chat?model=gemma-3n-e4b-it
- Model indirme/dağıtım: Hugging Face, Kaggle, Ollama, llama.cpp üzerinden hemen kullanılabilir
- Araç ve framework entegrasyonu: Hugging Face Transformers/TRL, MLX, Docker, LMStudio, NVIDIA NeMo, Unsloth ve çoğu diğer araç destekleniyor
- API ve bulut dağıtımı: Google GenAI API, Vertex AI, NVIDIA API gibi çeşitli ortamlarda dağıtılabilir
Başlıca cihaz üstü kullanım senaryoları
- Akıllı telefonlar ve edge cihazlarda gerçek zamanlı yapay zeka asistanı, ses çevirmeni, çok modlu chatbot, gerçek zamanlı görsel analiz, IoT
- Kaynak kısıtlı ortamlarda yapay zeka hizmetlerini yerleşik hale getirme
- Çevrimdışı veya ağın kısıtlı olduğu ortamlarda yapay zeka inovasyonu
Geliştirici kaynakları
- Resmi dokümantasyon
- Model indir (HF)
- MatFormer Lab
- Google AI Studio'da deneyin
- Açık kaynak ekosistemi entegrasyonu, Ollama, MLX, llama.cpp vb.
Gemma 3n Impact Challenge
- Cihaz üstü/çevrimdışı/çok modlu yetenekleri kullanarak gerçek toplumsal etki yaratacak ürünler geliştirmeye yönelik yarışma düzenleniyor
- Ödül: $150,000, video ve demo gönderimi gerekli: https://www.kaggle.com/competitions/google-gemma-3n-hackathon
1 yorum
Hacker News yorumları
./llama.cpp/llama-cli -hf unsloth/gemma-3n-E4B-it-GGUF:UD-Q4_K_XL -ngl 99 --jinja --temp 0.0. Ayrıca inference + finetuning için bir Colab demosu da hazırlıyorum. Gemma 3N'in ses, metin ve görüntü desteği olması gerçekten etkileyici. Ayrıntılar için: https://docs.unsloth.ai/basics/gemma-3n-how-to-run-and-fine-tunejinjaile tam olarak ne kastediliyor, merak ettim