Google Gemma 3n duyuruldu - Yeni nesil cihaz üstü çok modlu yapay zeka geliyor

(developers.googleblog.com)

1 puan yazan GN⁺ 2025-06-27 | 1 yorum | WhatsApp'ta paylaş

Gemma 3n, mobil ve edge ortamları için geliştirilen en yeni cihaz üstü çok modlu yapay zeka modeli olup görüntü, ses, video ve metnin tamamını işleyebiliyor
Verimlilik odaklı yapı ve yenilikçi mimariyle (MatFormer, Per-Layer Embeddings, MobileNet-V5 vb.), mevcut bulut tabanlı büyük modeller düzeyindeki performansı 2~3 GB bellek içinde sunuyor
İki model boyutu sunuluyor: E2B ve E4B; ayrıca Mix-n-Match yaklaşımıyla donanıma uygun ayrıntılı özel boyutlandırma desteği veriliyor
Konuşma tanıma ve çeviri, gerçek zamanlı görsel analiz, 140 dilde çok dilli işleme gibi çeşitli cihaz üstü yapay zeka kullanım senaryolarına hemen uygulanabiliyor
Hugging Face, Ollama, llama.cpp gibi başlıca açık kaynak yapay zeka ekosistemleriyle geniş entegrasyon sunuyor ve çeşitli araçlar, API'ler ve SDK'larla doğrudan kullanılabiliyor

Genel bakış ve arka plan

Geçen yılın başında yayınlanan ilk Gemma modeli, 160 milyondan fazla indirmeye ulaşarak Gemmaverse adlı bir ekosisteme dönüştü
Bu ekosistem; güvenlik, sağlık gibi alanlara özel modelleri ve topluluk katkılarıyla ortaya çıkan çeşitli yenilikçi kullanım örneklerini içeriyor
Google, bu başarının ardından mobil öncelikli olarak tasarlanan Gemma 3n'in resmi sürümünü duyurdu
Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama gibi geliştirici dostu ekosistem ve araçlarla geniş entegrasyon sunuyor
Yazıda, Gemma 3n'in temel yenilikleri, benchmark sonuçları ve geliştirme yöntemleri geliştirici bakış açısından derinlemesine ele alınıyor

Gemma 3n'de neler yeni?

Gemma 3n, cihaz üstü yapay zekada yeni bir sıçramayı temsil ediyor
Metin, görüntü, ses, video girişi ve metin çıktısı için yerel çok modlu destek sunuyor
Verimliliği en üst düzeye çıkararak E2B (5B parametre), E4B (8B parametre) olmak üzere iki model boyutuyla geliyor ve düşük bellekle de (2 GB, 3 GB) çalışabiliyor
MatFormer, Per Layer Embeddings, LAuReL, AltUp gibi yenilikçi mimariler uygulanıyor ve yeni ses ile görsel kodlayıcılar içeriyor
140 dil desteği, 35 dilde çok modlu anlama, güçlendirilmiş matematik, kodlama ve akıl yürütme yetenekleri; ayrıca E4B için LMArena'da 1300 puanın aşılması öne çıkıyor

MatFormer: tek model, farklı boyutlar

MatFormer (🪆Matryoshka Transformer) mimarisi, ölçeklenebilirlik ve esneklik için tasarlanmış yeni bir transformer yapısıdır
Büyük modelin içinde daha küçük modellerin bağımsız biçimde yer aldığı Rus matruşka ilkesini kullanır
E4B eğitilirken E2B alt modeli de aynı anda optimize edilir; böylece ayrı önceden çıkarılmış model indirmeye gerek kalmaz ve çıkarım en fazla 2 kat hızlanabilir
Mix-n-Match yöntemiyle, donanım kısıtlarına uygun özelleştirilmiş ara modeller (feedforward network veya layer skip kullanarak) üretilebilir
MatFormer Lab üzerinde benchmark tabanlı en uygun ayarlar görülebilir ve model üretilebilir
Gelecekte Elastic execution desteğiyle gerçek zamanlı dinamik model boyutu değiştirme de planlanıyor

Per-Layer Embeddings (PLE): cihaz üstünde bellek verimliliğini en üst düzeye çıkarma

Per-Layer Embeddings (katman başına gömme), cihaz üstü dağıtımda kaliteyi artırırken bellek kullanımını en aza indirir
Toplam parametrelerin (5B/8B) içinden yalnızca embedding'ler CPU üzerinde verimli biçimde yüklenip işlenir; transformer çekirdeği (2B/4B) ise VRAM'de tutulur
Bu sayede, önceye kıyasla çok daha küçük bellekle (hızlandırıcı tarafında yaklaşık yalnızca 2B parametre) kalite kaybı olmadan çalışabilir

KV Cache Sharing: uzun bağlam girdileri için optimizasyon

Gemma 3n, uzun ses/video gibi sıralı girdileri hızlı işlemek için KV Cache Sharing özelliğini ekliyor
Prefill (ilk giriş işleme) aşamasında ara katmanların KV cache'i üst katmanlarla doğrudan paylaşılır; bu da performansı 2 katın üzerine çıkarabilir
Uzun dizi prompt'larını önceye göre daha hızlı anlayarak çok modlu uygulamalarda gerçek zamanlılığı artırabilir

Ses tanıma: STT ve çeviri desteği

Universal Speech Model (USM) tabanlı bir ses kodlayıcı içerir; 160 ms'lik ses token'larını dil modelinin girdisi olarak kullanır
Cihaz üstünde yüksek kaliteli konuşma tanıma (ASR) ve konuşma çevirisi (AST) gerçekleştirebilir
İngilizce↔İspanyolca, Fransızca, İtalyanca, Portekizce gibi başlıca dil çiftlerinde yüksek performans doğrulandı
Chain-of-Thought prompt tekniği kullanıldığında çeviri kalitesi daha da artırılabilir
İlk sürümde ses kodlayıcı 30 saniyeye kadar klipleri destekliyor; ileride daha uzun streaming işleme için genişletilmesi planlanıyor

MobileNet-V5: en yeni görsel kodlayıcı

Gemma 3n'e entegre edilen MobileNet-V5-300M, edge cihazlarda da güçlü performans sunan yüksek verimli bir görsel kodlayıcıdır
256x256, 512x512, 768x768 piksel gibi farklı giriş çözünürlüklerini destekleyerek ihtiyaca göre performans ve ayrıntı düzeyi ayarlanabilir
Büyük ölçekli çok modlu veri kümeleri üzerinde ortak eğitim sayesinde görüntü ve video anlamada geniş kapsam sağlanır ve ayrıntılı görsel görevlerde güçlüdür
Google Pixel üzerinde saniyede 60 kare gerçek zamanlı analiz yapılabilir
Mimari tarafta MobileNet-V4 tabanlı bloklar (universal inverted bottleneck, Mobile MQA), hibrit piramit yapısı ve Multi-Scale Fusion VLM adapter gibi birçok yenilik uygulanıyor
SoViT'e (Gemma 3 tabanı) kıyasla 13 kat hız, %46 daha az parametre, 4 kat daha küçük bellek kullanımı ve daha yüksek doğruluk sağlıyor
Teknik raporda mimari, veri ölçekleme stratejileri ve derin öğrenme distillation teknikleri gibi ek ayrıntılar da paylaşılacak

Pratik kullanım ve nasıl başlanır

Hemen AI Studio'da deneyin: https://aistudio.google.com/prompts/new_chat?model=gemma-3n-e4b-it
Model indirme/dağıtım: Hugging Face, Kaggle, Ollama, llama.cpp üzerinden hemen kullanılabilir
Araç ve framework entegrasyonu: Hugging Face Transformers/TRL, MLX, Docker, LMStudio, NVIDIA NeMo, Unsloth ve çoğu diğer araç destekleniyor
API ve bulut dağıtımı: Google GenAI API, Vertex AI, NVIDIA API gibi çeşitli ortamlarda dağıtılabilir

Başlıca cihaz üstü kullanım senaryoları

Akıllı telefonlar ve edge cihazlarda gerçek zamanlı yapay zeka asistanı, ses çevirmeni, çok modlu chatbot, gerçek zamanlı görsel analiz, IoT
Kaynak kısıtlı ortamlarda yapay zeka hizmetlerini yerleşik hale getirme
Çevrimdışı veya ağın kısıtlı olduğu ortamlarda yapay zeka inovasyonu

Geliştirici kaynakları

Gemma 3n Impact Challenge

Cihaz üstü/çevrimdışı/çok modlu yetenekleri kullanarak gerçek toplumsal etki yaratacak ürünler geliştirmeye yönelik yarışma düzenleniyor
- Ödül: $150,000, video ve demo gönderimi gerekli: https://www.kaggle.com/competitions/google-gemma-3n-hackathon

1 yorum

GN⁺ 2025-06-27

Hacker News yorumları

Bu model, önceki gemma3 ile yaptığım tüm işlerle tam uyumluluk gösteriyor; kendi VLM fine-tuning script'ime doğrudan bağladım ve sorunsuz çalıştı (hf transformer kodu baz alınarak). Lora ile tek GPU'da E4B modelini çalıştırınca batch size 1 için 18Gb VRAM gerekiyor, gemma-4B ise 21Gb istiyordu. deepmind gerçekten çok iyi iş çıkarmış, gemma3 serisi açık ağırlıklı VLLM'ler arasında en iyisi
- Düzeltme: Şu anda bahsettiğim model E2B
"Bisiklete binen pelikan SVG'si üret" prompt'unu Gemma 3n 7.5GB (Ollama) ve mlx-vlm'nin 15GB sürümünde denedim; iki farklı kuantizasyon boyutunda sonuçların değişmesi ilginçti. Sonuçları burada paylaştım: https://simonwillison.net/2025/Jun/26/gemma-3n/
- Bunun gerçekten anlamlı bir benchmark sayılıp sayılamayacağını, yoksa sadece eğlencelik mi olduğunu merak ediyorum. Açıkçası pek anlayamadım
Hâlâ Gemma ile Gemini'nin cihaz üstü kullanımda tam olarak nasıl ayrıldığını anlamıyorum; ikisi de ağ bağlantısı olmadan kullanılabiliyor. Resmî ifade örneği: "Gemini Nano, ağ bağlantısı olmadan da zengin üretken yapay zeka deneyimleri sunar" — bu cümlede Gemini yerine Gemma yazsanız da tamamen doğru olur
- Fark lisans. Gemini Nano ağırlıklarını doğrudan kullanamazsınız (özellikle ticari kullanımda); yalnızca Android MLKit veya Google'ın onayladığı runtime'lar üzerinden erişilebilir. Buna karşılık Gemma, istediğiniz runtime veya framework'te ticari olarak kullanılabilir
- Gemma 3n önizleme bloguna bakarsanız, Gemma 3n ile yeni Gemini Nano sürümünün aynı mimariyi paylaştığını görürsünüz. Buradaki n'nin Nano anlamına geldiğini düşünüyorum. Nano, Android'e gömülen tescilli model; Gemma ise açık model, yani istediğiniz yere özgürce uygulayabilirsiniz. İlgili kaynaklar Google'ın resmî blogu ve videolarında var
- Gemma açık kaynak ve apache 2.0 lisanslı. Bir uygulamaya dahil etmek istiyorsanız kendiniz paketlemeniz gerekir. Buna karşılık Gemini Nano tamamen kontrol edilemeyen bir Android API'si
- İki model arasındaki farkın eğitim verisi olduğunu tahmin ediyorum. Gemini tarafı çok daha sıkı yönetiliyor ve eğitim verisinde bulunan bir şeyi tekrarlamaya çalıştığınızda 'recitation error' oluşabiliyor
OpenAI sayesinde sektörde böyle dağınık isimlendirme standarda dönüştü gibi geliyor, şahsen hoşuma gitmiyor
- O hâlde nasıl bir isim verirdin, merak ettim
GGUF sürümünü kendim oluşturdum, isteyen herkes deneyebilir! Şöyle çalıştırıyorum: ./llama.cpp/llama-cli -hf unsloth/gemma-3n-E4B-it-GGUF:UD-Q4_K_XL -ngl 99 --jinja --temp 0.0. Ayrıca inference + finetuning için bir Colab demosu da hazırlıyorum. Gemma 3N'in ses, metin ve görüntü desteği olması gerçekten etkileyici. Ayrıntılar için: https://docs.unsloth.ai/basics/gemma-3n-how-to-run-and-fine-tune
- Ollama'da E4B modelini test ettim ama görüntü yorumlama tamamen hatalı çalışıyor. Çıktı yalnızca metne dayanıyor, sürekli tutarlı biçimde yanlış sonuç veriyor; resmî Gemma 3 4B düzgün çalıştığı için bunun Ollama kaynaklı olduğunu düşündüm. Araştırınca şu an sadece metin odaklı destek olduğunu gördüm[1]; bunun biraz daha açık belirtilmesini isterdim. llama.cpp'yi kendim derlemek istemediğim için GGUF desteği gelene kadar bekleyeceğim. [1]: https://github.com/ollama/ollama/issues/10792#issuecomment-3009619264
- Unsloth sürümünü kullanmak üzere yazmaya başlamıştım ama senin bunu zaten hazırlayıp yayımladığını görünce etkilendim. Harika iş!
- Teşekkürler! Böyle modelleri çalıştırmak için nasıl bir PC donanımı gerekiyor, merak ediyorum
- Buradaki jinja ile tam olarak ne kastediliyor, merak ettim
Açıkçası bu tür küçük modellerin pratikte nasıl fayda sağladığından emin değilim. Çeşitli denemeler yaptım ama 27B'den küçük modelleri oyuncak seviyesinin ötesinde kullanmak zor; en fazla ara sıra iyi cevap veriyorlar. gemma3:27b-it-qat ile spam filtreleme sorunumu çözdüm ve benchmark'larımda da ancak o seviyede işe yarar hâle geldiğini gördüm
- Doğruluk düşük olsa bile gerçek kullanım alanları var. Gelecekte hangi ürünlerin çıkacağını bilmiyorum ama bugün bile şu örnekler mevcut: iPhone klavyesinde küçük dil modelleri, sonraki kelime önerisinde kullanılıyor (kullanıcının sadece önerilen kelimeyi seçmesi yetiyor). Ayrıca speculative decoding gibi tekniklerde küçük model, büyük modelin çıkarım hızını artırmak için kullanılabiliyor. İleride daha akıllıca kullanım alanları da çıkacaktır
- Bu küçük modeller temel altyapı olarak bakıldığında gayet kullanışlı. Günün birinde çoğu telefona gömülü LLM'lerin geldiği bir gelecek olursa harika olur; tıpkı varsayılan altyapının bir parçası gibi
- Benim bulduğum en iyi küçük model (<5bn params) kullanım senaryosu çevrimdışı başvuru aracı. Uçakta kod yazarken Google yerine MacBook Air'ime qwen kurup sözdizimi, dokümantasyon gibi temel soruları sormak oldukça işe yarıyor
- 4b ve altındaki küçük modeller, belirli görevlere fine-tune edilerek çok düşük maliyetle ticari modellerden daha iyi sonuç verebilir. Kod otomatik tamamlama için de iyiler. 7b~8b modeller, kod refactoring gibi hızlı ve basit kodlama görevlerinde iş görüyor (örnek: "SomeType tür argümanına sahip tüm fonksiyon adlarına ST_ öneki ekle"). 12b'den itibaren ise Mistral Nemo veya Gemma 3 12b gibi modeller tutarlı cümleler de üretebiliyor
Kevin Kwok, model yapısının reverse engineering analizini çok iyi derlemiş; bakmanızı öneririm: https://github.com/antimatter15/reverse-engineering-gemma-3n
Google sitesinin bir yerinde tüm ürün adlarını, açıklamalarını ve özelliklerini tablo hâlinde toplayan bir veriye ihtiyaç var
Grafiğin Y ekseni gerçekten komik çizilmiş
gemma 3n'in deploy edilmiş sürümünü gerçekten kullanmanın ne kadara mal olduğunu bilen var mı? Dokümanda gemini api ile gemma 3n kullanılabildiği yazıyor ama fiyat kısmında sadece "unavailable" görünüyor

Google Gemma 3n duyuruldu - Yeni nesil cihaz üstü çok modlu yapay zeka geliyor

Genel bakış ve arka plan

Gemma 3n'de neler yeni?

MatFormer: tek model, farklı boyutlar

Per-Layer Embeddings (PLE): cihaz üstünde bellek verimliliğini en üst düzeye çıkarma

KV Cache Sharing: uzun bağlam girdileri için optimizasyon

Ses tanıma: STT ve çeviri desteği

MobileNet-V5: en yeni görsel kodlayıcı

Pratik kullanım ve nasıl başlanır

Başlıca cihaz üstü kullanım senaryoları

Geliştirici kaynakları

Gemma 3n Impact Challenge

İlgili okumalar

1 yorum

Hacker News yorumları