1 puan yazan GN⁺ 2025-06-27 | 1 yorum | WhatsApp'ta paylaş
  • Gemma 3n, mobil ve edge ortamları için geliştirilen en yeni cihaz üstü çok modlu yapay zeka modeli olup görüntü, ses, video ve metnin tamamını işleyebiliyor
  • Verimlilik odaklı yapı ve yenilikçi mimariyle (MatFormer, Per-Layer Embeddings, MobileNet-V5 vb.), mevcut bulut tabanlı büyük modeller düzeyindeki performansı 2~3 GB bellek içinde sunuyor
  • İki model boyutu sunuluyor: E2B ve E4B; ayrıca Mix-n-Match yaklaşımıyla donanıma uygun ayrıntılı özel boyutlandırma desteği veriliyor
  • Konuşma tanıma ve çeviri, gerçek zamanlı görsel analiz, 140 dilde çok dilli işleme gibi çeşitli cihaz üstü yapay zeka kullanım senaryolarına hemen uygulanabiliyor
  • Hugging Face, Ollama, llama.cpp gibi başlıca açık kaynak yapay zeka ekosistemleriyle geniş entegrasyon sunuyor ve çeşitli araçlar, API'ler ve SDK'larla doğrudan kullanılabiliyor

Genel bakış ve arka plan

  • Geçen yılın başında yayınlanan ilk Gemma modeli, 160 milyondan fazla indirmeye ulaşarak Gemmaverse adlı bir ekosisteme dönüştü
  • Bu ekosistem; güvenlik, sağlık gibi alanlara özel modelleri ve topluluk katkılarıyla ortaya çıkan çeşitli yenilikçi kullanım örneklerini içeriyor
  • Google, bu başarının ardından mobil öncelikli olarak tasarlanan Gemma 3n'in resmi sürümünü duyurdu
  • Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama gibi geliştirici dostu ekosistem ve araçlarla geniş entegrasyon sunuyor
  • Yazıda, Gemma 3n'in temel yenilikleri, benchmark sonuçları ve geliştirme yöntemleri geliştirici bakış açısından derinlemesine ele alınıyor

Gemma 3n'de neler yeni?

  • Gemma 3n, cihaz üstü yapay zekada yeni bir sıçramayı temsil ediyor
  • Metin, görüntü, ses, video girişi ve metin çıktısı için yerel çok modlu destek sunuyor
  • Verimliliği en üst düzeye çıkararak E2B (5B parametre), E4B (8B parametre) olmak üzere iki model boyutuyla geliyor ve düşük bellekle de (2 GB, 3 GB) çalışabiliyor
  • MatFormer, Per Layer Embeddings, LAuReL, AltUp gibi yenilikçi mimariler uygulanıyor ve yeni ses ile görsel kodlayıcılar içeriyor
  • 140 dil desteği, 35 dilde çok modlu anlama, güçlendirilmiş matematik, kodlama ve akıl yürütme yetenekleri; ayrıca E4B için LMArena'da 1300 puanın aşılması öne çıkıyor

MatFormer: tek model, farklı boyutlar

  • MatFormer (🪆Matryoshka Transformer) mimarisi, ölçeklenebilirlik ve esneklik için tasarlanmış yeni bir transformer yapısıdır
  • Büyük modelin içinde daha küçük modellerin bağımsız biçimde yer aldığı Rus matruşka ilkesini kullanır
  • E4B eğitilirken E2B alt modeli de aynı anda optimize edilir; böylece ayrı önceden çıkarılmış model indirmeye gerek kalmaz ve çıkarım en fazla 2 kat hızlanabilir
  • Mix-n-Match yöntemiyle, donanım kısıtlarına uygun özelleştirilmiş ara modeller (feedforward network veya layer skip kullanarak) üretilebilir
  • MatFormer Lab üzerinde benchmark tabanlı en uygun ayarlar görülebilir ve model üretilebilir
  • Gelecekte Elastic execution desteğiyle gerçek zamanlı dinamik model boyutu değiştirme de planlanıyor
Reklam

Per-Layer Embeddings (PLE): cihaz üstünde bellek verimliliğini en üst düzeye çıkarma

  • Per-Layer Embeddings (katman başına gömme), cihaz üstü dağıtımda kaliteyi artırırken bellek kullanımını en aza indirir
  • Toplam parametrelerin (5B/8B) içinden yalnızca embedding'ler CPU üzerinde verimli biçimde yüklenip işlenir; transformer çekirdeği (2B/4B) ise VRAM'de tutulur
  • Bu sayede, önceye kıyasla çok daha küçük bellekle (hızlandırıcı tarafında yaklaşık yalnızca 2B parametre) kalite kaybı olmadan çalışabilir

KV Cache Sharing: uzun bağlam girdileri için optimizasyon

  • Gemma 3n, uzun ses/video gibi sıralı girdileri hızlı işlemek için KV Cache Sharing özelliğini ekliyor
  • Prefill (ilk giriş işleme) aşamasında ara katmanların KV cache'i üst katmanlarla doğrudan paylaşılır; bu da performansı 2 katın üzerine çıkarabilir
  • Uzun dizi prompt'larını önceye göre daha hızlı anlayarak çok modlu uygulamalarda gerçek zamanlılığı artırabilir

Ses tanıma: STT ve çeviri desteği

  • Universal Speech Model (USM) tabanlı bir ses kodlayıcı içerir; 160 ms'lik ses token'larını dil modelinin girdisi olarak kullanır
  • Cihaz üstünde yüksek kaliteli konuşma tanıma (ASR) ve konuşma çevirisi (AST) gerçekleştirebilir
  • İngilizce↔İspanyolca, Fransızca, İtalyanca, Portekizce gibi başlıca dil çiftlerinde yüksek performans doğrulandı
  • Chain-of-Thought prompt tekniği kullanıldığında çeviri kalitesi daha da artırılabilir
  • İlk sürümde ses kodlayıcı 30 saniyeye kadar klipleri destekliyor; ileride daha uzun streaming işleme için genişletilmesi planlanıyor

MobileNet-V5: en yeni görsel kodlayıcı

  • Gemma 3n'e entegre edilen MobileNet-V5-300M, edge cihazlarda da güçlü performans sunan yüksek verimli bir görsel kodlayıcıdır
  • 256x256, 512x512, 768x768 piksel gibi farklı giriş çözünürlüklerini destekleyerek ihtiyaca göre performans ve ayrıntı düzeyi ayarlanabilir
  • Büyük ölçekli çok modlu veri kümeleri üzerinde ortak eğitim sayesinde görüntü ve video anlamada geniş kapsam sağlanır ve ayrıntılı görsel görevlerde güçlüdür
  • Google Pixel üzerinde saniyede 60 kare gerçek zamanlı analiz yapılabilir
  • Mimari tarafta MobileNet-V4 tabanlı bloklar (universal inverted bottleneck, Mobile MQA), hibrit piramit yapısı ve Multi-Scale Fusion VLM adapter gibi birçok yenilik uygulanıyor
  • SoViT'e (Gemma 3 tabanı) kıyasla 13 kat hız, %46 daha az parametre, 4 kat daha küçük bellek kullanımı ve daha yüksek doğruluk sağlıyor
  • Teknik raporda mimari, veri ölçekleme stratejileri ve derin öğrenme distillation teknikleri gibi ek ayrıntılar da paylaşılacak

Pratik kullanım ve nasıl başlanır

  • Hemen AI Studio'da deneyin: https://aistudio.google.com/prompts/new_chat?model=gemma-3n-e4b-it
  • Model indirme/dağıtım: Hugging Face, Kaggle, Ollama, llama.cpp üzerinden hemen kullanılabilir
  • Araç ve framework entegrasyonu: Hugging Face Transformers/TRL, MLX, Docker, LMStudio, NVIDIA NeMo, Unsloth ve çoğu diğer araç destekleniyor
  • API ve bulut dağıtımı: Google GenAI API, Vertex AI, NVIDIA API gibi çeşitli ortamlarda dağıtılabilir
Reklam

Başlıca cihaz üstü kullanım senaryoları

  • Akıllı telefonlar ve edge cihazlarda gerçek zamanlı yapay zeka asistanı, ses çevirmeni, çok modlu chatbot, gerçek zamanlı görsel analiz, IoT
  • Kaynak kısıtlı ortamlarda yapay zeka hizmetlerini yerleşik hale getirme
  • Çevrimdışı veya ağın kısıtlı olduğu ortamlarda yapay zeka inovasyonu

Geliştirici kaynakları

Gemma 3n Impact Challenge

1 yorum

 
GN⁺ 2025-06-27
Hacker News yorumları
  • Bu model, önceki gemma3 ile yaptığım tüm işlerle tam uyumluluk gösteriyor; kendi VLM fine-tuning script'ime doğrudan bağladım ve sorunsuz çalıştı (hf transformer kodu baz alınarak). Lora ile tek GPU'da E4B modelini çalıştırınca batch size 1 için 18Gb VRAM gerekiyor, gemma-4B ise 21Gb istiyordu. deepmind gerçekten çok iyi iş çıkarmış, gemma3 serisi açık ağırlıklı VLLM'ler arasında en iyisi
    • Düzeltme: Şu anda bahsettiğim model E2B
  • "Bisiklete binen pelikan SVG'si üret" prompt'unu Gemma 3n 7.5GB (Ollama) ve mlx-vlm'nin 15GB sürümünde denedim; iki farklı kuantizasyon boyutunda sonuçların değişmesi ilginçti. Sonuçları burada paylaştım: https://simonwillison.net/2025/Jun/26/gemma-3n/
    • Bunun gerçekten anlamlı bir benchmark sayılıp sayılamayacağını, yoksa sadece eğlencelik mi olduğunu merak ediyorum. Açıkçası pek anlayamadım
  • Hâlâ Gemma ile Gemini'nin cihaz üstü kullanımda tam olarak nasıl ayrıldığını anlamıyorum; ikisi de ağ bağlantısı olmadan kullanılabiliyor. Resmî ifade örneği: "Gemini Nano, ağ bağlantısı olmadan da zengin üretken yapay zeka deneyimleri sunar" — bu cümlede Gemini yerine Gemma yazsanız da tamamen doğru olur
    • Fark lisans. Gemini Nano ağırlıklarını doğrudan kullanamazsınız (özellikle ticari kullanımda); yalnızca Android MLKit veya Google'ın onayladığı runtime'lar üzerinden erişilebilir. Buna karşılık Gemma, istediğiniz runtime veya framework'te ticari olarak kullanılabilir
    • Gemma 3n önizleme bloguna bakarsanız, Gemma 3n ile yeni Gemini Nano sürümünün aynı mimariyi paylaştığını görürsünüz. Buradaki n'nin Nano anlamına geldiğini düşünüyorum. Nano, Android'e gömülen tescilli model; Gemma ise açık model, yani istediğiniz yere özgürce uygulayabilirsiniz. İlgili kaynaklar Google'ın resmî blogu ve videolarında var
    • Gemma açık kaynak ve apache 2.0 lisanslı. Bir uygulamaya dahil etmek istiyorsanız kendiniz paketlemeniz gerekir. Buna karşılık Gemini Nano tamamen kontrol edilemeyen bir Android API'si
    • İki model arasındaki farkın eğitim verisi olduğunu tahmin ediyorum. Gemini tarafı çok daha sıkı yönetiliyor ve eğitim verisinde bulunan bir şeyi tekrarlamaya çalıştığınızda 'recitation error' oluşabiliyor
  • OpenAI sayesinde sektörde böyle dağınık isimlendirme standarda dönüştü gibi geliyor, şahsen hoşuma gitmiyor
    • O hâlde nasıl bir isim verirdin, merak ettim
  • GGUF sürümünü kendim oluşturdum, isteyen herkes deneyebilir! Şöyle çalıştırıyorum: ./llama.cpp/llama-cli -hf unsloth/gemma-3n-E4B-it-GGUF:UD-Q4_K_XL -ngl 99 --jinja --temp 0.0. Ayrıca inference + finetuning için bir Colab demosu da hazırlıyorum. Gemma 3N'in ses, metin ve görüntü desteği olması gerçekten etkileyici. Ayrıntılar için: https://docs.unsloth.ai/basics/gemma-3n-how-to-run-and-fine-tune
    • Ollama'da E4B modelini test ettim ama görüntü yorumlama tamamen hatalı çalışıyor. Çıktı yalnızca metne dayanıyor, sürekli tutarlı biçimde yanlış sonuç veriyor; resmî Gemma 3 4B düzgün çalıştığı için bunun Ollama kaynaklı olduğunu düşündüm. Araştırınca şu an sadece metin odaklı destek olduğunu gördüm[1]; bunun biraz daha açık belirtilmesini isterdim. llama.cpp'yi kendim derlemek istemediğim için GGUF desteği gelene kadar bekleyeceğim. [1]: https://github.com/ollama/ollama/issues/10792#issuecomment-3009619264
    • Unsloth sürümünü kullanmak üzere yazmaya başlamıştım ama senin bunu zaten hazırlayıp yayımladığını görünce etkilendim. Harika iş!
    • Teşekkürler! Böyle modelleri çalıştırmak için nasıl bir PC donanımı gerekiyor, merak ediyorum
    • Buradaki jinja ile tam olarak ne kastediliyor, merak ettim
  • Açıkçası bu tür küçük modellerin pratikte nasıl fayda sağladığından emin değilim. Çeşitli denemeler yaptım ama 27B'den küçük modelleri oyuncak seviyesinin ötesinde kullanmak zor; en fazla ara sıra iyi cevap veriyorlar. gemma3:27b-it-qat ile spam filtreleme sorunumu çözdüm ve benchmark'larımda da ancak o seviyede işe yarar hâle geldiğini gördüm
    • Doğruluk düşük olsa bile gerçek kullanım alanları var. Gelecekte hangi ürünlerin çıkacağını bilmiyorum ama bugün bile şu örnekler mevcut: iPhone klavyesinde küçük dil modelleri, sonraki kelime önerisinde kullanılıyor (kullanıcının sadece önerilen kelimeyi seçmesi yetiyor). Ayrıca speculative decoding gibi tekniklerde küçük model, büyük modelin çıkarım hızını artırmak için kullanılabiliyor. İleride daha akıllıca kullanım alanları da çıkacaktır
    • Bu küçük modeller temel altyapı olarak bakıldığında gayet kullanışlı. Günün birinde çoğu telefona gömülü LLM'lerin geldiği bir gelecek olursa harika olur; tıpkı varsayılan altyapının bir parçası gibi
    • Benim bulduğum en iyi küçük model (<5bn params) kullanım senaryosu çevrimdışı başvuru aracı. Uçakta kod yazarken Google yerine MacBook Air'ime qwen kurup sözdizimi, dokümantasyon gibi temel soruları sormak oldukça işe yarıyor
    • 4b ve altındaki küçük modeller, belirli görevlere fine-tune edilerek çok düşük maliyetle ticari modellerden daha iyi sonuç verebilir. Kod otomatik tamamlama için de iyiler. 7b~8b modeller, kod refactoring gibi hızlı ve basit kodlama görevlerinde iş görüyor (örnek: "SomeType tür argümanına sahip tüm fonksiyon adlarına ST_ öneki ekle"). 12b'den itibaren ise Mistral Nemo veya Gemma 3 12b gibi modeller tutarlı cümleler de üretebiliyor
  • Kevin Kwok, model yapısının reverse engineering analizini çok iyi derlemiş; bakmanızı öneririm: https://github.com/antimatter15/reverse-engineering-gemma-3n
  • Google sitesinin bir yerinde tüm ürün adlarını, açıklamalarını ve özelliklerini tablo hâlinde toplayan bir veriye ihtiyaç var
  • Grafiğin Y ekseni gerçekten komik çizilmiş
  • gemma 3n'in deploy edilmiş sürümünü gerçekten kullanmanın ne kadara mal olduğunu bilen var mı? Dokümanda gemini api ile gemma 3n kullanılabildiği yazıyor ama fiyat kısmında sadece "unavailable" görünüyor