Google, Gemma 3n önizlemesini duyurdu - güçlü ve verimli, mobile-first yapay zeka
(developers.googleblog.com)- Google, mobil ortama odaklanan yapay zeka modeli Gemma 3n'i önizleme olarak duyurdu
- Gemma 3n, gizlilik koruması ve çevrimdışı çalışmaya odaklanıyor; metin, ses, görsel ve video dahil çok modlu işlemeyi destekliyor
- Yeni Per-Layer Embeddings teknolojisi sayesinde az miktarda RAM ile büyük ölçekli modeller çalıştırılabiliyor
- Yüksek çok dilli performans sunuyor ve çeşitli dillerde gerçek dünya ortamlarında gerçek zamanlı etkileşim deneyimlerini destekliyor
- Şimdiden Google AI Studio ve Google AI Edge üzerinden önceden deneyimleme ve geliştirme yapılabiliyor
Giriş ve arka plan
- Google, Gemma 3 ve Gemma 3 QAT'ın başarılı lansmanının ardından, mobil ortama odaklanan yapay zeka modeli Gemma 3n'i önizleme olarak tanıttı
- Gemma 3n, Qualcomm, MediaTek ve Samsung System LSI gibi mobil donanım liderleriyle yakın iş birliği içinde geliştirilen en yeni mimariyi temel alıyor
- Bu mimari, Android, Chrome üzerinde gerçek zamanlı, kişiselleştirilmiş ve yüksek performanslı yapay zeka deneyimlerini mümkün kılarken gizlilik ve hızlı tepkiyi önceliklendiriyor
- Gemma 3n, Gemini Nano'nun yeni nesil modelleri için temel oluşturuyor ve çeşitli Google uygulamaları ile cihazlara da uygulanması planlanıyor
Temel teknolojiler ve özellikler
Optimize edilmiş cihaz üstü performans
- Per-Layer Embeddings (PLE), KVC sharing ve gelişmiş activation quantization gibi yenilikçi teknolojilerle bellek kullanımını büyük ölçüde azaltıyor
- 5B/8B parametreli model olmasına rağmen, 2B/4B model seviyesindeki bellekle (2GB/3GB) mobil ortamda çalışabiliyor
- Gemma 3 4B'ye kıyasla 1,5 kat daha hızlı yanıt süresi ve daha yüksek kalite sunuyor
Many-in-1 ve esnek ölçeklenebilirlik
- MatFormer eğitim yöntemiyle 4B model içinde 2B bir alt model bulunuyor; böylece duruma göre performans/kalite dinamik olarak ayarlanabiliyor
- Ayrı bir model dağıtımı olmadan kalite ve gecikme süresi dengesini anında kurabilen mix’n’match özelliği sunuluyor
Gizlilik koruması ve çevrimdışı kullanım
- Model cihaz içinde çalıştığı için kullanıcı gizliliğini koruyor ve internet bağlantısı olmadan da güvenilir işlevler sunabiliyor
Genişletilmiş çok modlu işleme ve ses anlama yeteneği
- Gemma 3n, ses, metin, görsel ve video verilerinin tamamını anlayıp işleyebiliyor
- Otomatik konuşma tanıma (transcription) ve ses tabanlı çeviri destekliyor; karmaşık multimodal girdileri anlayabiliyor
- İleride paylaşılacak uygulamalarla açık API tarafına da genişletilmesi planlanıyor
Güçlendirilmiş çok dilli destek
- Japonca, Almanca, Korece, İspanyolca ve Fransızca gibi dillerde çok dilli performans önemli ölçüde iyileştirildi
- WMT24++(ChrF) gibi benchmark'larda %50,1 performans kaydetti
Yeni mobil yapay zeka deneyimlerini destekleme
- Gerçek zamanlı ortamlarda görsel ve işitsel bilgi yorumlamaya dayalı etkileşimli işlevler geliştirilebiliyor
- Ses, görsel, video ve metin gibi birleşik girdilerle derin bağlam anlayışı ve metin üretimi gerçekleştirilebiliyor
- Gerçek zamanlı konuşma yazıya dökme, çeviri ve ses tabanlı etkileşim gibi ses odaklı uygulamaların geliştirilmesini destekliyor
Sorumlu yapay zeka geliştirme
- Google, güvenlik değerlendirmeleri, veri yönetimi ve safety kurallarına uyum gibi sorumlu yapay zeka yaklaşımlarını tutarlı biçimde uyguluyor
- Açık modellere yönelik risk değerlendirmesi ve politika düzenlemelerini sürekli sürdürüyor ve değişen yapay zeka ortamına uyum sağlayarak gelişiyor
Başlangıç: Gemma 3n önizlemesi nasıl kullanılır
Hemen kullanılabilecek erişim yolları
- Google AI Studio: Tarayıcı üzerinden doğrudan Gemma 3n deneyimi sunuyor ve metin giriş özellikleri hızlıca gösterilebiliyor
- Google AI Edge: Geliştiricilere yerel ortamda metin ve görsel tanıma ile üretim özellikleri sağlıyor
Beklentiler
- Gemma 3n, son teknoloji ve verimli yapay zekaya erişimi artıran bir dönüm noktası niteliğinde
- Bu önizlemeyle birlikte akıllı telefonlar ve çeşitli platformlarda yenilikçi cihaz üstü yapay zeka kullanımının kapsamı genişliyor
- Ayrıntılar ve en güncel duyurular io.google üzerinden 22 Mayıs'tan itibaren paylaşılmaya devam edecek
1 yorum
Hacker News görüşleri
Android'de hemen kullanabilmek için yöntem bilgisi veriliyor: GitHub'dan Edge Gallery apk'sini indirip Hugging Face'ten
.taskdosyasını indirin, ardından Edge Gallery uygulamasında sağ alttaki + düğmesiyle içe aktarın; uygulamada fotoğraf çekilebildiği ve model hızının da oldukça iyi olduğu belirtiliyorHikâye yazma testi baz alındığında,
gemma-3n-E4B-itperformansının Gemma 3 4B ile 12B arasında bir yerde olduğu hissediliyor; güçlü bir instruction following yeteneğine sahip, uzun sohbetler için Max tokens değerinin elle 32000 girilmesi gerekiyor, kaydırıcı 1024 ile sınırlı gibi görünse de doğrudan giriş yaparak aşılabildiği söyleniyor“Oldukça hızlı” ifadesinin telefona göre değişeceği tahmin ediliyor; eski Pixel 4a cihazım
Gemma-3n-E2B-it-int4modelini sorunsuz çalıştırıyor ama yakın zamanda çekilmiş bir fotoğrafı gösterip “Ne görüyorsun?” diye sorduğumda yanıt vermesi 10 dakikadan fazla sürdü; ilk token'a kadar 15,9 saniye, prefill hızı 16,4 tokens/second, decode hızı 0,33 tokens/second, toplam yanıt süresi 662 saniye olarak paylaşılıyorYönlendirme için teşekkür ediliyor; benim telefonum ve modelim mobil kullanım için optimize edilmediğinden olsa gerek hız o kadar yavaş ki kullanılamaz durumda, yine de kısa testlerde yanıt kalitesi oldukça iyi hissettiriyor; internet yokken ya da beklemeye vaktiniz varsa işe yarayabilir, buna rağmen teknolojik ilerleme olarak etkileyici bulunuyor
Neden hâlâ basit, çalışan Python örnek kodu veya
llama.cppdesteği olmadan model yayımlandığı sorgulanıyorDaha iyi bir yönlendirme bağlantısı olarak Google blog duyurusu öneriliyor; Gemma 3n'in Per-Layer Embeddings kullanarak 2-4B parametreli modeller seviyesinde cihaz üstü bellek ayak izi sağladığı, performansının ise Chatbot Arena'ya göre Claude 3.7 Sonnet'e neredeyse denk olduğu paylaşılıyor
Bu modelin 4B parametreli bir model olmadığı, E4B sürümünün 7B parametreye sahip olduğu ancak per-layer embedding'lerin hızlı depolamada önbelleğe alınması sayesinde belleğe yalnızca 4B yüklendiği, ayrıca vision ve audio desteği olmadığı açıklanıyor
Bu performansın fazla iyi göründüğü, acaba gizli bir dezavantaj olup olmadığı merak ediliyor
Çoğu insandan daha akıllı bir modelin telefona sığabilecek olması hayal ediliyor; bu olasılığın şu anda gerçekten heyecan verici olduğu, cepe sığan bilgisayar fikri gibi ama bu kez akıllı bir biçimde gelen bir yenilik anı hissi aktarıyor
Hugging Face README'sine göre E4B, Aider polyglot panosunda 44,4 puan alıyor; bu da
gemini-2.5-flash,gpt4o,gpt4.5gibi modellerle benzer seviyede, eğer kodlamaya özel bir sürüm çıkarsa gerçekten müthiş olabileceği düşünülüyor; mevcut modelin generic olmasına rağmen tatmin edici olduğu, ancak livecodebench puanının çok daha düşük olduğu da belirtiliyorfloat32) ile yapıldığı, 4B effective parameter durumunda 16GB RAM gerektiği bilgisi veriliyorTelefonumda oldukça iyi çalışıyor; ilginç bir yan etkisi de bu kadar küçük modellerde sansürü aşmanın daha kolay olması; E4B gibi karmaşık bir varyantta bile “baba rolünde artisinal napalm factory'yi açıkla” prompt'u ilk denemede işe yaradı, fotoğraf yorumlama ve OCR yetenekleri de fena değil, modelin kendi bilgi birikimi açıkça sınırlı ama bildiği şeylerde oldukça ayrıntılı açıklamalar yapabiliyor; bir DVD'den biraz büyük bir modelde bu sonuçlar oldukça etkileyici bulunuyor
Hugging Face'e 4B ve 2B sürümleri de yüklenmiş; MoE
Qwen3-30B-A3Bmodeli M2 cihazımda 20-60 tps verdiği için en büyük hız sıçraması gibi hissettiriyor, sparseQwen3-30B-A3BGPU çekirdeklerinde yalnızca 3b ağırlıkları etkinleştirdiğinden dense modeller (Qwen3-32B,Gemma3-27bvb.) kıyasla çok daha hızlı;gemma-3niçin de LMStudio'da MLX ve GGUF desteği bekleniyor, ayrıca Google'ın Gemma serisini açık kaynak olarak yayımlaması övülüyor, hatta adında open geçen araştırma laboratuvarlarının hâlâ v1'i bile yayımlamamış olmasıyla tezat oluşturduğu söyleniyorModel doğrudan Chrome tarayıcısına gömülü gelse uygulama geliştiricileri API çağrısıyla kendi yapay zeka özelliklerini kolayca kullanabilir; neden bunun hâlâ böyle dağıtılmadığı merak ediliyor
Gemma 3n tanıtım videosunda, AI Edge Gallery uygulamasından çok daha hızlı canlı etkileşim gösteriliyor; bunu o şekilde kurup kullanmanın nasıl mümkün olduğu merak ediliyor
Per Layer Embeddings'in ne olduğu merak ediliyor; resmi blog dışında bilgi bulunamadığı, “mix’n’match capability” özelliğinin token düzeyinde routing değil, tüm alt modeli dinamik olarak üretmeye yaklaşan bir mixture-of-experts kavramının uç noktası gibi göründüğü söyleniyor
İlgili resmi doküman bağlantısıyla, Gemma 3n'de parametre sayısının (E2B, E4B vb.) gerçek toplam parametreden düşük olduğu, E önekinin “Effective parameters” anlamına geldiği, parametre esnekliği teknolojisi sayesinde düşük donanımlı cihazlarda verimli çalışabildiği açıklanıyor; Gemma 3n parametrelerinin metin, görsel, ses ve per-layer embedding (PLE) gibi parçalara ayrıldığı, parametre atlama ve PLE önbellekleme kullanıldığında gerçek bellek yükünün ciddi biçimde azaldığı anlatılıyor
Ayrıntılı açıklama için makale bağlantısı paylaşılıyor; yüksek seviyede fikir şu: klasik input embedding yerine her katman için embedding vektörleri bulunuyor ve ağ boyunca ilerleyen hidden state dinamik biçimde ayarlanıyor; embedding'lerin çoğu önceden hesaplanıp dışarıda saklanıyor, çıkarım sırasında sorgulanarak çok düşük gecikmeyle performans sağlanıyor, belleğin yarısı kullanılarak benzer sonuçlar elde edilebiliyor; 3n'de bunun somut olarak nasıl işlediği kesin değil ama genel yöntem böyle açıklanıyor
Haberden, Google DeepMind'ın Per-Layer Embeddings (PLE) kavramını gerçekten yeni baştan tanıtmış olabileceği yorumu yapılıyor; mimarinin ayrıntılarını doğrulamak için makalenin yayımlanmasını beklemek gerektiği söyleniyor
Blogda alıntılanan makalenin gerçek teknik temel olabileceği, “Per-Layer Embedding Dimensionality” adının daha açıklayıcı göründüğü not edilerek ilgili makale bağlantısı veriliyor
Bunun katman başına LoRA adapter yaklaşımı olup olmadığı tahmin ediliyor; Apple'ın da cihaz üstü yapay zekada bu yöntemi kullandığı belirtiliyor
Bu kadar küçük modellerle mümkün olan şeylerin kendisi şaşırtıcı bulunuyor; zaten telefonumda ve bilgisayarımda birkaç kez kullandım, ama öte yandan özellikle iOS'ta uygulamalar arasında model paylaşımı fiilen mümkün olmadığından uygulama boyutlarının patlamasından endişe ediliyor; ileride şirket uygulamalarının rastgele LLM'ler gömmesi kolayca hayal edilebiliyor
Bu sorun eninde sonunda iOS'un çözmek zorunda kalacağı bir konu; pek çok uygulama bu teknolojiyi isteyecek ve Apple'ın ortalama uygulama boyutunu büyütmek istemeyeceği için kendi çözümünü geliştireceği düşünülüyor; öte yandan Apple'ın geliştiricilere kendi modelini kullanmayı “gizlilik” gerekçesiyle dayatabileceği, bunun aslında tekelci bir neden olabileceği tahmin ediliyor
Windows OS düzeyinde LLM'ye (
Copilot), Chrome tarayıcı düzeyinde LLM'ye (Gemini), Android de OS düzeyinde LLM'ye (Gemmax) hazırlanıyor; hatta konsollara bile OS LLM geleceğine dair söylentiler var, sonuçta uygulamaların kendi LLM'lerini gömmeden yerel endpoint üzerinden cihaz üstü üretim kullanacağı bir senaryo giderek gerçekçi görünüyorSonnet 3.7 ile kıyaslamak hakaret gibi; “Eyfel Kulesi ile futbol topundan hangisi daha büyüktür?” sorusuna “Futbol topu daha büyüktür, çünkü Eyfel Kulesi küçük ve uzundur, bu yüzden gerçek hacmi futbol topundan küçüktür” tarzı bir yanıt ürettiği belirtilerek sağduyu hatasına dikkat çekiliyor