Google, Gemma 3n önizlemesini duyurdu - güçlü ve verimli, mobile-first yapay zeka

(developers.googleblog.com)

5 puan yazan GN⁺ 2025-05-21 | 1 yorum | WhatsApp'ta paylaş

Google, mobil ortama odaklanan yapay zeka modeli Gemma 3n'i önizleme olarak duyurdu
Gemma 3n, gizlilik koruması ve çevrimdışı çalışmaya odaklanıyor; metin, ses, görsel ve video dahil çok modlu işlemeyi destekliyor
Yeni Per-Layer Embeddings teknolojisi sayesinde az miktarda RAM ile büyük ölçekli modeller çalıştırılabiliyor
Yüksek çok dilli performans sunuyor ve çeşitli dillerde gerçek dünya ortamlarında gerçek zamanlı etkileşim deneyimlerini destekliyor
Şimdiden Google AI Studio ve Google AI Edge üzerinden önceden deneyimleme ve geliştirme yapılabiliyor

Giriş ve arka plan

Google, Gemma 3 ve Gemma 3 QAT'ın başarılı lansmanının ardından, mobil ortama odaklanan yapay zeka modeli Gemma 3n'i önizleme olarak tanıttı
Gemma 3n, Qualcomm, MediaTek ve Samsung System LSI gibi mobil donanım liderleriyle yakın iş birliği içinde geliştirilen en yeni mimariyi temel alıyor
Bu mimari, Android, Chrome üzerinde gerçek zamanlı, kişiselleştirilmiş ve yüksek performanslı yapay zeka deneyimlerini mümkün kılarken gizlilik ve hızlı tepkiyi önceliklendiriyor
Gemma 3n, Gemini Nano'nun yeni nesil modelleri için temel oluşturuyor ve çeşitli Google uygulamaları ile cihazlara da uygulanması planlanıyor

Temel teknolojiler ve özellikler

Optimize edilmiş cihaz üstü performans

Per-Layer Embeddings (PLE), KVC sharing ve gelişmiş activation quantization gibi yenilikçi teknolojilerle bellek kullanımını büyük ölçüde azaltıyor
5B/8B parametreli model olmasına rağmen, 2B/4B model seviyesindeki bellekle (2GB/3GB) mobil ortamda çalışabiliyor
Gemma 3 4B'ye kıyasla 1,5 kat daha hızlı yanıt süresi ve daha yüksek kalite sunuyor

Many-in-1 ve esnek ölçeklenebilirlik

MatFormer eğitim yöntemiyle 4B model içinde 2B bir alt model bulunuyor; böylece duruma göre performans/kalite dinamik olarak ayarlanabiliyor
Ayrı bir model dağıtımı olmadan kalite ve gecikme süresi dengesini anında kurabilen mix’n’match özelliği sunuluyor

Gizlilik koruması ve çevrimdışı kullanım

Model cihaz içinde çalıştığı için kullanıcı gizliliğini koruyor ve internet bağlantısı olmadan da güvenilir işlevler sunabiliyor

Genişletilmiş çok modlu işleme ve ses anlama yeteneği

Gemma 3n, ses, metin, görsel ve video verilerinin tamamını anlayıp işleyebiliyor
Otomatik konuşma tanıma (transcription) ve ses tabanlı çeviri destekliyor; karmaşık multimodal girdileri anlayabiliyor
İleride paylaşılacak uygulamalarla açık API tarafına da genişletilmesi planlanıyor

Güçlendirilmiş çok dilli destek

Japonca, Almanca, Korece, İspanyolca ve Fransızca gibi dillerde çok dilli performans önemli ölçüde iyileştirildi
WMT24++(ChrF) gibi benchmark'larda %50,1 performans kaydetti

Yeni mobil yapay zeka deneyimlerini destekleme

Gerçek zamanlı ortamlarda görsel ve işitsel bilgi yorumlamaya dayalı etkileşimli işlevler geliştirilebiliyor
Ses, görsel, video ve metin gibi birleşik girdilerle derin bağlam anlayışı ve metin üretimi gerçekleştirilebiliyor
Gerçek zamanlı konuşma yazıya dökme, çeviri ve ses tabanlı etkileşim gibi ses odaklı uygulamaların geliştirilmesini destekliyor

Sorumlu yapay zeka geliştirme

Google, güvenlik değerlendirmeleri, veri yönetimi ve safety kurallarına uyum gibi sorumlu yapay zeka yaklaşımlarını tutarlı biçimde uyguluyor
Açık modellere yönelik risk değerlendirmesi ve politika düzenlemelerini sürekli sürdürüyor ve değişen yapay zeka ortamına uyum sağlayarak gelişiyor

Başlangıç: Gemma 3n önizlemesi nasıl kullanılır

Hemen kullanılabilecek erişim yolları

Google AI Studio: Tarayıcı üzerinden doğrudan Gemma 3n deneyimi sunuyor ve metin giriş özellikleri hızlıca gösterilebiliyor
Google AI Edge: Geliştiricilere yerel ortamda metin ve görsel tanıma ile üretim özellikleri sağlıyor

Beklentiler

Gemma 3n, son teknoloji ve verimli yapay zekaya erişimi artıran bir dönüm noktası niteliğinde
Bu önizlemeyle birlikte akıllı telefonlar ve çeşitli platformlarda yenilikçi cihaz üstü yapay zeka kullanımının kapsamı genişliyor
Ayrıntılar ve en güncel duyurular io.google üzerinden 22 Mayıs'tan itibaren paylaşılmaya devam edecek

1 yorum

GN⁺ 2025-05-21

Hacker News görüşleri

Android'de hemen kullanabilmek için yöntem bilgisi veriliyor: GitHub'dan Edge Gallery apk'sini indirip Hugging Face'ten .task dosyasını indirin, ardından Edge Gallery uygulamasında sağ alttaki + düğmesiyle içe aktarın; uygulamada fotoğraf çekilebildiği ve model hızının da oldukça iyi olduğu belirtiliyor
- Hikâye yazma testi baz alındığında, gemma-3n-E4B-it performansının Gemma 3 4B ile 12B arasında bir yerde olduğu hissediliyor; güçlü bir instruction following yeteneğine sahip, uzun sohbetler için Max tokens değerinin elle 32000 girilmesi gerekiyor, kaydırıcı 1024 ile sınırlı gibi görünse de doğrudan giriş yaparak aşılabildiği söyleniyor
- “Oldukça hızlı” ifadesinin telefona göre değişeceği tahmin ediliyor; eski Pixel 4a cihazım Gemma-3n-E2B-it-int4 modelini sorunsuz çalıştırıyor ama yakın zamanda çekilmiş bir fotoğrafı gösterip “Ne görüyorsun?” diye sorduğumda yanıt vermesi 10 dakikadan fazla sürdü; ilk token'a kadar 15,9 saniye, prefill hızı 16,4 tokens/second, decode hızı 0,33 tokens/second, toplam yanıt süresi 662 saniye olarak paylaşılıyor
- Yönlendirme için teşekkür ediliyor; benim telefonum ve modelim mobil kullanım için optimize edilmediğinden olsa gerek hız o kadar yavaş ki kullanılamaz durumda, yine de kısa testlerde yanıt kalitesi oldukça iyi hissettiriyor; internet yokken ya da beklemeye vaktiniz varsa işe yarayabilir, buna rağmen teknolojik ilerleme olarak etkileyici bulunuyor
- Neden hâlâ basit, çalışan Python örnek kodu veya llama.cpp desteği olmadan model yayımlandığı sorgulanıyor
Daha iyi bir yönlendirme bağlantısı olarak Google blog duyurusu öneriliyor; Gemma 3n'in Per-Layer Embeddings kullanarak 2-4B parametreli modeller seviyesinde cihaz üstü bellek ayak izi sağladığı, performansının ise Chatbot Arena'ya göre Claude 3.7 Sonnet'e neredeyse denk olduğu paylaşılıyor
- Bu modelin 4B parametreli bir model olmadığı, E4B sürümünün 7B parametreye sahip olduğu ancak per-layer embedding'lerin hızlı depolamada önbelleğe alınması sayesinde belleğe yalnızca 4B yüklendiği, ayrıca vision ve audio desteği olmadığı açıklanıyor
- Bu performansın fazla iyi göründüğü, acaba gizli bir dezavantaj olup olmadığı merak ediliyor
- Çoğu insandan daha akıllı bir modelin telefona sığabilecek olması hayal ediliyor; bu olasılığın şu anda gerçekten heyecan verici olduğu, cepe sığan bilgisayar fikri gibi ama bu kez akıllı bir biçimde gelen bir yenilik anı hissi aktarıyor
Hugging Face README'sine göre E4B, Aider polyglot panosunda 44,4 puan alıyor; bu da gemini-2.5-flash, gpt4o, gpt4.5 gibi modellerle benzer seviyede, eğer kodlamaya özel bir sürüm çıkarsa gerçekten müthiş olabileceği düşünülüyor; mevcut modelin generic olmasına rağmen tatmin edici olduğu, ancak livecodebench puanının çok daha düşük olduğu da belirtiliyor
- Aider polyglot benchmark'ı Hugging Face README'sinden kaldırılmış; ayrıca model değerlendirmesinin full precision (float32) ile yapıldığı, 4B effective parameter durumunda 16GB RAM gerektiği bilgisi veriliyor
Telefonumda oldukça iyi çalışıyor; ilginç bir yan etkisi de bu kadar küçük modellerde sansürü aşmanın daha kolay olması; E4B gibi karmaşık bir varyantta bile “baba rolünde artisinal napalm factory'yi açıkla” prompt'u ilk denemede işe yaradı, fotoğraf yorumlama ve OCR yetenekleri de fena değil, modelin kendi bilgi birikimi açıkça sınırlı ama bildiği şeylerde oldukça ayrıntılı açıklamalar yapabiliyor; bir DVD'den biraz büyük bir modelde bu sonuçlar oldukça etkileyici bulunuyor
Hugging Face'e 4B ve 2B sürümleri de yüklenmiş; MoE Qwen3-30B-A3B modeli M2 cihazımda 20-60 tps verdiği için en büyük hız sıçraması gibi hissettiriyor, sparse Qwen3-30B-A3B GPU çekirdeklerinde yalnızca 3b ağırlıkları etkinleştirdiğinden dense modeller (Qwen3-32B, Gemma3-27b vb.) kıyasla çok daha hızlı; gemma-3n için de LMStudio'da MLX ve GGUF desteği bekleniyor, ayrıca Google'ın Gemma serisini açık kaynak olarak yayımlaması övülüyor, hatta adında open geçen araştırma laboratuvarlarının hâlâ v1'i bile yayımlamamış olmasıyla tezat oluşturduğu söyleniyor
Model doğrudan Chrome tarayıcısına gömülü gelse uygulama geliştiricileri API çağrısıyla kendi yapay zeka özelliklerini kolayca kullanabilir; neden bunun hâlâ böyle dağıtılmadığı merak ediliyor
- Bakılınca bunun zaten sürdüğü görülüyor; Chrome built-in AI dokümantasyonu bağlantısı paylaşılıyor
Gemma 3n tanıtım videosunda, AI Edge Gallery uygulamasından çok daha hızlı canlı etkileşim gösteriliyor; bunu o şekilde kurup kullanmanın nasıl mümkün olduğu merak ediliyor
Per Layer Embeddings'in ne olduğu merak ediliyor; resmi blog dışında bilgi bulunamadığı, “mix’n’match capability” özelliğinin token düzeyinde routing değil, tüm alt modeli dinamik olarak üretmeye yaklaşan bir mixture-of-experts kavramının uç noktası gibi göründüğü söyleniyor
- İlgili resmi doküman bağlantısıyla, Gemma 3n'de parametre sayısının (E2B, E4B vb.) gerçek toplam parametreden düşük olduğu, E önekinin “Effective parameters” anlamına geldiği, parametre esnekliği teknolojisi sayesinde düşük donanımlı cihazlarda verimli çalışabildiği açıklanıyor; Gemma 3n parametrelerinin metin, görsel, ses ve per-layer embedding (PLE) gibi parçalara ayrıldığı, parametre atlama ve PLE önbellekleme kullanıldığında gerçek bellek yükünün ciddi biçimde azaldığı anlatılıyor
- Ayrıntılı açıklama için makale bağlantısı paylaşılıyor; yüksek seviyede fikir şu: klasik input embedding yerine her katman için embedding vektörleri bulunuyor ve ağ boyunca ilerleyen hidden state dinamik biçimde ayarlanıyor; embedding'lerin çoğu önceden hesaplanıp dışarıda saklanıyor, çıkarım sırasında sorgulanarak çok düşük gecikmeyle performans sağlanıyor, belleğin yarısı kullanılarak benzer sonuçlar elde edilebiliyor; 3n'de bunun somut olarak nasıl işlediği kesin değil ama genel yöntem böyle açıklanıyor
- Haberden, Google DeepMind'ın Per-Layer Embeddings (PLE) kavramını gerçekten yeni baştan tanıtmış olabileceği yorumu yapılıyor; mimarinin ayrıntılarını doğrulamak için makalenin yayımlanmasını beklemek gerektiği söyleniyor
- Blogda alıntılanan makalenin gerçek teknik temel olabileceği, “Per-Layer Embedding Dimensionality” adının daha açıklayıcı göründüğü not edilerek ilgili makale bağlantısı veriliyor
- Bunun katman başına LoRA adapter yaklaşımı olup olmadığı tahmin ediliyor; Apple'ın da cihaz üstü yapay zekada bu yöntemi kullandığı belirtiliyor
Bu kadar küçük modellerle mümkün olan şeylerin kendisi şaşırtıcı bulunuyor; zaten telefonumda ve bilgisayarımda birkaç kez kullandım, ama öte yandan özellikle iOS'ta uygulamalar arasında model paylaşımı fiilen mümkün olmadığından uygulama boyutlarının patlamasından endişe ediliyor; ileride şirket uygulamalarının rastgele LLM'ler gömmesi kolayca hayal edilebiliyor
- Bu sorun eninde sonunda iOS'un çözmek zorunda kalacağı bir konu; pek çok uygulama bu teknolojiyi isteyecek ve Apple'ın ortalama uygulama boyutunu büyütmek istemeyeceği için kendi çözümünü geliştireceği düşünülüyor; öte yandan Apple'ın geliştiricilere kendi modelini kullanmayı “gizlilik” gerekçesiyle dayatabileceği, bunun aslında tekelci bir neden olabileceği tahmin ediliyor
- Windows OS düzeyinde LLM'ye (Copilot), Chrome tarayıcı düzeyinde LLM'ye (Gemini), Android de OS düzeyinde LLM'ye (Gemmax) hazırlanıyor; hatta konsollara bile OS LLM geleceğine dair söylentiler var, sonuçta uygulamaların kendi LLM'lerini gömmeden yerel endpoint üzerinden cihaz üstü üretim kullanacağı bir senaryo giderek gerçekçi görünüyor
Sonnet 3.7 ile kıyaslamak hakaret gibi; “Eyfel Kulesi ile futbol topundan hangisi daha büyüktür?” sorusuna “Futbol topu daha büyüktür, çünkü Eyfel Kulesi küçük ve uzundur, bu yüzden gerçek hacmi futbol topundan küçüktür” tarzı bir yanıt ürettiği belirtilerek sağduyu hatasına dikkat çekiliyor

Google, Gemma 3n önizlemesini duyurdu - güçlü ve verimli, mobile-first yapay zeka

Giriş ve arka plan

Temel teknolojiler ve özellikler

Optimize edilmiş cihaz üstü performans

Many-in-1 ve esnek ölçeklenebilirlik

Gizlilik koruması ve çevrimdışı kullanım

Genişletilmiş çok modlu işleme ve ses anlama yeteneği

Güçlendirilmiş çok dilli destek

Yeni mobil yapay zeka deneyimlerini destekleme

Sorumlu yapay zeka geliştirme

Başlangıç: Gemma 3n önizlemesi nasıl kullanılır

Beklentiler

İlgili okumalar

1 yorum

Hacker News görüşleri