Gemma 4 12B: Entegre enkodersüz çok modlu model
(blog.google)- Gemma 4 12B, dizüstü bilgisayarlarda ajan tabanlı çok modlu zekayı çalıştırmak için tasarlanmış orta ölçekli bir modeldir ve edge dostu E4B ile daha gelişmiş 26B MoE arasındaki boşluğu doldurur
- Enkodersüz entegre mimari ile görüntü ve ses girdilerini ayrı bir çok modlu enkoder olmadan doğrudan LLM omurgasına aktararak gecikmeyi ve bellek kullanımını azaltmayı hedefler
- Standart benchmark performansı daha büyük 26B MoE modeline yaklaşırken toplam bellek kullanımı bunun yarısından azdır; 16GB RAM ya da VRAM/birleşik bellek ortamına sahip tüketici dizüstü bilgisayarlarda yerel olarak çalıştırılabilir
- Gemma 4 12B, Gemma ailesindeki ilk orta ölçekli model olarak yerel ses girdisi desteği sunar ve Multi-Token Prediction drafters ile gecikmeyi azaltmayı amaçlar
- Gemma 4 modelleri 150 milyondan fazla indirmeyi aştı; Gemma 4 12B ise Apache 2.0 lisansı ve başlıca geliştirme araçları ile dağıtım yolları desteği sayesinde yerel çok modlu ajan geliştirme alanını genişletir
Temel özellikler
- Gemma 4 12B, yüksek performanslı çok modlu zekayı doğrudan dizüstü bilgisayarlara getirmek için tasarlanmıştır; mobile-first verimliliği gelişmiş akıl yürütmeyle birleştirir
- Edge dostu E4B ile daha gelişmiş 26B Mixture of Experts(MoE) arasında konumlanır ve azaltılmış bellek ayak izine güçlü yetenekler sığdırır
- Başlıca özellikler şunlardır
- Görüntü ve ses girdilerini çok modlu enkoder olmadan doğrudan LLM omurgasına aktaran entegre mimari
- 26B modele yakın benchmark performansı ile çok aşamalı akıl yürütme ve ajan iş akışı desteği
- Yalnızca 16GB VRAM veya birleşik bellekle yerel olarak çalışabilen dizüstü bilgisayar hazırlığı
- Apache 2.0 lisansı ve geliştirici ekosistemi desteği
- Multi-Token Prediction(MTP) drafters ile gecikme azaltımı
Enkodersüz çok modlu işleme yaklaşımı
- Mevcut çok modlu modeller genellikle görüntü ve sesi ayrı enkoderlerle dönüştürür, ardından bu temsilleri dil modeline iletir
- Gemma 4 12B, ayrık enkoderlerin gecikmeyi ve bellek kullanımını artırmasını önlemek için ses ve görüntü girdilerini doğrudan entegre edecek şekilde eğitilmiştir
- Görüntü işlemede, Gemma 4’ün görüntü enkoderi; tek bir matris çarpımı, konumsal gömme ve normalizasyondan oluşan hafif bir gömme modülüyle değiştirilir, böylece görsel işlemeyi LLM omurgası üstlenir
- Ses işlemede, ses enkoderi tamamen kaldırılır ve ham ses sinyali metin tokenlarıyla aynı boyutsal uzaya projekte edilir
- Geliştiricilere yönelik daha ayrıntılı mimari açıklama için Gemma 4 12B Developer Guide incelenebilir
Başlangıç yolları
- Birkaç tıklamayla LM Studio, Ollama, Google AI Edge Gallery App, Google AI Edge Eloquent uygulaması ve LiteRT-LM CLI üzerinde denenebilir
- Ön eğitimli ve instruction-tuned checkpoint'ler Hugging Face ve Kaggle üzerinden indirilebilir
- Entegrasyon ve eğitim için developer documentation ve quick start notebook kullanılabilir
- Yerel çıkarım hattı Hugging Face Transformers, llama.cpp, MLX, SGLang, vLLM ile kurulabilir; verimli fine-tuning için Unsloth kullanılabilir
- Resmî Skills Repository, ajanların en yeni Gemma yetenekleriyle geliştirilebilmesi için tasarlanmış bir beceri kütüphanesidir
- Üretim endpoint'leri Google Cloud üzerinde Gemini Enterprise Agent Platform Model Garden, Cloud Run ve GKE aracılığıyla dağıtılabilir
4 yorum
Bunu 32 GB RAM’li M1 MacBook’umda denemem gerekecek. 12B ise iyi gibi görünüyor
Bu daha yeni çıkmadıysa neden şimdi gündeme geliyor?
Daha önce yalnızca e modeli ile 26b ve 31b vardı; gemma 4 12b modeli ise bu kez yeni çıktı.
Hacker News görüşleri
Sonuçlar iyiydi ama fazladan bir kapatma parantezi eklemek ya da fonksiyon tanımlarını virgülle ayırmaya çalışmak gibi tuhaf ve küçük bazı sözdizimi hatalarını birkaç kez elle düzeltmem gerekti
Bu ipuçlarını dikkate alınca yerel bir kodlama modeli olarak gayet iyi ve yalnızca çıktıya bakınca yaklaşık 14 ay önce çıkan GPT-4.1 ile kabaca benzer görünüyor: https://senko.net/vibecode-bench/2025/minesweeper-gpt-4.1.ht...
12GB VRAM'li tüketici kartında 4 bit GGUF ile 5 token/sn çıktı verdi; etkileşimli kodlama için yavaş ama oldukça kullanılabilir bir model
Bir yıldan biraz fazla süre içinde, bir zamanlar GPT-4.1 seviyesinde sayılan kodlama performansının 12 milyar parametreli bir model tarafından belirli bir benchmark'ta neredeyse yakalanmış olması ilginç
Test edilen çeşitli modellerin listesi: https://senko.net/vibecode-bench/
Genel kodlama performansı muhtemelen Qwen 3.6 35B A3B, Gemma 4 26B A4B, Nvidia Nemotron 3 Nano 30B-A3B ve gpt-oss-20b gibi diğer küçük modellere göre daha düşük olacaktır
16GB dizüstünde Qwen 3.5 9B açık ara en güçlü seçenek ve küçük kodlama modellerinin zirvesi Gemma 4 31B, ancak dense olduğu için tam bağlamı kullanmak adına yaklaşık 48GB birleşik bellek gerekiyor
Bu hız, 4 bit için o boyuttaki bir modeli DDR4 RAM bant genişliğiyle çalıştırırken görülebilecek bir değer; RTX 2080 ya da RTX 3060 gibi 12GB tüketici Nvidia GPU'larda llama.cpp CUDA backend ile 20 token/sn üzeri görülmesi gerekir
“Gemma 4'ün vision encoder'ını tek bir matris çarpımı, konumsal gömme ve normalizasyondan oluşan hafif bir gömme modülüyle değiştirdik” açıklaması teknik olarak hâlâ bir kodlama işlemi ve sanırım SigLIP gibi özel bir model kullanmadıkları anlamına geliyor
Geliştirici kılavuzunda bunu 35M katman olarak biraz daha açıklıyorlar ama yeterince sağlam olup olmadığını merak ediyorum: https://developers.googleblog.com/gemma-4-12b-the-developer-...
“16GB RAM'li tüketici dizüstüsünde yerelde çalışabilir” ifadesi sanki kuantizasyonu varsayıyor ve kalite kaybı düşünülünce biraz yanıltıcı olabilir
FAIR bunu zaten 2 yıl önce yapmıştı: https://arxiv.org/abs/2405.09818
O zamandan beri böyle bir modelin açık olarak yayımlanmasını bekliyordum; can sıkıcı tarafı, Chameleon aynı ilkeyle çok modlu çıktı da üretebilirken bu modelin yalnızca girdi kabul etmesi
Çok modlu çıktı olmadan ön eğitimin nasıl yapıldığını merak ediyorum ve görüntü çıktısı desteğinin özellikle çıkarılıp çıkarılmadığını da bilmiyorum
16GB Mac sahibi çok insan vardır, özellikle de gazeteciler; herkes uygulamayı indirip modeli kurarak hemen deneyebilir
Artık gazetecilerin OpenAI'nin tüketici gelir projeksiyonları hakkında sorular sormaya başlaması gerekiyor gibi geliyor
Yapay zekâya karşı epey şüpheciyim ama bilgili bir şüpheci olmaya çalıştığım için yerel modellerle ajan görevleri ve CAD-to-image üretimini biraz denedim; Gemma 26B modelini oldukça beğendim
Bunu buluta bağımlılık oluşturmadan temelleri öğrenmek ve OpenCode'a alışmak için kullanıyorum; ayrıca oldukça iyi kod yazıyor ve kendi istediğim hızda öğrenmeme yardımcı oluyor
Bu 12B model tanıtıldığı kadar bile olsa, hatta bunun yarısına yaklaşsa bile, en azından kısa vadede tüketiciye yönelik bulut iş modeli hakkında soru işaretleri yaratır
Bu uygulamanın MTP drafter kullanıp kullanmadığı belli değil; Gemma'da henüz doğrudan çalıştıramadım ama Qwen 3.6'nın yerleşik MTP desteği LM Studio'da harikaydı
Kuantizasyona fazla takılmadan önce temel model performansının ne kadar olduğuna bakmak gerekir
Bu tür verimlilik artışlarını geliştirmeye devam etmeleri hem şaşırtıcı hem de değil. Silikon ve CPU mimarilerindeki ilerleme gibi, sürekli küçülüp güçleniyor; yapay zekânın da zamanla 100 kat daha verimli olacağını düşünüyorum
Bir noktada elbette sınırlar olacaktır ama önümüzdeki 30 yılın, geçen 30 yıldan daha fazla ilerleme getirmesi muhtemel; gen düzenlemenin yaşlanan hücreleri ve organları onardığı, kanseri tedavi ettiği, Blade Runner benzeri futuristik bir dünyada yaşayabiliriz
Bizim yaşamımızdan sonra insanlar istikrarlı biçimde 125 yaşına kadar hareket kabiliyetini koruyarak yaşayacak gibi görünüyor; sonunda 1000 yıllık ömrü bile düşünmeye başlayacağız gibi.
30 yıl öncesine bakıp 30 yıl sonrasını düşününce, akıl almaz derecede değişmiş olacak gibi. Tanrı bizi korusun.
Şu an kesinlikle ilginç bir dönem ama en ileri gelişmeler açısından bakınca hâlâ toplanabilecek çok sayıda alçakta duran meyve var.
Ancak az sayıdaki parametreye sığdırılabilecek “bilgi”nin bir tabanı var.
Radyo, havacılık, hatta mikro bilgisayarların ilk dönemleri de herhalde böyle hissettiriyordu.
Ömür optimizasyonunu kariyer ya da hobilerin önüne koyan yolu seçtim. Geleceği görmek istiyorum ve bu AI akışı gerçekten çok ilginç.
Hayır, öyle değil.
Büyük modeller hâlâ çok daha ileride ve Gemma 31B bile genel olarak 12B'den daha iyi, ama büyük modellere yaklaştığını sanmamak lazım.
Optimizasyon alanı kesinlikle var, ancak karmaşık işlerde doğruluk için eğitim sırasında yakalanıp çıkarım sırasında takip edilebilen küçük ve görünür gradyanlar gerekiyor.
Örneğin kod yazmamasını söyleyip bir kodlama sorusu sorarsanız Gemma hâlâ kod yazar, ama Gemini ya da Claude o nüansı yakalayıp talimatı daha iyi izler.
Google'ın açık model yayımlamasının ticari gerekçesini merak ediyorum. Böyle bir açıklığa minnettarım ama kâr amaçlı bir şirket olarak bunun büyük resme nasıl oturduğunu anlamak istiyorum.
Rakiplerin, kendi geliştirdiği yeni teknolojinin üstüne çıkmasına yardım ediyor olmuyor mu?
Bunun sadece iyi niyet ya da pazarlama mı olduğunu, yoksa benim kaçırdığım bir strateji mi bulunduğunu merak ediyorum.
Çıkarım yeterince popüler ve değerli hâle gelip bu şirketler milyarlarca dolar kâr ederse, o kârla Google ile müşterileri arasını kesen alternatif ürünler ve platformlar kurabilirler.
Google zaten dünyanın en büyük ölçekli %80 brüt marjlı işine sahip ve herkes bunun bir kısmını istiyor.
Frontier çıkarımı maliyete yakın sunup, frontier altı modelleri açık kaynak yaparak modelleri emtialaştırırsa, frontier laboratuvarlarının çıkarımda sürekli yüksek brüt marj üretmesi zorlaşır.
Bu stratejik bir hamle.
Şu anda benim şirketim de birçok platform ürününe tam ağırlık vermiş durumda ve Microsoft da dün hedefinin “Unmetered intelligence” olduğunu söyledi.
Küçük yerel modellerin mümkün kıldığı çok şey var ve bunlar başka katmanlarda gelir üreten yığının bir parçası oluyor.
Nasıl olsa birileri ağırlıkları çıkaracaktır; bu yüzden doğrudan açık kaynak olarak yayımlayıp resmileştirmek daha kolay.
AI benimsenmesi arttıkça bununla birlikte yükselir ve insanlar Google çözümlerini seçtiğinde daha da avantajlı olur.
Google modellerine gönderilen her token, ücretsiz ya da ücretli olsun, rakiplerin en ileri seviyeyi korumak için devasa para harcamasına neden olan bir baskı unsurudur.
Mesele modeli yayımlayıp yayımlamamak ya da sadece saf Ar-Ge için kullanmak.
Başka yerler de benzer kalitede modeller yayımladığı için bu akıma katılmanın kendi ayağına kurşun sıkmak olduğunu düşünmek zor.
Ek öz-yamyamlaştırma fiilen sıfıra yakın ve itibari kazanç muhtemelen buna değer.
Görüntü işleme berbat. Qwen 3.5 0.8B ile çeşitli testler yaptım; boyutu sadece %7 olmasına rağmen Qwen her seferinde kazandı ve Gemma çoğu kez tamamen yanlış yaptı.
Üzerinde “This is a test” yazan basit bir görsel verdim; 6 dakika boyunca analiz etmeye çalışıp başarısız oldu, Qwen 3.5 0.8B ise 1 saniyeden kısa sürede kendinden emin biçimde doğru bildi.
Elimdeki Q6 kuantizasyonu bozuk olabilir ya da LM Studio sorunu olabilir, ama her iki durumda da 0.8B'nin performansı kıyaslandığında şaşırtıcı.
Gemma3 modelinde de görselde teşhircilik ya da cinsel sahne var diyerek açıklamayı reddettiği çok oluyordu ve bu davranışın mantığını anlayamamıştım.
Mimari değişikliklerden bağımsız olarak, Gemma4 ön eğitimli model serisinde 4B ile 26B arasının neden tuhaf biçimde boş olduğuna dair bir yanıt gibi görünüyor.
Bağlam payı da bırakıp 16GB VRAM'e rahatça sığan bir model memnuniyet verici bir yükseltme.
Multimedya hariç bunun, prismml'in qwen2.5 tabanlı 1.5 bit modelinden ne kadar daha iyi olduğunu merak ediyorum.
Bu tür küçük modellerin kullanım örneklerini merak ediyorum. Bu ölçekte bir modeli günlük olarak kullanan biri gerçek deneyimini paylaşabilir mi?
Taranmış belgeleri biçimli metne dönüştürmek, görsel başlığı/açıklaması ve hedefe uygunluk sınıflandırması yapmak (spam önleme dahil), belgeleri ilgili Wikipedia sayfalarıyla eşleştirip etiketlemek gibi işler.
Bunları frontier modeller gibi kullanmıyorum; her promptun tek ve net bir hedefi olacak şekilde mikro görevlere bölüyorum.
Tüm akışın çalışması için epey yapıştırıcı kod da kullanıyorum ve bu işler LLM'lerden önce de yaptığım şeylerdi.
LLM'ler sayesinde karmaşık kodu azaltıp modele eklemeler yaparak daha iyi sonuçlar alabildim.
Yerel model kullanma nedenim maliyet ve kontrol. Zaten iş istasyonum ve GPU'm vardı; işletim maliyeti sadece elektrik.
OpenAI ve Google'ın kapalı modellerini de kullandım ama araçlarımın dayandığı model emekliye ayrılınca sarsıldığım oldu. Ağırlıkları yerelde saklayınca böyle bir endişe kalmıyor.
Kısa süre önce ekran görüntüsüne bakıp dosya içeriğine göre dosya adını değiştiren küçük bir uygulama da gördüm.
Bunun gibi birçok küçük örnek var ve pek çok kullanım senaryosunda frontier modellere hiç ihtiyaç yok.
Gemma’yı birkaç yıllık çevrimiçi yazı inceleme ve sınıflandırma işlerinde kullandım. Katkı verdiğim açık kaynak proje forumları, HN, Reddit vb. yerlerde yazdığım yaklaşık 5 milyon kelimeyi kapsıyordu ve yazılar bana ait olduğu için veri kaynağı etiği konusunda endişe duymadan LoRA eğitimi de denedim
Şu anda belirli bir sektöre yönelik web araması ve veri çıkarımı için kullanıyorum
Verilen bir şehirde o sektördeki işletmeleri bulacak, web sitelerini okuyacak, adres ve telefon numarası gibi bilgileri çıkaracak, yinelenenleri kaldıracak ve hatta başka kaynaklarla çapraz doğrulama yapacak kadar yeterince akıllı
Gemma 4, Gemini 2.5 Flash’tan daha iyi ya da en azından daha incelikli değerlendirmeler yaptı ve yeni Gemini 3.5 Flash çok iyi ama gerçekçi olmayacak kadar pahalı
Çok yüksek hız gerekmiyorsa, kendi barındırdığım Gemma 4 birçok görevde öne çıkıyor
Qwen 3.6 27B de boyutuna göre güvenlik hatalarını bulmada şaşırtıcı derecede iyi. Daha büyük birkaç modeli geçiyor ve Gemini Pro 3.1’e yakın, ama Gemini 3.5 Flash beklenmedik şekilde belirgin biçimde daha iyi
Yalnızca elektrik masrafı var; elektriğim ucuz ve %100 yenilenebilir, bu yüzden barındırılan modellere göre daha geniş kullanım mümkün
Yine de akıllıca para harcamak, sağlayıcıların sübvansiyon gibi ucuza sunduğu tokenları hâlâ satın almak yönünde
30GB üstü modelleri çalıştıracak donanım almak yerine Claude veya Codex’in 100 dolarlık aboneliğiyle en iyi modelleri ciddi indirimli fiyatla kullanmak şu anda daha avantajlı
Otomasyon API’si gerekiyorsa, DeepSeek/MiMo Anthropic veya OpenAI’nin en iyi modellerinden bir ya da iki büyüklük mertebesi daha ucuz
İki çıkarım makinesine yaklaşık 4000 dolar harcadım; bu parayla bu tür küçük modeller için birkaç yıllık token alınabilir
Ama donanımla uğraşmayı seviyorum, bu kendi başına bir ödül; bir kısmını geri çıkarabilirsem bu da bonus olur
Büyük sağlayıcılar sübvansiyonlu tokenlarla para yakmayı bırakıp tam ücretlendirmeye geçmeye çalışırsa hesap değişebilir ve RAM fiyatları 2-3 kat artmadan önce ekipman almış olmak şans sayılabilir
Teknolojiyi öğrenmek ya da bizzat eğitim denemeleri yapmak gibi bir niyetiniz yoksa, çoğu durumda yerelde çalıştırmayı denememek muhtemelen daha iyi
Yerel model kullanımı için çok somut bir fikriniz varsa ekran kartı ya da NPU olmadan da iyi çalışacak şekilde kurabilirsiniz
Ama kullanım biçimini son derece sınırlamanız gerekiyor. Genel amaçlı bir sohbet botu olarak iyi değil; yerel LLM’leri sevsem de o kullanımda barındırılan en yeni modelleri tercih ederim
Sonnet’e verilebilecek kadar kolay işlerse Gemma 4’e de veriyorum ve çok iyi iş çıkarıyor
Olumsuz anlamda şaşırmaktan çok olumlu anlamda şaşırdığım oluyor
Gemma 4’ün başarısız olup Opus 4.7’ye geçtiğim, ama Opus’un da başarısız olduğu durumlarla da az karşılaşmıyorum
Oldukça iyi bir güncelleme. Ama demo videosu biraz komik
Test eden kişi modelden sürüm notlarını madde işaretlerine dönüştürmesini istiyor ve model bunu iyi yapıyor
Ardından bu içerikten bir e-posta taslağı oluşturmasını isteyince, talep edilmediği hâlde madde işaretlerini paragrafa çevirip az önce iyi yaptığı şeyi geri alıyor
E-postalarda madde işareti kullanmama gibi bir görgü kuralı mı var bilmiyorum
Almanca ile ilgili benchmark’ı hızlıca dağıtıp kontrol ettim. CohereLabs/include-base-44 Almanca özel sonucunda Gemma 4 12B yaklaşık 0.618 alıyor
Gemma 4 26B(A4B MoE) 0.647, Qwen 3 14B 0.621, Gemma 4 12B 0.618, Ministral 14B 2512 0.604, Gemma 3 12B ise 0.547
Qwen 3 14B ile Gemma 4 12B arasındaki fark rastgele dalgalanma aralığında; tekrar çalıştırmalarda birebir aynı puanın çıktığı da oldu
Bir sonraki basamak olan Gemma 4 31B bu benchmark’ta 0.676 alıyor; muhakemeye izin verilen Qwen 3 14B de 0.676 veriyor
Yarın hile önleme benchmark’ını da çalıştırıp Qwen’in hâlâ önde olup olmadığını kontrol etmeyi planlıyorum