- Google, Gemma 4 duyurusundan yalnızca birkaç hafta sonra 60 milyondan fazla indirmeyi aştı ve Gemma 4 ailesi için çoklu token tahmini (MTP) drafter modelini duyurdu
- MTP drafter, çıktı kalitesini veya çıkarım mantığını düşürmeden çıkarım hızını 3 kata kadar artıran, özelleşmiş bir spekülatif kod çözme (speculative decoding) mimarisidir; LiteRT-LM, MLX, Hugging Face Transformers ve vLLM kullanan donanımlarda test edildi
- Standart LLM çıkarımı, tek bir token üretmek için milyarlarca parametreyi VRAM’den hesaplama birimlerine taşımak zorunda olduğundan büyük bir bellek bant genişliği darboğazı yaşar; MTP ise hafif bir drafter’ın birden fazla gelecekteki token’ı önermesini, ardından hedef modelin bunları paralel olarak doğrulamasını sağlar
- Hedef model taslak token’ları kabul ederse, tüm diziyi tek bir ileri geçişte kabul eder ve buna ek olarak bir token daha üretir; böylece uygulama genellikle tek bir token süresinde taslak dizi ile ek token’ı çıktılayabilir
- MTP drafter, hedef modelin aktivasyonları ile KV cache’ini paylaşır ve E2B·E4B edge modellerinde verimli embedder kümelendirmesi uygular; ağırlıklar Hugging Face ve Kaggle üzerinden Apache 2.0 lisansıyla sunuluyor
Spekülatif kod çözmeye neden ihtiyaç var
- Standart LLM çıkarımı bellek bant genişliğine bağlı olduğundan gecikme darboğazı büyür
- İşlemciler, tek bir token üretmek için milyarlarca parametreyi VRAM’den hesaplama birimlerine taşımaya zamanlarının çoğunu harcar
- Bu yapı, özellikle tüketici donanımında hesaplama kaynaklarının yeterince kullanılamamasına yol açar ve gecikmeyi artırır
- Spekülatif kod çözme, token üretimi ile doğrulamayı birbirinden ayırır
- Ağır hedef model, örneğin Gemma 4 31B, hafif bir drafter olan MTP modeliyle eşleştirilir ve boşta duran hesaplama kaynakları kullanılarak birden fazla gelecekteki token aynı anda tahmin edilir
- Drafter, hedef modelin bir token işlemesi için gereken süreden daha kısa sürede birden fazla token önerir ve hedef model önerilen token’ları paralel olarak doğrular
MTP nasıl çalışır
- Standart büyük dil modelleri metni otoregresif biçimde üretir ve her seferinde tam olarak yalnızca bir token oluşturur
- Bu yaklaşım, “Actions speak louder than…” ifadesinin ardından “words” kelimesini tahmin etmek gibi kolay bir devam ettirme ile karmaşık bir mantık bulmacasını çözmeye aynı miktarda hesaplama ayırır
- MTP, Google araştırmacılarının Fast Inference from Transformers via Speculative Decoding çalışmasında tanıttığı spekülatif kod çözme yaklaşımıyla bu verimsizliği azaltır
- Hedef model taslak token’ları kabul ederse, tüm diziyi tek bir ileri geçişte kabul eder ve hedef model aynı anda kendisi de ek bir token üretir
- Uygulama, genellikle tek bir token üretmek için gereken sürede tüm taslak diziyi ve bir ek token’ı çıktılayabilir
Geliştiriciler için performans etkisi
- Geliştiriciler için çıkarım hızı çoğu zaman üretim dağıtımlarındaki başlıca darboğazlardan biridir
- Hızlı çok adımlı planlama gerektiren otonom ajanlar, kodlama asistanları ve tamamen cihaz üzerinde çalışan tepkisel mobil uygulamalarda milisaniyelik gecikmeler bile önemlidir
- Gemma 4 modelleri ilgili drafter ile birlikte kullanıldığında şu etkiler elde edilebilir
-
Tepkisellikte iyileşme
- Neredeyse gerçek zamanlı sohbetlerde, sürükleyici ses uygulamalarında ve ajan tabanlı iş akışlarında gecikme önemli ölçüde azaltılabilir
-
Yerel geliştirmeyi hızlandırma
- Kişisel bilgisayarlarda ve tüketici GPU’larında 26B MoE ve 31B Dense modeller daha hızlı çalıştırılarak karmaşık çevrimdışı kodlama ve ajan tabanlı iş akışları desteklenir
-
Cihaz üzerindeki performans artışı
- E2B ve E4B modelleri edge cihazlarda daha hızlı çıktı üretir ve bu da cihazın pil kullanımını azaltmaya yardımcı olur
-
Kalite kaybı yok
- Temel Gemma 4 modeli son doğrulamayı koruduğu için aynı çıkarım ve doğruluk düzeyi çok daha yüksek hızda sunulur
- NVIDIA RTX PRO 6000 üzerinde çalışan Gemma 4 26B örneği, standart çıkarım ile MTP drafter’ın saniye başına token sayısı farkını karşılaştırır ve aynı çıktı kalitesinde gecikmenin yarı yarıya düştüğünü gösterir
- Karşılaştırma videosu indirilebilir
MTP drafter’ın iç optimizasyonları
- MTP drafter’ı hızlı ve doğru kılmak için çeşitli mimari iyileştirmeler uygulandı
- Taslak model, hedef modelin aktivasyonlarını doğal biçimde kullanır ve hedef modelin KV cache’ini paylaşır
- KV cache paylaşımı sayesinde büyük model, zaten işlemiş olduğu bağlamı yeniden hesaplamak için zaman harcamaz
- E2B ve E4B edge modellerinde son logit hesaplaması büyük bir darboğaz olduğundan, üretimi hızlandırmak için embedder’da verimli bir kümelendirme tekniği uygulandı
- Donanıma özgü optimizasyonlar da analiz edildi
- Apple Silicon üzerinde 26B mixture-of-experts modeli, batch size 1 durumunda kendine özgü yönlendirme zorluklarına sahip olsa da birden fazla istek aynı anda işlendiğinde yerelde yaklaşık 2.2 kata kadar hızlanma sağlıyor
- Örnek batch size değerleri 4~8 aralığında ve NVIDIA A100 üzerinde de batch size artırıldığında benzer kazanımlar görülüyor
- Görsel mimari, KV cache paylaşımı ve verimli embedder’ın nasıl çalıştığı derin teknik açıklamada görülebilir
Nasıl kullanılır ve nerede sunuluyor
- Gemma 4 ailesi için MTP drafter, Gemma 4 ile aynı açık kaynaklı Apache 2.0 lisansıyla sunuluyor
- MTP’nin Gemma 4 ile nasıl kullanılacağı belgelerde açıklanıyor
- Model ağırlıkları Hugging Face ve Kaggle üzerinden indirilebilir
- Daha hızlı çıkarım; transformers, MLX, vLLM, SGLang ve Ollama ile denenebilir
- Google AI Edge Gallery üzerinden doğrudan Android veya iOS için de kullanılabilir
- Google, bu hız artışının Gemma ekosistemi Gemmaverse içinde geliştirmeyi hızlandırmasını bekliyor
1 yorum
Hacker News yorumları
Gemma ve Gemini, diğer modellere kıyasla çok daha az çıktı tokenı kullanırken yine de en üst seviye benchmark performansına epey yaklaşıyor
Gemma ile Qwen karşılaştırıldığında Qwen biraz daha iyi, ancak işe 22 dakika harcarken Gemma düğme hizalamasını yanlış yapsa bile aynı promptu 4 dakikada bitirdiği durumlar sık görülüyor
Dışarıdan bakınca Gemma, önde gelen açık modellerden %5~10 daha düşük performans veriyor gibi görünse de, zamanın yalnızca 1/10’unu harcamış oluyor
Claude ya da Codex’te başkalarının aylık 100 dolarlık planlara geçtiğini yazdığı gibi yükseltme ihtiyacı da pek hissettirmiyor
Yine de Gemini son 1 yılda birkaç kez performans düşüşü yaşadı ve hız limitleri de daha sıkı hale geldi, bu yüzden gelecekte de bu kadar iyi kalıp kalmayacağını bilmiyorum
Aynı zeka düzeyi için büyük modeller genelde daha az token kullandığından, bu token kullanım farkını açıklıyor olabilir
4070’te denedim; çıktı aşırı hızlı değildi ama kullanılabilirdi
Henüz karmaşık işlerde denemedim, o durumda farklı olabilir
Google I/O’dan sonra daha fazla kişi Gemini’nin ne kadar iyi olduğunu fark edebilir
Hizalama sorunu çıkarsa bunu düzeltmek için giriş ve çıkış tokenlarını bir kez daha harcamanız gerekir
llama.cpp’ye MTP desteği ekleniyor ve en azından Qwen modelleri için üzerinde çalışılıyor(https://github.com/ggml-org/llama.cpp/pull/20533)
Gemma 4’ün de yakında gelmesi muhtemel
Son birkaç ayda yerel/kendi barındırdığınız modellerde kalite ve hız artışı şaşırtıcı düzeyde
Uzun süredir yerel model çalıştıran biri olarak gerçekten ilginç bir dönem
MTP ile kıyaslandığında nasıl olacağını görmek için sabırsızlanıyorum
Oldukça iyi bir araçtı
Google, Batı’daki açık kaynak modelleri neredeyse tek başına ayakta tutuyor
Gemma 4 31B harika
Ancak görsel özellikler ve yakında gelecek drafter dahil en iyi sürümü 24GB VRAM içine sığdırmak epey sancılı
Kendi sistemime daha fazla GPU ekleyemiyorum; en yüksek performans için bir 4090 daha almam gerekecek gibi ama ya çok pahalı ya da sistemi tamamen değiştirmem gerekecek
--no-mmproj-offloadkullanırsanız çok modlu projektörü, yani ses/görüntü/PDF anlama kısmını sistem RAM’inde tutabilirsinizTabii bu durumda GPU hızlandırması olmaz ama VRAM tasarrufu sağlar
Göreve göre daha fazla ayarlama da yapabiliyorsunuz; yani düşünme ve doğruluğu mu, yoksa çıkarım hızını mı önceliklendireceğinizi seçebiliyorsunuz
Bilgisayarın yazı yazmasını izlemek bana eski BBS’ye modemle bağlanılan günleri hatırlatıyor
Bu, 300 baud’dan 1200 baud’a çıkmak gibi; büyük bir gelişme ama hâlâ oldukça yavaş ve bir gün buna nasıl katlandığımızı merak edeceğiz gibi geliyor
Tokenların akmasını izlemek, JPEG’in birkaç satır piksel halinde yüklenmesini izlemek gibi; uygulamaların hız yeterince artmadan önce kendi başına uyguladığı çeşitli yükleme ve bağlanma animasyonlarını da hatırlatıyor
Cerebras ve Taalas’ın yaptığı işler, bu yönde nelerin mümkün olabileceğine dair ilginç ipuçları veriyor
Bugünün en ileri modelleri bile saniyede bir milyon tokenı çok düşük maliyetle kullanabilse nelerin mümkün olacağını hayal etmek eğlenceli
Claude’un yaptığı modem-vs-Claude karşılaştırması şöyle: 2368 karakter için 300 baud 1 dakika 19 saniye, 1200 baud 19,7 saniye, 2400 baud 9,9 saniye, 14.4K 1,6 saniye, 33.6K 705ms, 56K 447ms, Claude ise 7,9 saniye
Saniyede binlerce token seviyesindeydi
Google’ın stratejisi diğer frontier sağlayıcılardan biraz farklı görünüyor
Saf performanstan çok hesaplama başına performans verimliliğine odaklanıyor gibiler, bu yüzden Gemini dışarıdan geride kalıyor gibi görünebilir
Diğer sağlayıcılar kapasite sınırlarına çarpıyor ve çıkarım maliyetini sübvanse etmenin de bir sınırına geliyor
Google’ın stratejisi bu modelleri mevcut milyarlarca kullanıcısına ölçekleyip dağıtmaya yönelik gibi duruyor
Hatta en yeni GPT-5 ve Claude ailesinden farklı türde bir zeka gibi hissettiriyor
Onlar giderek üretkenlik ve iş otomasyonuna odaklanıyor, uzun ve ajan benzeri öz-düzeltmeli akıl yürütme döngülerine optimize ediliyor
Gemini ise çok daha akıllı bir temel model gibi; özellikle Deep Think modunda sezgisi çok daha derin hissettiriyor, ama uzun menzilli öz-düzeltmeli ajan döngülerinde o kadar iyi değil
Son birkaç aydır iş akışım, yaratıcı sıçramalar ve içgörüler için Gemini kullanıp, tekrar eden ya da hassas işler için Codex, Claude ve GPT-5.5 Pro’yu tercih etmek şeklinde oldu
Yerel modellere bir süre ara vermiştim; yakın zamanda 26B A4B modelini RTX 3090’da vLLM 4 bit ile kurdum ve 1000 doların altındaki bir yatırımla elde edilen hız ve kalite karşısında tamamen şaşırdım
İlk başta Qwen ile denedim ama kararsızdı ve düşünce izi saçma derecede uzundu
Hâlâ biraz nazlı ama biraz ince ayarla gerçekten olağanüstü oluyor
Yerel modeller gelecektir, bu yüzden çok havalı
Kodlama işlerinde Qwen 3.6’dan belirgin şekilde geri kalıyor ama bu daha çok Qwen modelinin olağanüstü olduğunu gösteriyor
Benim bilgisayarımda diğer 30B modellerle karşılaştırıldığında tg beklediğimden en az iki kat daha hızlı; muhtemelen hibrit attention sayesinde
Yalnız giriş işleme tarafı biraz daha yavaş
Bunu LM Studio’da çalıştırmayı başaran biri var mı merak ediyorum
Arayüzde seçenek var ama etkinleşiyormuş gibi görünmüyor
[1] https://github.com/ml-explore/mlx-lm/pull/990
[2] https://github.com/ggml-org/llama.cpp/pull/22673
Küçük modeller olmadığından Gemma seyrek modeli kullanmadığınızdan emin olmanız gerekir
Ayrıca çalışma alanındaki tüm görüntü modellerini kaldırdım
Bazen bunları silince görünmeye başlıyor
Bu dosyalar bir şekilde görsel özelliklerle bağlantılı ve spekülatif kod çözmeyi engelliyor gibi görünüyor, ama neden diye sormayın
Gemma’da spekülatif decoding’i LM Studio yerine llama-server yoluyla kullanmak daha iyi sonuç verdi
Genelde sağlayıcı, kuantizasyon vb. açısından her şeyin birebir uyumlu olması gerekiyor
Eşleşen seti bulmak biraz zaman alabiliyor
Testlerimde Gemma 4 31B modeli, kodlama işlerinde Ollama’nın MLX runner’ını kullanırken en büyük hız artışını gösterdi; yaklaşık 2 kattı
Ancak kuantizasyon kabul oranını ciddi şekilde düşürdüğü için oldukça güçlü bir Mac gerekiyor
Daha küçük diğer üç modelde taslak model doğrulama süresi performans kazancının büyük kısmını geri aldı, bu yüzden o kadar iyi değildi
Hâlâ daha iyi sonuç alıp alamayacağımı ayarlıyorum
Denemek için Ollama 0.23.1’de
ollama run gemma4:31b-coding-mtp-bf16çalıştırabilirsinizllama.cpp’ye merge edilince gerçekten çok hızlı denemek istiyorum
Benim kurulumumda Gemma 4 26B-A4B, Qwen3.6-35B-A3B’den yaklaşık 3 kat daha hızlı, bu yüzden buna 1,5 kat daha hız eklenmesi fikri bile cezbedici
Taslak modelleri de denedim ama sonuçlar sınırlıydı; daha küçük 3B taslak model ile yoğun 14B Ministral modeli bile zaten fazla ek yük yaratıyordu
Gemma4 26B aynı kuantizasyonda 200TPS’yi aşıyor
Qwen’in çıkarım verimliliğinin aşırı düşük olması da önemli
Düşünce zinciri ortalama olarak Gemma’nınkinden yaklaşık 3 kat daha uzun
Bu biraz işletim sistemindeki dal tahmini gibi mi diye düşünüyorum
Sadece olasılık modelin kendi içinde gömülü olduğu için çok daha güvenilir bir biçimi gibi
Dal tahmini hataları çevrimleri boşa yakar, burada ise kötü tahmin genelde sadece bonus tokenları alamamak anlamına geliyor
https://arxiv.org/abs/2211.17192