Gemma 4’ü hızlandırmak: çoklu token tahmini drafter ile daha hızlı çıkarım

(blog.google)

3 puan yazan GN⁺ 1 시간 전 | 1 yorum | WhatsApp'ta paylaş

Google, Gemma 4 duyurusundan yalnızca birkaç hafta sonra 60 milyondan fazla indirmeyi aştı ve Gemma 4 ailesi için çoklu token tahmini (MTP) drafter modelini duyurdu
MTP drafter, çıktı kalitesini veya çıkarım mantığını düşürmeden çıkarım hızını 3 kata kadar artıran, özelleşmiş bir spekülatif kod çözme (speculative decoding) mimarisidir; LiteRT-LM, MLX, Hugging Face Transformers ve vLLM kullanan donanımlarda test edildi
Standart LLM çıkarımı, tek bir token üretmek için milyarlarca parametreyi VRAM’den hesaplama birimlerine taşımak zorunda olduğundan büyük bir bellek bant genişliği darboğazı yaşar; MTP ise hafif bir drafter’ın birden fazla gelecekteki token’ı önermesini, ardından hedef modelin bunları paralel olarak doğrulamasını sağlar
Hedef model taslak token’ları kabul ederse, tüm diziyi tek bir ileri geçişte kabul eder ve buna ek olarak bir token daha üretir; böylece uygulama genellikle tek bir token süresinde taslak dizi ile ek token’ı çıktılayabilir
MTP drafter, hedef modelin aktivasyonları ile KV cache’ini paylaşır ve E2B·E4B edge modellerinde verimli embedder kümelendirmesi uygular; ağırlıklar Hugging Face ve Kaggle üzerinden Apache 2.0 lisansıyla sunuluyor

Spekülatif kod çözmeye neden ihtiyaç var

Standart LLM çıkarımı bellek bant genişliğine bağlı olduğundan gecikme darboğazı büyür
İşlemciler, tek bir token üretmek için milyarlarca parametreyi VRAM’den hesaplama birimlerine taşımaya zamanlarının çoğunu harcar
Bu yapı, özellikle tüketici donanımında hesaplama kaynaklarının yeterince kullanılamamasına yol açar ve gecikmeyi artırır
Spekülatif kod çözme, token üretimi ile doğrulamayı birbirinden ayırır
Ağır hedef model, örneğin Gemma 4 31B, hafif bir drafter olan MTP modeliyle eşleştirilir ve boşta duran hesaplama kaynakları kullanılarak birden fazla gelecekteki token aynı anda tahmin edilir
Drafter, hedef modelin bir token işlemesi için gereken süreden daha kısa sürede birden fazla token önerir ve hedef model önerilen token’ları paralel olarak doğrular

MTP nasıl çalışır

Standart büyük dil modelleri metni otoregresif biçimde üretir ve her seferinde tam olarak yalnızca bir token oluşturur
Bu yaklaşım, “Actions speak louder than…” ifadesinin ardından “words” kelimesini tahmin etmek gibi kolay bir devam ettirme ile karmaşık bir mantık bulmacasını çözmeye aynı miktarda hesaplama ayırır
MTP, Google araştırmacılarının Fast Inference from Transformers via Speculative Decoding çalışmasında tanıttığı spekülatif kod çözme yaklaşımıyla bu verimsizliği azaltır
Hedef model taslak token’ları kabul ederse, tüm diziyi tek bir ileri geçişte kabul eder ve hedef model aynı anda kendisi de ek bir token üretir
Uygulama, genellikle tek bir token üretmek için gereken sürede tüm taslak diziyi ve bir ek token’ı çıktılayabilir

Geliştiriciler için performans etkisi

Geliştiriciler için çıkarım hızı çoğu zaman üretim dağıtımlarındaki başlıca darboğazlardan biridir
Hızlı çok adımlı planlama gerektiren otonom ajanlar, kodlama asistanları ve tamamen cihaz üzerinde çalışan tepkisel mobil uygulamalarda milisaniyelik gecikmeler bile önemlidir
Gemma 4 modelleri ilgili drafter ile birlikte kullanıldığında şu etkiler elde edilebilir
Tepkisellikte iyileşme
- Neredeyse gerçek zamanlı sohbetlerde, sürükleyici ses uygulamalarında ve ajan tabanlı iş akışlarında gecikme önemli ölçüde azaltılabilir
Yerel geliştirmeyi hızlandırma
- Kişisel bilgisayarlarda ve tüketici GPU’larında 26B MoE ve 31B Dense modeller daha hızlı çalıştırılarak karmaşık çevrimdışı kodlama ve ajan tabanlı iş akışları desteklenir
Cihaz üzerindeki performans artışı
- E2B ve E4B modelleri edge cihazlarda daha hızlı çıktı üretir ve bu da cihazın pil kullanımını azaltmaya yardımcı olur
Kalite kaybı yok
- Temel Gemma 4 modeli son doğrulamayı koruduğu için aynı çıkarım ve doğruluk düzeyi çok daha yüksek hızda sunulur
- NVIDIA RTX PRO 6000 üzerinde çalışan Gemma 4 26B örneği, standart çıkarım ile MTP drafter’ın saniye başına token sayısı farkını karşılaştırır ve aynı çıktı kalitesinde gecikmenin yarı yarıya düştüğünü gösterir
- Karşılaştırma videosu indirilebilir

MTP drafter’ın iç optimizasyonları

MTP drafter’ı hızlı ve doğru kılmak için çeşitli mimari iyileştirmeler uygulandı
Taslak model, hedef modelin aktivasyonlarını doğal biçimde kullanır ve hedef modelin KV cache’ini paylaşır
KV cache paylaşımı sayesinde büyük model, zaten işlemiş olduğu bağlamı yeniden hesaplamak için zaman harcamaz
E2B ve E4B edge modellerinde son logit hesaplaması büyük bir darboğaz olduğundan, üretimi hızlandırmak için embedder’da verimli bir kümelendirme tekniği uygulandı
Donanıma özgü optimizasyonlar da analiz edildi
Apple Silicon üzerinde 26B mixture-of-experts modeli, batch size 1 durumunda kendine özgü yönlendirme zorluklarına sahip olsa da birden fazla istek aynı anda işlendiğinde yerelde yaklaşık 2.2 kata kadar hızlanma sağlıyor
Örnek batch size değerleri 4~8 aralığında ve NVIDIA A100 üzerinde de batch size artırıldığında benzer kazanımlar görülüyor
Görsel mimari, KV cache paylaşımı ve verimli embedder’ın nasıl çalıştığı derin teknik açıklamada görülebilir

Nasıl kullanılır ve nerede sunuluyor

Gemma 4 ailesi için MTP drafter, Gemma 4 ile aynı açık kaynaklı Apache 2.0 lisansıyla sunuluyor
MTP’nin Gemma 4 ile nasıl kullanılacağı belgelerde açıklanıyor
Model ağırlıkları Hugging Face ve Kaggle üzerinden indirilebilir
Daha hızlı çıkarım; transformers, MLX, vLLM, SGLang ve Ollama ile denenebilir
Google AI Edge Gallery üzerinden doğrudan Android veya iOS için de kullanılabilir
Google, bu hız artışının Gemma ekosistemi Gemmaverse içinde geliştirmeyi hızlandırmasını bekliyor

1 yorum

GN⁺ 1 시간 전

Hacker News yorumları

Gemma ve Gemini, diğer modellere kıyasla çok daha az çıktı tokenı kullanırken yine de en üst seviye benchmark performansına epey yaklaşıyor
Gemma ile Qwen karşılaştırıldığında Qwen biraz daha iyi, ancak işe 22 dakika harcarken Gemma düğme hizalamasını yanlış yapsa bile aynı promptu 4 dakikada bitirdiği durumlar sık görülüyor
Dışarıdan bakınca Gemma, önde gelen açık modellerden %5~10 daha düşük performans veriyor gibi görünse de, zamanın yalnızca 1/10’unu harcamış oluyor
- Hissedilen şu ki aylık 15 dolarlık Gemini temel planı ile bütün gün kod yazsanız bile limite takılmıyorsunuz
  Claude ya da Codex’te başkalarının aylık 100 dolarlık planlara geçtiğini yazdığı gibi yükseltme ihtiyacı da pek hissettirmiyor
  Yine de Gemini son 1 yılda birkaç kez performans düşüşü yaşadı ve hız limitleri de daha sıkı hale geldi, bu yüzden gelecekte de bu kadar iyi kalıp kalmayacağını bilmiyorum
- Dwarkesh podcast’inde SemiAnalysis’ten Dylan Patel, Google’ın çok daha fazla hesaplama kaynağına ve TPU erişimine sahip olduğu için rakiplerinden daha büyük modelleri taşıyabildiğini söyledi
  Aynı zeka düzeyi için büyük modeller genelde daha az token kullandığından, bu token kullanım farkını açıklıyor olabilir
- Gemma hızlı olduğu için normalde boyut olarak yetersiz kalacak GPU’larda bile çalışabiliyor
  4070’te denedim; çıktı aşırı hızlı değildi ama kullanılabilirdi
  Henüz karmaşık işlerde denemedim, o durumda farklı olabilir
- Şu anda Claude çok popüler ama Gemini kullanırken sorun yaşadığım ya da geçme ihtiyacı hissettiğim hiç olmadı
  Google I/O’dan sonra daha fazla kişi Gemini’nin ne kadar iyi olduğunu fark edebilir
- Doğru, ama adil bakmak için kümülatif çıktı token miktarını toplamak gerekir
  Hizalama sorunu çıkarsa bunu düzeltmek için giriş ve çıkış tokenlarını bir kez daha harcamanız gerekir
llama.cpp’ye MTP desteği ekleniyor ve en azından Qwen modelleri için üzerinde çalışılıyor(https://github.com/ggml-org/llama.cpp/pull/20533)
Gemma 4’ün de yakında gelmesi muhtemel
Son birkaç ayda yerel/kendi barındırdığınız modellerde kalite ve hız artışı şaşırtıcı düzeyde
- Daha yeni bir PR var ve yakında birleştirilecek gibi görünüyor: https://github.com/ggml-org/llama.cpp/pull/22673
- Birkaç gün önce kişisel kullanım için Qwen3.6’dan yeniden Gemma 4’e geçtim; ikincisinin 26B sürümü ortalama olarak ilkinin 27B’sinden daha iyi performans gösterdi
  Uzun süredir yerel model çalıştıran biri olarak gerçekten ilginç bir dönem
- DFlash entegrasyonuna da ilgi büyüyor: https://github.com/ggml-org/llama.cpp/issues/21978
  MTP ile kıyaslandığında nasıl olacağını görmek için sabırsızlanıyorum
- Bunu oMLX’te de görmek isterim
  Oldukça iyi bir araçtı
- MTP çıkarımının çıkarım yığınının neresine oturduğunu tam bilmiyorum ama MLX ekosisteminde uygulanabilir olup olmadığını bilen varsa merak ediyorum
Google, Batı’daki açık kaynak modelleri neredeyse tek başına ayakta tutuyor
Gemma 4 31B harika
Ancak görsel özellikler ve yakında gelecek drafter dahil en iyi sürümü 24GB VRAM içine sığdırmak epey sancılı
Kendi sistemime daha fazla GPU ekleyemiyorum; en yüksek performans için bir 4090 daha almam gerekecek gibi ama ya çok pahalı ya da sistemi tamamen değiştirmem gerekecek
- llama.cpp’de --no-mmproj-offload kullanırsanız çok modlu projektörü, yani ses/görüntü/PDF anlama kısmını sistem RAM’inde tutabilirsiniz
  Tabii bu durumda GPU hızlandırması olmaz ama VRAM tasarrufu sağlar
- Yine de Qwen’in Gemma’dan daha iyi olduğunu düşünüyorum
  Göreve göre daha fazla ayarlama da yapabiliyorsunuz; yani düşünme ve doğruluğu mu, yoksa çıkarım hızını mı önceliklendireceğinizi seçebiliyorsunuz
Bilgisayarın yazı yazmasını izlemek bana eski BBS’ye modemle bağlanılan günleri hatırlatıyor
Bu, 300 baud’dan 1200 baud’a çıkmak gibi; büyük bir gelişme ama hâlâ oldukça yavaş ve bir gün buna nasıl katlandığımızı merak edeceğiz gibi geliyor
- Şu anki durum gerçekten çevirmeli bağlantı dönemi gibi ve gelecekteki “geniş bant” döneminin nasıl görüneceğini sürekli düşündürüyor
  Tokenların akmasını izlemek, JPEG’in birkaç satır piksel halinde yüklenmesini izlemek gibi; uygulamaların hız yeterince artmadan önce kendi başına uyguladığı çeşitli yükleme ve bağlanma animasyonlarını da hatırlatıyor
  Cerebras ve Taalas’ın yaptığı işler, bu yönde nelerin mümkün olabileceğine dair ilginç ipuçları veriyor
  Bugünün en ileri modelleri bile saniyede bir milyon tokenı çok düşük maliyetle kullanabilse nelerin mümkün olacağını hayal etmek eğlenceli
- Çevirmeli bağlantı dönemini andırdığı doğru ama 300’den 1200’e değil, daha çok 4800 baud seviyesine yakın görünüyor
  Claude’un yaptığı modem-vs-Claude karşılaştırması şöyle: 2368 karakter için 300 baud 1 dakika 19 saniye, 1200 baud 19,7 saniye, 2400 baud 9,9 saniye, 14.4K 1,6 saniye, 33.6K 705ms, 56K 447ms, Claude ise 7,9 saniye
- Burada paylaşılmış bir startup, yapay zekanın anında yanıt vermesini sağlayan özel donanım üretmişti
  Saniyede binlerce token seviyesindeydi
Google’ın stratejisi diğer frontier sağlayıcılardan biraz farklı görünüyor
Saf performanstan çok hesaplama başına performans verimliliğine odaklanıyor gibiler, bu yüzden Gemini dışarıdan geride kalıyor gibi görünebilir
Diğer sağlayıcılar kapasite sınırlarına çarpıyor ve çıkarım maliyetini sübvanse etmenin de bir sınırına geliyor
Google’ın stratejisi bu modelleri mevcut milyarlarca kullanıcısına ölçekleyip dağıtmaya yönelik gibi duruyor
- Gemini’nin geride olduğunu düşünmüyorum
  Hatta en yeni GPT-5 ve Claude ailesinden farklı türde bir zeka gibi hissettiriyor
  Onlar giderek üretkenlik ve iş otomasyonuna odaklanıyor, uzun ve ajan benzeri öz-düzeltmeli akıl yürütme döngülerine optimize ediliyor
  Gemini ise çok daha akıllı bir temel model gibi; özellikle Deep Think modunda sezgisi çok daha derin hissettiriyor, ama uzun menzilli öz-düzeltmeli ajan döngülerinde o kadar iyi değil
  Son birkaç aydır iş akışım, yaratıcı sıçramalar ve içgörüler için Gemini kullanıp, tekrar eden ya da hassas işler için Codex, Claude ve GPT-5.5 Pro’yu tercih etmek şeklinde oldu
- Sanki herkesin stratejisi o yöne kayıyor
Yerel modellere bir süre ara vermiştim; yakın zamanda 26B A4B modelini RTX 3090’da vLLM 4 bit ile kurdum ve 1000 doların altındaki bir yatırımla elde edilen hız ve kalite karşısında tamamen şaşırdım
İlk başta Qwen ile denedim ama kararsızdı ve düşünce izi saçma derecede uzundu
- qwen3.6’nın ilk kuantize sürümlerinin bazıları bozuktu
  Hâlâ biraz nazlı ama biraz ince ayarla gerçekten olağanüstü oluyor
  Yerel modeller gelecektir, bu yüzden çok havalı
- turboquant / Q4 kullanırsanız 3060’a da sığıyor ve yaklaşık 200 dolarlık kartta gayet iyi bir hız olan 40T/s veriyor
- A4B modeli inanılmaz hızlı ve genel sorgular için çok iyi
  Kodlama işlerinde Qwen 3.6’dan belirgin şekilde geri kalıyor ama bu daha çok Qwen modelinin olağanüstü olduğunu gösteriyor
- 31B de yoğun bir model için şaşırtıcı derecede hızlı
  Benim bilgisayarımda diğer 30B modellerle karşılaştırıldığında tg beklediğimden en az iki kat daha hızlı; muhtemelen hibrit attention sayesinde
  Yalnız giriş işleme tarafı biraz daha yavaş
Bunu LM Studio’da çalıştırmayı başaran biri var mı merak ediyorum
Arayüzde seçenek var ama etkinleşiyormuş gibi görünmüyor
- Henüz mlx[1] ya da llama.cpp[2] içinde uygulanmadığı için biraz zaman alabilir
  [1] https://github.com/ml-explore/mlx-lm/pull/990
  [2] https://github.com/ggml-org/llama.cpp/pull/22673
- Çalışıyor
  Küçük modeller olmadığından Gemma seyrek modeli kullanmadığınızdan emin olmanız gerekir
  Ayrıca çalışma alanındaki tüm görüntü modellerini kaldırdım
- Genelde LM Studio’nun hoşlanmadığı durum, klasörün içinde mmproj dosyası olması
  Bazen bunları silince görünmeye başlıyor
  Bu dosyalar bir şekilde görsel özelliklerle bağlantılı ve spekülatif kod çözmeyi engelliyor gibi görünüyor, ama neden diye sormayın
  Gemma’da spekülatif decoding’i LM Studio yerine llama-server yoluyla kullanmak daha iyi sonuç verdi
- Başka modellerle çalıştırdım
  Genelde sağlayıcı, kuantizasyon vb. açısından her şeyin birebir uyumlu olması gerekiyor
  Eşleşen seti bulmak biraz zaman alabiliyor
Testlerimde Gemma 4 31B modeli, kodlama işlerinde Ollama’nın MLX runner’ını kullanırken en büyük hız artışını gösterdi; yaklaşık 2 kattı
Ancak kuantizasyon kabul oranını ciddi şekilde düşürdüğü için oldukça güçlü bir Mac gerekiyor
Daha küçük diğer üç modelde taslak model doğrulama süresi performans kazancının büyük kısmını geri aldı, bu yüzden o kadar iyi değildi
Hâlâ daha iyi sonuç alıp alamayacağımı ayarlıyorum
Denemek için Ollama 0.23.1’de ollama run gemma4:31b-coding-mtp-bf16 çalıştırabilirsiniz
llama.cpp’ye merge edilince gerçekten çok hızlı denemek istiyorum
Benim kurulumumda Gemma 4 26B-A4B, Qwen3.6-35B-A3B’den yaklaşık 3 kat daha hızlı, bu yüzden buna 1,5 kat daha hız eklenmesi fikri bile cezbedici
Taslak modelleri de denedim ama sonuçlar sınırlıydı; daha küçük 3B taslak model ile yoğun 14B Ministral modeli bile zaten fazla ek yük yaratıyordu
- vLLM’de 5090 kullanınca awq 4 bit kuantizasyon ve MTP spekülatif decoding ile 120~180TPS alınıyor
  Gemma4 26B aynı kuantizasyonda 200TPS’yi aşıyor
  Qwen’in çıkarım verimliliğinin aşırı düşük olması da önemli
  Düşünce zinciri ortalama olarak Gemma’nınkinden yaklaşık 3 kat daha uzun
Bu biraz işletim sistemindeki dal tahmini gibi mi diye düşünüyorum
Sadece olasılık modelin kendi içinde gömülü olduğu için çok daha güvenilir bir biçimi gibi
- Benzer bir fikir ama başarısızlık şekli daha iyi
  Dal tahmini hataları çevrimleri boşa yakar, burada ise kötü tahmin genelde sadece bonus tokenları alamamak anlamına geliyor
  https://arxiv.org/abs/2211.17192

Gemma 4’ü hızlandırmak: çoklu token tahmini drafter ile daha hızlı çıkarım

Spekülatif kod çözmeye neden ihtiyaç var

MTP nasıl çalışır

Geliştiriciler için performans etkisi

Tepkisellikte iyileşme

Yerel geliştirmeyi hızlandırma

Cihaz üzerindeki performans artışı

Kalite kaybı yok

MTP drafter’ın iç optimizasyonları

Nasıl kullanılır ve nerede sunuluyor

İlgili okumalar

1 yorum

Hacker News yorumları