3 puan yazan GN⁺ 1 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • Google, Gemma 4 duyurusundan yalnızca birkaç hafta sonra 60 milyondan fazla indirmeyi aştı ve Gemma 4 ailesi için çoklu token tahmini (MTP) drafter modelini duyurdu
  • MTP drafter, çıktı kalitesini veya çıkarım mantığını düşürmeden çıkarım hızını 3 kata kadar artıran, özelleşmiş bir spekülatif kod çözme (speculative decoding) mimarisidir; LiteRT-LM, MLX, Hugging Face Transformers ve vLLM kullanan donanımlarda test edildi
  • Standart LLM çıkarımı, tek bir token üretmek için milyarlarca parametreyi VRAM’den hesaplama birimlerine taşımak zorunda olduğundan büyük bir bellek bant genişliği darboğazı yaşar; MTP ise hafif bir drafter’ın birden fazla gelecekteki token’ı önermesini, ardından hedef modelin bunları paralel olarak doğrulamasını sağlar
  • Hedef model taslak token’ları kabul ederse, tüm diziyi tek bir ileri geçişte kabul eder ve buna ek olarak bir token daha üretir; böylece uygulama genellikle tek bir token süresinde taslak dizi ile ek token’ı çıktılayabilir
  • MTP drafter, hedef modelin aktivasyonları ile KV cache’ini paylaşır ve E2B·E4B edge modellerinde verimli embedder kümelendirmesi uygular; ağırlıklar Hugging Face ve Kaggle üzerinden Apache 2.0 lisansıyla sunuluyor

Spekülatif kod çözmeye neden ihtiyaç var

  • Standart LLM çıkarımı bellek bant genişliğine bağlı olduğundan gecikme darboğazı büyür
  • İşlemciler, tek bir token üretmek için milyarlarca parametreyi VRAM’den hesaplama birimlerine taşımaya zamanlarının çoğunu harcar
  • Bu yapı, özellikle tüketici donanımında hesaplama kaynaklarının yeterince kullanılamamasına yol açar ve gecikmeyi artırır
  • Spekülatif kod çözme, token üretimi ile doğrulamayı birbirinden ayırır
  • Ağır hedef model, örneğin Gemma 4 31B, hafif bir drafter olan MTP modeliyle eşleştirilir ve boşta duran hesaplama kaynakları kullanılarak birden fazla gelecekteki token aynı anda tahmin edilir
  • Drafter, hedef modelin bir token işlemesi için gereken süreden daha kısa sürede birden fazla token önerir ve hedef model önerilen token’ları paralel olarak doğrular

MTP nasıl çalışır

  • Standart büyük dil modelleri metni otoregresif biçimde üretir ve her seferinde tam olarak yalnızca bir token oluşturur
  • Bu yaklaşım, “Actions speak louder than…” ifadesinin ardından “words” kelimesini tahmin etmek gibi kolay bir devam ettirme ile karmaşık bir mantık bulmacasını çözmeye aynı miktarda hesaplama ayırır
  • MTP, Google araştırmacılarının Fast Inference from Transformers via Speculative Decoding çalışmasında tanıttığı spekülatif kod çözme yaklaşımıyla bu verimsizliği azaltır
  • Hedef model taslak token’ları kabul ederse, tüm diziyi tek bir ileri geçişte kabul eder ve hedef model aynı anda kendisi de ek bir token üretir
  • Uygulama, genellikle tek bir token üretmek için gereken sürede tüm taslak diziyi ve bir ek token’ı çıktılayabilir

Geliştiriciler için performans etkisi

  • Geliştiriciler için çıkarım hızı çoğu zaman üretim dağıtımlarındaki başlıca darboğazlardan biridir
  • Hızlı çok adımlı planlama gerektiren otonom ajanlar, kodlama asistanları ve tamamen cihaz üzerinde çalışan tepkisel mobil uygulamalarda milisaniyelik gecikmeler bile önemlidir
  • Gemma 4 modelleri ilgili drafter ile birlikte kullanıldığında şu etkiler elde edilebilir
  • Tepkisellikte iyileşme

    • Neredeyse gerçek zamanlı sohbetlerde, sürükleyici ses uygulamalarında ve ajan tabanlı iş akışlarında gecikme önemli ölçüde azaltılabilir
  • Yerel geliştirmeyi hızlandırma

    • Kişisel bilgisayarlarda ve tüketici GPU’larında 26B MoE ve 31B Dense modeller daha hızlı çalıştırılarak karmaşık çevrimdışı kodlama ve ajan tabanlı iş akışları desteklenir
  • Cihaz üzerindeki performans artışı

    • E2B ve E4B modelleri edge cihazlarda daha hızlı çıktı üretir ve bu da cihazın pil kullanımını azaltmaya yardımcı olur
  • Kalite kaybı yok

    • Temel Gemma 4 modeli son doğrulamayı koruduğu için aynı çıkarım ve doğruluk düzeyi çok daha yüksek hızda sunulur
    • NVIDIA RTX PRO 6000 üzerinde çalışan Gemma 4 26B örneği, standart çıkarım ile MTP drafter’ın saniye başına token sayısı farkını karşılaştırır ve aynı çıktı kalitesinde gecikmenin yarı yarıya düştüğünü gösterir
    • Karşılaştırma videosu indirilebilir

MTP drafter’ın iç optimizasyonları

  • MTP drafter’ı hızlı ve doğru kılmak için çeşitli mimari iyileştirmeler uygulandı
  • Taslak model, hedef modelin aktivasyonlarını doğal biçimde kullanır ve hedef modelin KV cache’ini paylaşır
  • KV cache paylaşımı sayesinde büyük model, zaten işlemiş olduğu bağlamı yeniden hesaplamak için zaman harcamaz
  • E2B ve E4B edge modellerinde son logit hesaplaması büyük bir darboğaz olduğundan, üretimi hızlandırmak için embedder’da verimli bir kümelendirme tekniği uygulandı
  • Donanıma özgü optimizasyonlar da analiz edildi
  • Apple Silicon üzerinde 26B mixture-of-experts modeli, batch size 1 durumunda kendine özgü yönlendirme zorluklarına sahip olsa da birden fazla istek aynı anda işlendiğinde yerelde yaklaşık 2.2 kata kadar hızlanma sağlıyor
  • Örnek batch size değerleri 4~8 aralığında ve NVIDIA A100 üzerinde de batch size artırıldığında benzer kazanımlar görülüyor
  • Görsel mimari, KV cache paylaşımı ve verimli embedder’ın nasıl çalıştığı derin teknik açıklamada görülebilir

Nasıl kullanılır ve nerede sunuluyor

  • Gemma 4 ailesi için MTP drafter, Gemma 4 ile aynı açık kaynaklı Apache 2.0 lisansıyla sunuluyor
  • MTP’nin Gemma 4 ile nasıl kullanılacağı belgelerde açıklanıyor
  • Model ağırlıkları Hugging Face ve Kaggle üzerinden indirilebilir
  • Daha hızlı çıkarım; transformers, MLX, vLLM, SGLang ve Ollama ile denenebilir
  • Google AI Edge Gallery üzerinden doğrudan Android veya iOS için de kullanılabilir
  • Google, bu hız artışının Gemma ekosistemi Gemmaverse içinde geliştirmeyi hızlandırmasını bekliyor

1 yorum

 
GN⁺ 1 시간 전
Hacker News yorumları
  • Gemma ve Gemini, diğer modellere kıyasla çok daha az çıktı tokenı kullanırken yine de en üst seviye benchmark performansına epey yaklaşıyor
    Gemma ile Qwen karşılaştırıldığında Qwen biraz daha iyi, ancak işe 22 dakika harcarken Gemma düğme hizalamasını yanlış yapsa bile aynı promptu 4 dakikada bitirdiği durumlar sık görülüyor
    Dışarıdan bakınca Gemma, önde gelen açık modellerden %5~10 daha düşük performans veriyor gibi görünse de, zamanın yalnızca 1/10’unu harcamış oluyor

    • Hissedilen şu ki aylık 15 dolarlık Gemini temel planı ile bütün gün kod yazsanız bile limite takılmıyorsunuz
      Claude ya da Codex’te başkalarının aylık 100 dolarlık planlara geçtiğini yazdığı gibi yükseltme ihtiyacı da pek hissettirmiyor
      Yine de Gemini son 1 yılda birkaç kez performans düşüşü yaşadı ve hız limitleri de daha sıkı hale geldi, bu yüzden gelecekte de bu kadar iyi kalıp kalmayacağını bilmiyorum
    • Dwarkesh podcast’inde SemiAnalysis’ten Dylan Patel, Google’ın çok daha fazla hesaplama kaynağına ve TPU erişimine sahip olduğu için rakiplerinden daha büyük modelleri taşıyabildiğini söyledi
      Aynı zeka düzeyi için büyük modeller genelde daha az token kullandığından, bu token kullanım farkını açıklıyor olabilir
    • Gemma hızlı olduğu için normalde boyut olarak yetersiz kalacak GPU’larda bile çalışabiliyor
      4070’te denedim; çıktı aşırı hızlı değildi ama kullanılabilirdi
      Henüz karmaşık işlerde denemedim, o durumda farklı olabilir
    • Şu anda Claude çok popüler ama Gemini kullanırken sorun yaşadığım ya da geçme ihtiyacı hissettiğim hiç olmadı
      Google I/O’dan sonra daha fazla kişi Gemini’nin ne kadar iyi olduğunu fark edebilir
    • Doğru, ama adil bakmak için kümülatif çıktı token miktarını toplamak gerekir
      Hizalama sorunu çıkarsa bunu düzeltmek için giriş ve çıkış tokenlarını bir kez daha harcamanız gerekir
  • llama.cpp’ye MTP desteği ekleniyor ve en azından Qwen modelleri için üzerinde çalışılıyor(https://github.com/ggml-org/llama.cpp/pull/20533)
    Gemma 4’ün de yakında gelmesi muhtemel
    Son birkaç ayda yerel/kendi barındırdığınız modellerde kalite ve hız artışı şaşırtıcı düzeyde

    • Daha yeni bir PR var ve yakında birleştirilecek gibi görünüyor: https://github.com/ggml-org/llama.cpp/pull/22673
    • Birkaç gün önce kişisel kullanım için Qwen3.6’dan yeniden Gemma 4’e geçtim; ikincisinin 26B sürümü ortalama olarak ilkinin 27B’sinden daha iyi performans gösterdi
      Uzun süredir yerel model çalıştıran biri olarak gerçekten ilginç bir dönem
    • DFlash entegrasyonuna da ilgi büyüyor: https://github.com/ggml-org/llama.cpp/issues/21978
      MTP ile kıyaslandığında nasıl olacağını görmek için sabırsızlanıyorum
    • Bunu oMLX’te de görmek isterim
      Oldukça iyi bir araçtı
    • MTP çıkarımının çıkarım yığınının neresine oturduğunu tam bilmiyorum ama MLX ekosisteminde uygulanabilir olup olmadığını bilen varsa merak ediyorum
  • Google, Batı’daki açık kaynak modelleri neredeyse tek başına ayakta tutuyor
    Gemma 4 31B harika
    Ancak görsel özellikler ve yakında gelecek drafter dahil en iyi sürümü 24GB VRAM içine sığdırmak epey sancılı
    Kendi sistemime daha fazla GPU ekleyemiyorum; en yüksek performans için bir 4090 daha almam gerekecek gibi ama ya çok pahalı ya da sistemi tamamen değiştirmem gerekecek

    • llama.cpp’de --no-mmproj-offload kullanırsanız çok modlu projektörü, yani ses/görüntü/PDF anlama kısmını sistem RAM’inde tutabilirsiniz
      Tabii bu durumda GPU hızlandırması olmaz ama VRAM tasarrufu sağlar
    • Yine de Qwen’in Gemma’dan daha iyi olduğunu düşünüyorum
      Göreve göre daha fazla ayarlama da yapabiliyorsunuz; yani düşünme ve doğruluğu mu, yoksa çıkarım hızını mı önceliklendireceğinizi seçebiliyorsunuz
  • Bilgisayarın yazı yazmasını izlemek bana eski BBS’ye modemle bağlanılan günleri hatırlatıyor
    Bu, 300 baud’dan 1200 baud’a çıkmak gibi; büyük bir gelişme ama hâlâ oldukça yavaş ve bir gün buna nasıl katlandığımızı merak edeceğiz gibi geliyor

    • Şu anki durum gerçekten çevirmeli bağlantı dönemi gibi ve gelecekteki “geniş bant” döneminin nasıl görüneceğini sürekli düşündürüyor
      Tokenların akmasını izlemek, JPEG’in birkaç satır piksel halinde yüklenmesini izlemek gibi; uygulamaların hız yeterince artmadan önce kendi başına uyguladığı çeşitli yükleme ve bağlanma animasyonlarını da hatırlatıyor
      Cerebras ve Taalas’ın yaptığı işler, bu yönde nelerin mümkün olabileceğine dair ilginç ipuçları veriyor
      Bugünün en ileri modelleri bile saniyede bir milyon tokenı çok düşük maliyetle kullanabilse nelerin mümkün olacağını hayal etmek eğlenceli
    • Çevirmeli bağlantı dönemini andırdığı doğru ama 300’den 1200’e değil, daha çok 4800 baud seviyesine yakın görünüyor
      Claude’un yaptığı modem-vs-Claude karşılaştırması şöyle: 2368 karakter için 300 baud 1 dakika 19 saniye, 1200 baud 19,7 saniye, 2400 baud 9,9 saniye, 14.4K 1,6 saniye, 33.6K 705ms, 56K 447ms, Claude ise 7,9 saniye
    • Burada paylaşılmış bir startup, yapay zekanın anında yanıt vermesini sağlayan özel donanım üretmişti
      Saniyede binlerce token seviyesindeydi
  • Google’ın stratejisi diğer frontier sağlayıcılardan biraz farklı görünüyor
    Saf performanstan çok hesaplama başına performans verimliliğine odaklanıyor gibiler, bu yüzden Gemini dışarıdan geride kalıyor gibi görünebilir
    Diğer sağlayıcılar kapasite sınırlarına çarpıyor ve çıkarım maliyetini sübvanse etmenin de bir sınırına geliyor
    Google’ın stratejisi bu modelleri mevcut milyarlarca kullanıcısına ölçekleyip dağıtmaya yönelik gibi duruyor

    • Gemini’nin geride olduğunu düşünmüyorum
      Hatta en yeni GPT-5 ve Claude ailesinden farklı türde bir zeka gibi hissettiriyor
      Onlar giderek üretkenlik ve iş otomasyonuna odaklanıyor, uzun ve ajan benzeri öz-düzeltmeli akıl yürütme döngülerine optimize ediliyor
      Gemini ise çok daha akıllı bir temel model gibi; özellikle Deep Think modunda sezgisi çok daha derin hissettiriyor, ama uzun menzilli öz-düzeltmeli ajan döngülerinde o kadar iyi değil
      Son birkaç aydır iş akışım, yaratıcı sıçramalar ve içgörüler için Gemini kullanıp, tekrar eden ya da hassas işler için Codex, Claude ve GPT-5.5 Pro’yu tercih etmek şeklinde oldu
    • Sanki herkesin stratejisi o yöne kayıyor
  • Yerel modellere bir süre ara vermiştim; yakın zamanda 26B A4B modelini RTX 3090’da vLLM 4 bit ile kurdum ve 1000 doların altındaki bir yatırımla elde edilen hız ve kalite karşısında tamamen şaşırdım
    İlk başta Qwen ile denedim ama kararsızdı ve düşünce izi saçma derecede uzundu

    • qwen3.6’nın ilk kuantize sürümlerinin bazıları bozuktu
      Hâlâ biraz nazlı ama biraz ince ayarla gerçekten olağanüstü oluyor
      Yerel modeller gelecektir, bu yüzden çok havalı
    • turboquant / Q4 kullanırsanız 3060’a da sığıyor ve yaklaşık 200 dolarlık kartta gayet iyi bir hız olan 40T/s veriyor
    • A4B modeli inanılmaz hızlı ve genel sorgular için çok iyi
      Kodlama işlerinde Qwen 3.6’dan belirgin şekilde geri kalıyor ama bu daha çok Qwen modelinin olağanüstü olduğunu gösteriyor
    • 31B de yoğun bir model için şaşırtıcı derecede hızlı
      Benim bilgisayarımda diğer 30B modellerle karşılaştırıldığında tg beklediğimden en az iki kat daha hızlı; muhtemelen hibrit attention sayesinde
      Yalnız giriş işleme tarafı biraz daha yavaş
  • Bunu LM Studio’da çalıştırmayı başaran biri var mı merak ediyorum
    Arayüzde seçenek var ama etkinleşiyormuş gibi görünmüyor

    • Henüz mlx[1] ya da llama.cpp[2] içinde uygulanmadığı için biraz zaman alabilir
      [1] https://github.com/ml-explore/mlx-lm/pull/990
      [2] https://github.com/ggml-org/llama.cpp/pull/22673
    • Çalışıyor
      Küçük modeller olmadığından Gemma seyrek modeli kullanmadığınızdan emin olmanız gerekir
      Ayrıca çalışma alanındaki tüm görüntü modellerini kaldırdım
    • Genelde LM Studio’nun hoşlanmadığı durum, klasörün içinde mmproj dosyası olması
      Bazen bunları silince görünmeye başlıyor
      Bu dosyalar bir şekilde görsel özelliklerle bağlantılı ve spekülatif kod çözmeyi engelliyor gibi görünüyor, ama neden diye sormayın
      Gemma’da spekülatif decoding’i LM Studio yerine llama-server yoluyla kullanmak daha iyi sonuç verdi
    • Başka modellerle çalıştırdım
      Genelde sağlayıcı, kuantizasyon vb. açısından her şeyin birebir uyumlu olması gerekiyor
      Eşleşen seti bulmak biraz zaman alabiliyor
  • Testlerimde Gemma 4 31B modeli, kodlama işlerinde Ollama’nın MLX runner’ını kullanırken en büyük hız artışını gösterdi; yaklaşık 2 kattı
    Ancak kuantizasyon kabul oranını ciddi şekilde düşürdüğü için oldukça güçlü bir Mac gerekiyor
    Daha küçük diğer üç modelde taslak model doğrulama süresi performans kazancının büyük kısmını geri aldı, bu yüzden o kadar iyi değildi
    Hâlâ daha iyi sonuç alıp alamayacağımı ayarlıyorum
    Denemek için Ollama 0.23.1’de ollama run gemma4:31b-coding-mtp-bf16 çalıştırabilirsiniz

  • llama.cpp’ye merge edilince gerçekten çok hızlı denemek istiyorum
    Benim kurulumumda Gemma 4 26B-A4B, Qwen3.6-35B-A3B’den yaklaşık 3 kat daha hızlı, bu yüzden buna 1,5 kat daha hız eklenmesi fikri bile cezbedici
    Taslak modelleri de denedim ama sonuçlar sınırlıydı; daha küçük 3B taslak model ile yoğun 14B Ministral modeli bile zaten fazla ek yük yaratıyordu

    • vLLM’de 5090 kullanınca awq 4 bit kuantizasyon ve MTP spekülatif decoding ile 120~180TPS alınıyor
      Gemma4 26B aynı kuantizasyonda 200TPS’yi aşıyor
      Qwen’in çıkarım verimliliğinin aşırı düşük olması da önemli
      Düşünce zinciri ortalama olarak Gemma’nınkinden yaklaşık 3 kat daha uzun
  • Bu biraz işletim sistemindeki dal tahmini gibi mi diye düşünüyorum
    Sadece olasılık modelin kendi içinde gömülü olduğu için çok daha güvenilir bir biçimi gibi

    • Benzer bir fikir ama başarısızlık şekli daha iyi
      Dal tahmini hataları çevrimleri boşa yakar, burada ise kötü tahmin genelde sadece bonus tokenları alamamak anlamına geliyor
      https://arxiv.org/abs/2211.17192