Gemma 4’te MTP gizlenince topluluk ortaya çıkardı, Google ise sonradan dolaylı destek verdi
(reddit.com)Google, MTP ile eğitilen Gemma 4’ten bu özelliği herkese açık dağıtım sürümünde kaldırdı; ancak topluluğun reverse engineering çalışmalarıyla durum ortaya çıktıktan sonra, harici bir yardımcı model biçiminde gecikmeli destek sunmaya başladı.
Açık kaynak geliştiricileri, Google’ın mobil/edge cihazlar için dağıttığı .litertlm (TFLite tabanlı) dosyalarını incelerken çarpıcı bir gerçeği keşfetti. HuggingFace’te yayınlanan standart model ağırlıklarında bulunmayan MTP(Multi-Token Prediction, çoklu token tahmini) mimarisi, yalnızca edge için derlenmiş dosyalarda yer alıyordu.
Bu durum kamuya açık biçimde gündeme getirilince Google tarafı gerçeği kabul ederek şu yanıtı verdi:
> "MTP ile ilgili tahmin head’leri, HuggingFace Transformers API ile uyumluluk için herkese açık modelden kasıtlı olarak çıkarıldı. LiteRT çalışma zamanında ise cihaz üstü performansı artırmak için korundu."
MTP nedir
Normal LLM’ler token’ları tek tek, sıralı biçimde üretir. MTP ise tek bir forward pass içinde birden fazla token’ı aynı anda tahmin eden bir tekniktir; speculative decoding ile birleştirildiğinde çıktı kalitesini değiştirmeden çıkarım hızını ciddi ölçüde artırabilir. Teorik olarak kayıpsız (lossless) bir optimizasyondur.
Topluluğun reverse engineering girişimi
İlk keşfi yapan kişi, .litertlm dosyasından birden fazla .tflite dosyası çıkarmayı başardı; ardından çıkarılan dosyaları ve yeniden üretim adımlarını HuggingFace’te paylaşarak C++ bilenlerden iş birliği istedi. Sonrasında topluluk katkıcıları tam kapsamlı bir reverse engineering çalışmasına girişti.
Teknik zorluk: TFLite kernel yapısı son derece zorluydu. 1024-wide attention vektörü INT8’e quantize ediliyor → INT8 ağırlıklarla çarpılıyor → sonuç yeniden quantize ediliyor → ardından tekrar dequantize ediliyordu.
Sonuç: Birkaç günlük yoğun çalışmanın ardından şu bileşenler yeniden oluşturuldu:
- GQA(Grouped-Query Attention) yapısı ve harici KV cache eşlemesi
- Sliding local window davranışı
pre_project/q_proj/ MLP /o_proj/post_projectquantization yolu- Kısmi RoPE davranışı
- uçtan uca TFLite parity ile 20/20 top-1 eşleşme başarısı
Lisans Apache 2.0 olduğu için hukuki bir sorun bulunmuyor.
Gerçek performans: ne kadar hızlı
Topluluğun ölçümlerine göre (Strix Halo baz alınarak):
| İş yükü | Önce | MTP sonrası |
|---|---|---|
| Kod üretimi | 8 tps | 25 tps (yaklaşık 3x) |
| Genel yazma | 7~8 tps | 11~14 tps |
Mevcut LLaMA/Qwen3 ailesinde speculative decoding genelde 1.5~1.7x, en fazla 2x düzeyindeyken; kod üretiminde 3x dikkat çekici bir değer olarak öne çıkıyor. Bunun, kod üretiminin doğası gereği tekrar eden boilerplate miktarının fazla olması ve bu yüzden draft token kabul oranının yüksek seyretmesiyle ilişkili olduğu değerlendiriliyor.
Topluluğun tepkisi ve şüpheler
Eleştiriler temelde iki yönde yoğunlaştı.
① Belgelenmemiş olması eleştirisi: MTP ile eğitilmiş olmasına rağmen özelliğin herkese açık dağıtım sürümünden bilerek çıkarılması ve buna dair hiçbir açıklama yapılmaması.
② Ticari niyet şüphesi: "Yerelde çalışan açık kaynak 31B model fazla hızlanırsa şirketin ticari API’lerinin (Flash Lite vb.) rekabet gücünü tehdit edeceği için kasıtlı olarak kırpıldı" iddiası. Sızdırıldıktan sonra silinen 122B model de aynı bağlamda anıldı.
Google’ın yapısal tercihi
| Dağıtım kanalı | MTP içeriyor mu |
|---|---|
| HuggingFace açık ağırlıkları | ❌ kasıtlı olarak çıkarıldı |
| LiteRT (edge/mobil) | ✅ gömülü |
gemma4_assistant (5/5 yeni) |
✅ harici yardımcı model olarak dolaylı destek |
Google’ın gecikmeli resmi yanıtı (5-6 Mayıs)
Topluluktan gelen baskı artınca Google, 5 Mayıs’ta gemma4_assistant yardımcı modelini HuggingFace’te ayrı bir sürüm olarak yayımladı ve resmi blogunda Gemma 4 MTP drafter’ını duyurdu. Normalde modelin içinde bulunması gereken işlev, harici bir modele ayrılarak dolaylı biçimde sunulmuş oldu.
- Hız: kalite kaybı olmadan en fazla 3 kat çıkarım hızlanması
- Yardımcı model: yaklaşık 500M parametre düzeyinde hafif bir drafter
- Kullanım:
generate()fonksiyonundakiassistant_model=parametresine vermek yeterli; özel MTP uygulaması gerekmiyor - Desteklenen ortamlar: HuggingFace Transformers, vLLM, MLX(Apple Silicon), LiteRT-LM
> 💡 Tek cümlelik özet: Google, MTP ile eğitilmiş Gemma 4’ten bu özelliği herkese açık sürümde kaldırdı; ancak topluluğun reverse engineering çalışmalarıyla durum ortaya çıkınca, harici bir yardımcı model üzerinden gecikmeli dolaylı destek vermeye başladı.
2 yorum
122B model varmış meğer, vay canına
https://huggingface.co/google/gemma-4-31B-it-assistant
https://github.com/huggingface/transformers/…
https://github.com/Blaizzy/mlx-vlm/pull/1112
https://huggingface.co/collections/mlx-community/gemma-4-assistant-mtp