5 puan yazan darjeeling 1 시간 전 | 2 yorum | WhatsApp'ta paylaş

Google, MTP ile eğitilen Gemma 4’ten bu özelliği herkese açık dağıtım sürümünde kaldırdı; ancak topluluğun reverse engineering çalışmalarıyla durum ortaya çıktıktan sonra, harici bir yardımcı model biçiminde gecikmeli destek sunmaya başladı.

Açık kaynak geliştiricileri, Google’ın mobil/edge cihazlar için dağıttığı .litertlm (TFLite tabanlı) dosyalarını incelerken çarpıcı bir gerçeği keşfetti. HuggingFace’te yayınlanan standart model ağırlıklarında bulunmayan MTP(Multi-Token Prediction, çoklu token tahmini) mimarisi, yalnızca edge için derlenmiş dosyalarda yer alıyordu.

Bu durum kamuya açık biçimde gündeme getirilince Google tarafı gerçeği kabul ederek şu yanıtı verdi:

> "MTP ile ilgili tahmin head’leri, HuggingFace Transformers API ile uyumluluk için herkese açık modelden kasıtlı olarak çıkarıldı. LiteRT çalışma zamanında ise cihaz üstü performansı artırmak için korundu."

MTP nedir

Normal LLM’ler token’ları tek tek, sıralı biçimde üretir. MTP ise tek bir forward pass içinde birden fazla token’ı aynı anda tahmin eden bir tekniktir; speculative decoding ile birleştirildiğinde çıktı kalitesini değiştirmeden çıkarım hızını ciddi ölçüde artırabilir. Teorik olarak kayıpsız (lossless) bir optimizasyondur.

Topluluğun reverse engineering girişimi

İlk keşfi yapan kişi, .litertlm dosyasından birden fazla .tflite dosyası çıkarmayı başardı; ardından çıkarılan dosyaları ve yeniden üretim adımlarını HuggingFace’te paylaşarak C++ bilenlerden iş birliği istedi. Sonrasında topluluk katkıcıları tam kapsamlı bir reverse engineering çalışmasına girişti.

Teknik zorluk: TFLite kernel yapısı son derece zorluydu. 1024-wide attention vektörü INT8’e quantize ediliyor → INT8 ağırlıklarla çarpılıyor → sonuç yeniden quantize ediliyor → ardından tekrar dequantize ediliyordu.

Sonuç: Birkaç günlük yoğun çalışmanın ardından şu bileşenler yeniden oluşturuldu:

  • GQA(Grouped-Query Attention) yapısı ve harici KV cache eşlemesi
  • Sliding local window davranışı
  • pre_project / q_proj / MLP / o_proj / post_project quantization yolu
  • Kısmi RoPE davranışı
  • uçtan uca TFLite parity ile 20/20 top-1 eşleşme başarısı

Lisans Apache 2.0 olduğu için hukuki bir sorun bulunmuyor.

Gerçek performans: ne kadar hızlı

Topluluğun ölçümlerine göre (Strix Halo baz alınarak):

İş yükü Önce MTP sonrası
Kod üretimi 8 tps 25 tps (yaklaşık 3x)
Genel yazma 7~8 tps 11~14 tps

Mevcut LLaMA/Qwen3 ailesinde speculative decoding genelde 1.5~1.7x, en fazla 2x düzeyindeyken; kod üretiminde 3x dikkat çekici bir değer olarak öne çıkıyor. Bunun, kod üretiminin doğası gereği tekrar eden boilerplate miktarının fazla olması ve bu yüzden draft token kabul oranının yüksek seyretmesiyle ilişkili olduğu değerlendiriliyor.

Topluluğun tepkisi ve şüpheler

Eleştiriler temelde iki yönde yoğunlaştı.

① Belgelenmemiş olması eleştirisi: MTP ile eğitilmiş olmasına rağmen özelliğin herkese açık dağıtım sürümünden bilerek çıkarılması ve buna dair hiçbir açıklama yapılmaması.

② Ticari niyet şüphesi: "Yerelde çalışan açık kaynak 31B model fazla hızlanırsa şirketin ticari API’lerinin (Flash Lite vb.) rekabet gücünü tehdit edeceği için kasıtlı olarak kırpıldı" iddiası. Sızdırıldıktan sonra silinen 122B model de aynı bağlamda anıldı.

Google’ın yapısal tercihi

Dağıtım kanalı MTP içeriyor mu
HuggingFace açık ağırlıkları ❌ kasıtlı olarak çıkarıldı
LiteRT (edge/mobil) ✅ gömülü
gemma4_assistant (5/5 yeni) ✅ harici yardımcı model olarak dolaylı destek

Google’ın gecikmeli resmi yanıtı (5-6 Mayıs)

Topluluktan gelen baskı artınca Google, 5 Mayıs’ta gemma4_assistant yardımcı modelini HuggingFace’te ayrı bir sürüm olarak yayımladı ve resmi blogunda Gemma 4 MTP drafter’ını duyurdu. Normalde modelin içinde bulunması gereken işlev, harici bir modele ayrılarak dolaylı biçimde sunulmuş oldu.

  • Hız: kalite kaybı olmadan en fazla 3 kat çıkarım hızlanması
  • Yardımcı model: yaklaşık 500M parametre düzeyinde hafif bir drafter
  • Kullanım: generate() fonksiyonundaki assistant_model= parametresine vermek yeterli; özel MTP uygulaması gerekmiyor
  • Desteklenen ortamlar: HuggingFace Transformers, vLLM, MLX(Apple Silicon), LiteRT-LM

> 💡 Tek cümlelik özet: Google, MTP ile eğitilmiş Gemma 4’ten bu özelliği herkese açık sürümde kaldırdı; ancak topluluğun reverse engineering çalışmalarıyla durum ortaya çıkınca, harici bir yardımcı model üzerinden gecikmeli dolaylı destek vermeye başladı.