- Metin, görsel, video ve sesi tek bir mimari içinde birleşik olarak işleyen yerel bir omni-modal model; ajan görevlerine özel olarak tasarlanmış
- MIT lisansı ile ticari dağıtım ve fine-tuning dahil her şey mümkün; ek izin gerekmiyor
- Sparse MoE yapısıyla toplam 310B parametrenin yalnızca 15B'sini etkinleştirerek verimli çıkarım sağlıyor (Pro sürümü 1.02T/42B)
- Hybrid Attention (SWA + GA 5:1 oranı, pencere 128) ile KV-cache depolama miktarını yaklaşık 6 kat azaltırken en fazla 1M token bağlam desteği sunuyor
- Özel görüntü kodlayıcı (729M parametreli ViT, hibrit pencere attention) ve ses kodlayıcı (261M parametre, MiMo-Audio-Tokenizer tabanlı) içeriyor
- 3 katmanlı Multi-Token Prediction(MTP) modülü ile speculative decoding tabanlı çıkarımı hızlandırıyor ve RL eğitim verimliliğini artırıyor
- Toplam yaklaşık 48T token ile FP8 mixed precision eğitimi yapıldı; son işleme aşamasında SFT, büyük ölçekli ajan RL, Multi-Teacher On-Policy Distillation(MOPD) uygulanarak ajan ve multimodal benchmark performansı güçlendirildi
- 5 aşamalı pipeline (metin ön eğitimi → projektör ısındırma → multimodal ön eğitim → SFT/ajan son işleme → RL/MOPD)
- SGLang(FP8 kuantizasyon, dp/tp paralellik) ve vLLM resmi dağıtımı desteği sunuyor
- Base(256K) ve Full(1M) olmak üzere iki sürüm sunuluyor
1 yorum
VentureBeat bunu test etmiş ve OpenClaw için oldukça uygun olduğunu söylüyor.
https://venturebeat.com/ai/…