MiMo-V2.5 — Xiaomi'nin açık kaynak omni-model yapay zeka modeli
(huggingface.co)- Metin, görüntü, video ve sesi tek bir mimaride entegre biçimde işleyen yerel bir omnimodal model olup, ajan görevlerine özel olarak optimize edilmiştir
- MIT lisansı ile ticari dağıtım ve fine-tuning dahil her şey mümkün; ek izin gerekmez
- Sparse MoE yapısı sayesinde toplam 310B parametrenin yalnızca 15B'si etkinleştirilerek verimli çıkarım sağlanır (Pro sürümü 1.02T/42B)
- Hybrid Attention(SWA + GA 5:1 oranı, pencere 128) ile KV-cache depolama miktarı yaklaşık 6 kat azaltılırken en fazla 1M token bağlam desteği sunuluyor
- Özel görüntü kodlayıcı (729M parametreli ViT, hibrit pencere attention) ve ses kodlayıcı (261M parametre, MiMo-Audio-Tokenizer tabanlı) içerir
- 3 katmanlı Multi-Token Prediction(MTP) modülü ile speculative decoding tabanlı çıkarım hızlandırma ve RL eğitim verimliliği artışı sağlanıyor
- Toplam yaklaşık 48T token ile FP8 mixed precision eğitimi yapıldı; son işlem aşamasında SFT, büyük ölçekli ajan RL, Multi-Teacher On-Policy Distillation(MOPD) uygulanarak ajan ve multimodal benchmark performansı güçlendirildi
- 5 aşamalı pipeline (metin ön eğitimi → projektör ısındırma → multimodal ön eğitim → SFT/ajan son işlemi → RL/MOPD)
- SGLang(FP8 quantization, dp/tp paralelliği) ve vLLM resmi dağıtımı destekleniyor
- Base(256K) ve Full(1M) olmak üzere iki sürüm sunuluyor
2 yorum
VentureBeat bunu test etmiş ve OpenClaw için oldukça uygun olduğunu söylüyor.
https://venturebeat.com/ai/…
Xiaomi şirketinin ana iş alanlarını düşününce, OpenClaw ve Hermes gibi ajanları göz önünde bulundurarak geliştirilmiş olma ihtimali de var gibi görünüyor.