MiMo-V2.5 — Xiaomi'nin açık kaynak omni-model yapay zeka modeli

xguru · 2026-04-29T11:22:02+09:00

Metin, görüntü, video ve sesi tek bir mimaride entegre biçimde işleyen yerel bir omnimodal model olup, ajan görevlerine özel olarak optimize edilmiştir MIT lisansı ile ticari dağıtım ve fine-tuning dahil her şey mümkün; ek izin gerekmez Sparse MoE yapısı sayesinde toplam 310B parametrenin yalnızca 15B'si etkinleştirilerek verimli çıkarım sağlanır (Pro sürümü 1.02T/42B) Hybrid Attention(SWA + GA 5:1 oranı, pencere 128) ile KV-cache depolama miktarı yaklaşık 6 kat azaltılırken en fazla 1M token bağlam desteği sunuluyor Özel görüntü kodlayıcı (729M parametreli ViT, hibrit pencere attention) ve ses kodlayıcı (261M parametre, MiMo-Audio-Tokenizer tabanlı) içerir 3 katmanlı Multi-Token Prediction(MTP) modülü ile speculative decoding tabanlı çıkarım hızlandırma ve RL eğitim verimliliği artışı sağlanıyor Toplam yaklaşık 48T token ile FP8 mixed precision eğitimi yapıldı; son işlem aşamasında SFT, büyük ölçekli ajan RL, Multi-Teacher On-Policy Distillation(MOPD) uygulanarak ajan ve multimodal benchmark performansı güçlendirildi 5 aşamalı pipeline (metin ön eğitimi → projektör ısındırma → multimodal ön eğitim → SFT/ajan son işlemi → RL/MOPD) SGLang(FP8 quantization, dp/tp paralelliği) ve vLLM resmi dağıtımı destekleniyor Base(256K) ve Full(1M) olmak üzere iki sürüm sunuluyor

(huggingface.co)

7 puan yazan xguru 2026-04-29 | 2 yorum | WhatsApp'ta paylaş

Metin, görüntü, video ve sesi tek bir mimaride entegre biçimde işleyen yerel bir omnimodal model olup, ajan görevlerine özel olarak optimize edilmiştir
MIT lisansı ile ticari dağıtım ve fine-tuning dahil her şey mümkün; ek izin gerekmez
Sparse MoE yapısı sayesinde toplam 310B parametrenin yalnızca 15B'si etkinleştirilerek verimli çıkarım sağlanır (Pro sürümü 1.02T/42B)
Hybrid Attention(SWA + GA 5:1 oranı, pencere 128) ile KV-cache depolama miktarı yaklaşık 6 kat azaltılırken en fazla 1M token bağlam desteği sunuluyor
Özel görüntü kodlayıcı (729M parametreli ViT, hibrit pencere attention) ve ses kodlayıcı (261M parametre, MiMo-Audio-Tokenizer tabanlı) içerir
3 katmanlı Multi-Token Prediction(MTP) modülü ile speculative decoding tabanlı çıkarım hızlandırma ve RL eğitim verimliliği artışı sağlanıyor
Toplam yaklaşık 48T token ile FP8 mixed precision eğitimi yapıldı; son işlem aşamasında SFT, büyük ölçekli ajan RL, Multi-Teacher On-Policy Distillation(MOPD) uygulanarak ajan ve multimodal benchmark performansı güçlendirildi
- 5 aşamalı pipeline (metin ön eğitimi → projektör ısındırma → multimodal ön eğitim → SFT/ajan son işlemi → RL/MOPD)
SGLang(FP8 quantization, dp/tp paralelliği) ve vLLM resmi dağıtımı destekleniyor
Base(256K) ve Full(1M) olmak üzere iki sürüm sunuluyor

2 yorum

xguru 2026-04-29

VentureBeat bunu test etmiş ve OpenClaw için oldukça uygun olduğunu söylüyor.
https://venturebeat.com/ai/…

ClawEval benchmark’ında Pro model, açık kaynak alanında lider olarak %63,8 başarı oranı kaydetti
Anthropic Claude Opus 4.6, Google Gemini 3.1 Pro, OpenAI GPT-5.4 ile karşılaştırıldığında %40–60 daha az token kullanarak eşdeğer sonuçlar elde etti
MiMo-V2.5("Omni"), görsel, işitsel ve metni entegre biçimde işleyen, doğal çok modlu uzman bir modeldir
MiMo-V2.5-Pro("Agent"), "uzun ufuklu tutarlılık(long-horizon coherence)" ve karmaşık yazılım mühendisliği görevlerine odaklanmıştır
Pro model, GDPVal-AA(Elo) benchmark’ında 1581 puan alarak Kimi K2.6 ve GLM 5.1’i geride bıraktı
Kısıtlayıcı "Acceptable Use" politikaları içeren birçok "açık" modelin aksine, MiMo-V2.5 MIT lisansı ile yayımlandı
- Onay gerekmiyor: Xiaomi’nin açık izni olmadan ticari dağıtım mümkün
- Sürekli eğitim özgürlüğü: Kendi verinizle fine-tuning yapıp türetilmiş ağırlıkları yayımlayabilirsiniz
- Sınırsız ticari kullanım: Topluluk lisanslarında sık görülen gelir tavanı veya kullanıcı sayısı sınırı yok
Proje lideri Fuli Luo(eski DeepSeek kilit üyesi)

"Bir modelin değeri, sıralamasıyla değil çözdüğü problemlerle ölçülür"

cosine20 2026-05-01

Xiaomi şirketinin ana iş alanlarını düşününce, OpenClaw ve Hermes gibi ajanları göz önünde bulundurarak geliştirilmiş olma ihtimali de var gibi görünüyor.

MiMo-V2.5 — Xiaomi'nin açık kaynak omni-model yapay zeka modeli

İlgili okumalar

2 yorum