Xiaomi MiMo akıl yürütme modeli

(github.com/XiaomiMiMo)

1 puan yazan GN⁺ 2025-05-01 | 1 yorum | WhatsApp'ta paylaş

Xiaomi’nin MiMo-7B’si, akıl yürütme görevleri için sıfırdan eğitilmiş bir 7B dil modeli serisidir; Base, SFT ve RL model checkpoint’leri açık kaynak olarak yayımlandı
30 Mayıs 2025 güncellemesinde SFT veri kümesi yaklaşık 500 binden 6 milyona çıkarıldı ve RL eğitim pencere boyutu 32K’dan 48K’ya genişletildi; bunun sonucunda MiMo-7B-RL-0530’un AIME 2024 performansı 80.1’e ulaştı
Ön eğitimde yaklaşık 25 trilyon token ve 3 aşamalı veri karışımı stratejisi kullanılıyor; akıl yürütme örüntüsü yoğunluğunu artırmak için veri filtreleme, sentetik akıl yürütme verileri ve Multiple-Token Prediction içeriyor
Son eğitimde 130 bin matematik ve kod problemi, kural tabanlı doğrulayıcı, kural tabanlı doğruluk ödülü, kod problemleri için test zorluğu tabanlı ödül ve kolay problemleri yeniden örnekleme stratejisi kullanılıyor
Dağıtım için SGLang, Xiaomi’nin vLLM fork’u ve HuggingFace örnekleri sunuluyor; MiMo’nun diğer çıkarım motorlarındaki doğrulaması henüz tamamlanmadı ve katkılara açık

MiMo-7B serisinin hedefi ve yayımlanan kapsam

MiMo-7B, dil modellerinin akıl yürütme potansiyelini ön eğitimden son eğitime kadar ortaya çıkarmayı hedefleyen bir model serisidir
Yayımlanan checkpoint’ler şu 4 türden oluşur
- MiMo-7B-Base: akıl yürütme potansiyeline sahip base model
- MiMo-7B-RL-Zero: base modelden RL ile eğitilmiş model
- MiMo-7B-SFT: base modelden SFT ile eğitilmiş model
- MiMo-7B-RL: SFT modelden RL ile eğitilmiş model
Model HuggingFace ve ModelScope üzerinde sunuluyor
Teknik rapor arXiv üzerinde yayımlandı

30 Mayıs 2025 güncellemesi

MiMo-7B-RL-0530, SFT veri kümesinin yaklaşık 500 binden 6 milyona genişletilmesini ve RL eğitim pencere boyutunun 32K’dan 48K’ya çıkarılmasını yansıtır
MiMo-7B-RL-0530, AIME 2024’te 80.1 skoruna ulaşarak DeepSeek R1’in 79.8 skorunu geçti
Başlıca benchmark değişimleri şöyle
- MATH500 Pass@1: 95.8 → 97.2
- AIME 2024 Pass@1: 68.2 → 80.1
- AIME 2025 Pass@1: 55.4 → 70.2
- LiveCodeBench v5 Pass@1: 57.8 → 60.9
- LiveCodeBench v6 Pass@1: 49.3 → 52.2
- GPQA-Diamond Pass@1: 54.4 → 60.6
- Alignbench1.1, GPT-4.1 değerlendirmesi: 6.9 → 7.4

Ön eğitim: akıl yürütme için base model

MiMo-7B-Base, akıl yürütme görevleri için sıfırdan eğitilmiş bir base modeldir
Ön eğitimde yaklaşık 25 trilyon token kullanıldı
Veri işlemede metin çıkarma araçları iyileştirildi ve çok boyutlu veri filtreleme uygulanarak ön eğitim verilerindeki akıl yürütme örüntüsü yoğunluğu artırıldı
Çeşitli büyük ölçekli sentetik akıl yürütme verileri üretmek için birden fazla strateji kullanıldı
Ön eğitimde 3 aşamalı veri karışımı stratejisi uygulandı
Multiple-Token Prediction ek bir eğitim hedefi olarak eklenerek model performansı ve çıkarım hızı iyileştirildi

Son eğitim ve RL eğitim yöntemi

Son eğitimde, kural tabanlı doğrulayıcılarla kontrol edilebilen 130 bin matematik ve kod problemi RL eğitim verisi olarak kullanıldı
Kaliteyi güvence altına almak için her problem arıtma ve zorluk değerlendirmesinden geçirildi
Olası ödül hack’lemesini önlemek için ödül olarak yalnızca kural tabanlı doğruluk ödülü kullanıldı
Zor kod problemlerindeki seyrek ödül sorununu hafifletmek için test zorluğu tabanlı kod ödülü getirildi
- Farklı zorluktaki test case’lere ayrıntılı puanlar verilir
- Politika, daha yoğun ödül sinyalleriyle optimize edilebilir
Kolay problemlere veri yeniden örnekleme stratejisi uygulanarak rollout örnekleme verimliliği artırıldı ve özellikle RL eğitiminin son aşamalarındaki politika güncellemeleri kararlı hâle getirildi

RL altyapısı ve model yapısı

Seamless Rollout Engine, RL eğitimi ve doğrulamayı hızlandırmak için geliştirildi
Tasarım; sürekli rollout, asenkron ödül hesaplama ve erken sonlandırmayı birleştirerek GPU boşta kalma süresini azaltır
Performans iyileştirme rakamları şöyle
- Eğitim hızı 2.29 kat arttı
- Doğrulama hızı 1.96 kat arttı
MiMo-7B’nin MTP katmanı ön eğitim ve SFT sırasında ayarlanır, RL sırasında ise sabit tutulur
Spekülatif decoding için 1 MTP katmanı kullanıldığında kabul oranı yaklaşık %90’dır
vLLM’de MTP desteklenir ve RL sisteminin çıkarım motoru sağlamlığı güçlendirilir

Değerlendirme sonuçları

MiMo-7B-RL’nin matematik ve kod akıl yürütme görevlerinde OpenAI o1-mini ile başa baş performans gösterdiği belirtiliyor
Başlıca model karşılaştırmalarında MiMo-7B-RL’nin matematik ve kod sonuçları şöyle
- MATH-500 Pass@1: 95.8
- AIME 2024 Pass@1: 68.2
- AIME 2025 Pass@1: 55.4
- LiveCodeBench v5 Pass@1: 57.8
- LiveCodeBench v6 Pass@1: 49.3
MiMo-7B serisi iç karşılaştırmasında RL uygulandıktan sonra performans büyük ölçüde artıyor
- MATH500: Base 37.4 → RL-Zero 93.6 → SFT 93.0 → RL 95.8
- AIME 2024: Base 32.9 → RL-Zero 56.4 → SFT 58.7 → RL 68.2
- LiveCodeBench v5: Base 32.9 → RL-Zero 49.1 → SFT 52.3 → RL 57.8
Değerlendirme ayarı temperature=0.6dır
Tekrarlı değerlendirme koşulları şöyle
- AIME24 ve AIME25 için 32 tekrar ortalaması
- LiveCodeBench v5, LiveCodeBench v6, GPQA-Diamond ve IF-Eval için 8 tekrar ortalaması
- MATH500 ve SuperGPQA için tek çalıştırma

Dağıtım ve çıkarım kullanımı

SGLang, MiMo model desteği ve MTP desteğiyle MiMo’yu ana akımda destekler
- İlgili PR’lar: MiMo model support, MTP
- Kullanım belgeleri SGLang documents üzerinde sunulur
vLLM çıkarımı için Xiaomi’nin vLLM fork’unun kullanılması önerilir
- Önerilen fork: XiaomiMiMo/vllm
- Bu fork, vLLM 0.7.3 temel alınarak geliştirildi
MTP parametrelerini yüklemeyecek şekilde vLLM loader’ı kaydetmek de mümkündür
- Kayıt dosyası: registry/register_mimo_in_vllm.py
HuggingFace çıkarım örneği AutoModelForCausalLM.from_pretrained ve AutoTokenizer.from_pretrained kullanır
Önerilen prompt ayarı boş system prompttur
MiMo’nun diğer çıkarım motorlarındaki doğrulaması henüz tamamlanmadı; HuggingFace deposundaki model tanımını temel alan katkılar kabul ediliyor

1 yorum

GN⁺ 2025-05-01

Hacker News yorumları

Makalede kod verileri için pekiştirmeli öğrenme aşamasını nasıl ele aldıkları ilginçti. Zor ama çözülebilir kod üretme görevlerini birim testleriyle çalıştırarak eğitmişler; diğer modellerin de böyle bir eğitim aşamasından geçip geçmediğini merak ediyorum.
Makaleye göre test vakası olmayan problemler çıkarılmış; doğru çözüm kodu olsa bile tüm testleri geçemeyenler elenmiş; doğru çözüm kodu olmayan problemler ise gelişmiş bir akıl yürütme modelinden 16 örneklemede hiçbir testi çözememesi durumunda atılmış. Kolay problemleri de MiMo-7B’nin SFT sürümüyle filtreleyerek nihai olarak 30 bin kod problemi oluşturduklarını söylüyorlar.
Ayrıca her pekiştirmeli öğrenme iterasyonunda binlerce problemi ve problem başına yüzlerce test vakasını değerlendirmek gerektiğinden, GPU boşta kalma süresini ortadan kaldırmak için çok büyük ölçekli birim testlerini paralel çalıştıran bir online judge ortamı kurduklarını belirtiyorlar.
- Birim testleri olmadan pekiştirmeli öğrenme yapılan durumlar var mı? Yoksa bu, diğer model üreticilerinin doğruluğu göz ardı ettiği anlamına gelir ki şaşırtıcı olur.
  Küçük, modüler problemler için mümkün olabilir; ancak girdisi 200 bin token olan problemler için bu yöntem zor olabilir.
Çin’den çıkan yapay zeka modelleri arasında neden bu kadar çok İngilizce öncelikli model olduğunu merak ediyorum. Kendi ülkelerindeki kullanıcıları hedeflemeyi düşünmüyorlar mı, yoksa Çince öncelikli bir modeli yayımlasalar Batı’da dikkat çekmesi zor olduğu için mi, bilmiyorum.
- CommonCrawl, 2008’den beri veri toplayan en büyük ve en kolay erişilebilir yasal tarama veri kümesi. Neredeyse herkes temel büyük dil modeli eğitiminde ana veri kümesi olarak kullanıyor ve çoğu İngilizce olduğu için modeller İngilizcede iyi hale geliyor.
  https://commoncrawl.org/
- Bilimsel araştırmalarda, özellikle AI benchmark’larında İngilizce fiilen standart dil haline gelmiş gibi görünüyor.
  Çince bir şeyi doğrudan test etmek açıkça mümkün değil; çeviri gerekiyor.
- LLM’leri anlamaya çalışan bu makalede ilginç bulduğum nokta, modellerin farklı dillerdeki kelime ve kavramları Çok Dilli Devreler (Multilingual Circuits) ile birbirine bağladığı bölümdü.
  Örnek olarak İngilizcedeki “small” kelimesinin zıddının big, Fransızcadaki “petit” kelimesinin zıddının grand, Çincedeki “小” kelimesinin zıddının “大” olması gibi bağlantılar veriliyor. İlgili görsel de oldukça güzel.
  İngilizce internetin ortak dili ve en büyük derlemi oluşturuyor; ancak ana akım modeller İngilizce veri kümelerini kullanarak diller arası ilişkiler kurabiliyor. Bu yüzden veri, teknoloji ve kaynak eksikliği nedeniyle kendi yerel modellerini oluşturması zor olan dil topluluklarında da çok daha güçlü yapay zeka ve akıl yürütme yetenekleri ortaya çıkabilir.
  https://www.anthropic.com/research/tracing-thoughts-language...
  https://www.anthropic.com/_next/image?url=https%3A%2F%2Fwww-...
- Yüksek kaliteli eğitim materyallerinin önemli bir kısmının İngilizce olduğunu düşünüyorum.
- Çin interneti neredeyse tamamen büyük şirketlerin sıkı şekilde kontrol ettiği birkaç kapalı bahçeden oluşuyor. Her şirket kendi verisini korumak için mühendis ekipleri görevlendirince crawler’lar düzgün çalışamıyor.
  Popüler web sitelerinin önemli bir kısmı da yalnızca uygulama üzerinden erişilebilir olduğundan, iyi bir LLM eğitimi için gereken derlemi elde etmek imkânsız hale geliyor.
7B bir model için kodlama performansı inanılması güç derecede güçlü. Kullandığım Gemini Pro 2.5 67.8 alırken bu model 57.8 alıyor; 60.6 olan Gemini 2.5 Flash’a da çok yakın.
llama4 ile ilgili konuşulanları gördükten sonra değerlendirme sonuçlarına oldukça şüpheyle yaklaşır oldum; kapalı değerlendirmelerde nerede yer alacağını görmek gerekecek, ama mevcut rakamlar çok etkileyici.
LM Studio, Ollama vb. ile kullanılabilen GGUF sürümü: https://huggingface.co/jedisct1/MiMo-7B-RL-GGUF
Ollama’da gguf dosyası kullanırken genelde yanında kullanılacak Modelfile’ı kendiniz oluşturup mu kullanıyorsunuz, yoksa Ollama’nın varsayılanlarının yeni modeller için de iyi uymasını mı bekliyorsunuz, merak ediyorum
https://github.com/ollama/ollama/blob/main/docs%2Fmodelfile....
- Georgi Gerganov’un GGUF’u tasarlarken temel hedeflerinden biri başka dosyalara ihtiyaç bırakmamaktı. Spesifikasyonun ilk maddesi bile kelimenin tam anlamıyla tek dosyalı dağıtım
  Modeli yüklemek için gereken tüm bilgilerin model dosyasının içinde olduğu ve kullanıcının ek bilgi sağlamasına gerek olmadığı yazıyor
  https://github.com/ggml-org/ggml/blob/master/docs/gguf.md
  Çok dosyalı karmaşayı zar zor ortadan kaldırmışken Ollama’nın bunu yeniden eklemiş olması üzücü
- ollama pull yaptığınızda Modelfile da blob ile birlikte indiriliyor. Modeli kalıcı olarak değiştirmek istiyorsanız Modelfile’ı bir metin düzenleyiciye kopyalayıp gerekli değişiklikleri ekleyerek mevcut Modelfile’dan yeni bir model oluşturabilirsiniz
  Open WebUI’de kullandığım iş akışı şu: ollama show qwen3:30b-a3b-q8_0 --modelfile ile kontrol ediyorum, Modelfile içeriğini admin -> models -> OpenwebUI içine yapıştırıyorum, sonra adını qwen3:30b-a3b-q8_0-monkversion-1 gibi değiştiriyorum, num_gpu 90 gibi parametrelerle katman sayısını ayarlıyorum ve ardından eski dosyayı ya tutuyor ya da siliyorum
  Modelfile içinde, yeni bir Modelfile oluşturmak için FROM satırını # FROM qwen3:30b-a3b-q8_0 gibi değiştirmeniz gerektiğine dair bir yönerge yer alıyor; yolun doğru olup olmadığını da kontrol etmek gerekiyor. Ben modelleri varsayılan Ollama konumunda değil, büyük bir NVMe sürücüde sakladığım için bu önemli
  Ayrıca Modelfile iş akışı gerçekten zahmetli ve berbat bir kalıp olduğu için sevmiyorum. Bazı modeller 30–60 GB; tek bir parametreyi değiştirmek için tamamını kopyalamak aptalca bir yöntem
  Yine de Ollama’nın iyi yaptığı çok şey var ve başlamayı kolaylaştırıyor. vLLM, SGLang, Mistral.rs, llama.cpp ise yapılandırma için çok daha fazla iş gerektiriyor
- Genelde başlangıçta varsayılanları kullanıyorum; sürekli kullanacağım bir modelse Modelfile kullanıyorum. Ollama’nın kullandığı Modelfile’ı döküp şablon olarak almak da mümkün olabilir
Benchmark’larda, şu anda birçok değerlendirmede en yüksek performansa sahip O3 ya da Gemini Pro, Claude 3.7 gibi üst modellerin dışarıda bırakıldığını görmek biraz komik
- O modeller çok çok daha büyük ve kapalı modeller. İlgili sağlayıcıların damıtılmış sürümleri tanımlayıp yayımladığı da yok
  Karşılaştırma yapılanların çoğunun 7B model olduğuna bakmak gerek. İstisna da açık ağırlıklı bir model olan Qwen-2.5-32B-RL-Zero; MiMo-7B ise 32B parametreli modelden bile daha iyi
- Buradaki amacın, çevrimdışı ya da mobil donanım üzerinde çalışacak şekilde optimize edilmiş benzer modellerle karşılaştırma yapmak olduğunu düşünüyorum
MiMo-7B’nin 7B bir modeli sıfırdan eğitip Qwen-32B gibi daha büyük modelleri geçtiği, matematik ve kod benchmark’larında OpenAI o1-mini ile başa baş olduğu iddia ediliyor. Bu, ön eğitim + RLHF optimizasyonunun sonunda ölçeğin gücünü aşmaya başladığının bir işareti mi, yoksa dar kapsamlı yetenekleri benchmark’lama konusunda daha iyi hale gelinmesinden mi ibaret, merak ediyorum
- Qwen 3 mü 2.5 mi, onu merak ediyorum
README’de ne tür bir pekiştirmeli öğrenme olduğu açıklanmıyor, sadece RL denmiş. Araştırmacıların meşgul olduğunu ve iyi yazmanın zaman aldığını biliyorum ama böyle ayrıntıların atlanmamasını isterdim
- Teknik rapor, değiştirilmiş GRPO amaç fonksiyonu gibi pekiştirmeli öğrenmenin nasıl kullanıldığını oldukça derinlemesine ele alıyor. README söz konusu olduğunda ise, bu alanda çalışan çoğu kişinin çıkarım modellerinde “RL”nin ne anlama geldiğini anladığını düşünüyorum
- “RL”nin pekiştirmeli öğrenme anlamına geldiğini düşündüm; üniversitede AI okumamın üzerinden yaklaşık 10 yıl geçti ama sadece RL diye yazmak da yeterince makul değil mi diye düşünüyorum. Q-Learning mi kullandılar yoksa başka bir algoritma mı gibi bir ayrıntı mı isteniyor, merak ediyorum
Bu modelin Xiaomi 15 serisi telefonların AI asistanında kullanılıp kullanılmayacağını merak ediyorum. Muhtemelen yüksek ihtimal gibi görünüyor ama nasıl sonuç vereceğinden pek emin değilim
7B bir modelde bu tür benchmark skorları görmek inanması zor
- Küçük modellerin performansı azar azar yükselmeye devam ediyor. Büyük şirketlerin ana akım modellerini tek hamlede geride bırakmıyorlar, bu yüzden manşet olmuyorlar ama hepsi epey yetenekli hale geldi
  Kısa süre önce Ollama’da rastgele bir 12B model çalıştırdım; kullandığım makineyi düşününce o kadar iyi ve hızlı hissettirdi ki şaşırdım. Yaklaşık bir yıl önce böyle olmazdı
- Bu rakamlar gerçek dışı görünüyorsa qwen3-4B’nin benchmark sayılarına bakmalısınız
  https://qwenlm.github.io/blog/qwen3/
- Benim tahminim testlere aşırı uyum sağlamış olduğu yönünde
- Tüm LLM’ler fiilen benchmark’larla eğitildiği için, LLM’lere uygulanan “benchmark” kelimesi oldukça anlamsız hale geliyor
- Bugünün en iyi modeli, hayatının geri kalanı boyunca giderek daha kötü bir model olacak

Xiaomi MiMo akıl yürütme modeli

MiMo-7B serisinin hedefi ve yayımlanan kapsam

30 Mayıs 2025 güncellemesi

Ön eğitim: akıl yürütme için base model

Son eğitim ve RL eğitim yöntemi

RL altyapısı ve model yapısı

Değerlendirme sonuçları

Dağıtım ve çıkarım kullanımı

İlgili okumalar

1 yorum

Hacker News yorumları