Xiaomi MiMo akıl yürütme modeli
(github.com/XiaomiMiMo)- MiMo-7B, dil modellerinin akıl yürütme potansiyelini en üst düzeye çıkarmak için geliştirilen bir model serisidir
- Ön eğitim ve sonraki eğitim stratejileriyle matematik ve kod akıl yürütme görevlerinde üstün performans gösterir
- MiMo-7B, küçük bir model olmasına rağmen daha büyük modellerle karşılaştırılabilir performans sergiler
- Açık kaynak olarak sunulduğu için topluluğa katkı sunma potansiyeli taşır
- RL altyapısı sayesinde eğitim ve doğrulama hızını büyük ölçüde artırır
I. Giriş
- Başarılı pek çok pekiştirmeli öğrenme (RL) araştırması büyük modellere dayanır ve küçük modellerde matematik ile kod yeteneklerini aynı anda geliştirmek zordur
- MiMo-7B, akıl yürütme görevleri için sıfırdan eğitilmiş bir modeldir ve daha büyük modelleri geride bırakabilecek bir akıl yürütme potansiyeline sahiptir
- MiMo-7B serisi açık kaynak olarak sunulur ve topluluğun güçlü akıl yürütme dil modelleri geliştirmesine katkı sağlayabilir
🌟 Öne çıkanlar
-
Ön eğitim: akıl yürütme için temel model
- Veri ön işleme hattını optimize ederek akıl yürütme örüntüsü yoğunluğunu artırır
- Çeşitli sentetik akıl yürütme verileri üretmek için birden fazla strateji kullanır
- Çoklu token tahminini ek bir eğitim hedefi olarak dahil ederek model performansını artırır
-
Sonraki eğitim reçetesi: öncü akıl yürütme modeli
- 130K matematik ve kod problemini RL eğitim verisi olarak kullanır
- Politika optimizasyonunu etkili biçimde yürütmek için test zorluğu tabanlı kod ödülünü devreye alır
- Politika güncellemelerini istikrara kavuşturmak için kolay problemlere yönelik bir veri yeniden örnekleme stratejisi uygular
-
RL altyapısı
- RL eğitimi ve doğrulamayı hızlandırmak için Seamless Rollout Engine geliştirir
- MTP desteğini vLLM'e ekler ve RL sisteminin çıkarım motorunun sağlamlığını güçlendirir
II. Model ayrıntıları
- MiMo-7B serisi çeşitli model checkpoint'leri sunar ve HuggingFace üzerinden indirilebilir
III. Değerlendirme sonuçları
- MiMo-7B-RL, matematik ve kod akıl yürütme görevlerinde üstün performans gösterir
- Çeşitli benchmark'larda rekabetçi sonuçlar elde eder
IV. Dağıtım
- vLLM ve HuggingFace üzerinden çıkarım desteği
- Önerilen ortam ve prompt kullanımıyla en iyi performans elde edilebilir
V. Atıf
- MiMo-7B için atıf bilgileri sunulur
VI. İletişim
- Sorular için mimo@xiaomi.com adresinden iletişime geçilebilir veya GitHub issue üzerinden ulaşılabilir
1 yorum
Hacker News görüşleri
Makaledeki kod verisi için pekiştirmeli öğrenme (RL) aşamasının ele alınış biçimi ilginçti. Birim testleri çalıştırarak çözülebilir kod üretim görevleri üzerinde eğitim yapmışlar. Diğer modellerin de bu eğitim aşamasını uygulayıp uygulamadığını merak ediyorum
Çin'de neden bu kadar çok İngilizce öncelikli yapay zeka modeli olduğunu merak ediyorum. Kendi nüfuslarıyla ilgilenmiyorlar mı, yoksa Çince öncelikli bir model yayınlarlarsa Batı'da dikkat çekmeyeceğini mi düşünüyorlar, merak ediyorum
7B modelinin kodlama performansı çok güçlü. Gemini Pro 2.5 kullanıyorum ve 67.8 puan almıştı; bu model 57.8 alıyor ve Gemini 2.5 Flash'ın 60.6 puanına oldukça yaklaşıyor
MiMo-7B'nin Qwen-32B gibi daha büyük modelleri geçtiği ve matematik/kod benchmark'larında OpenAI o1-mini ile benzer performans iddia ettiği söyleniyor. Bu, ön eğitim + RLHF optimizasyonunun ölçeği aşmaya başladığının bir işareti mi, yoksa dar yetenekleri benchmark'lama konusunda daha ustalaştığımız anlamına mı geliyor, merak ediyorum
O3 gibi en yüksek performanslı modellerin atlandığı benchmark'ları görmek eğlenceli. Şu anda birçok benchmark'ta en iyi model o. Gemini Pro/Claude 3.7 de var
ollama'da gguf dosyaları kullanırken genelde yeni modelle birlikte kullanılacak bir modelfile mı oluşturuyorsunuz, yoksa varsayılan ollama'nın yeni modelle çalışmasını mı umuyorsunuz, merak ediyorum
README'de sadece "RL" yazıyor ve hangi tür RL kullanıldığı belirtilmiyor. Araştırmacılara: meşgul olduğunuzu biliyorum ama lütfen bu tür ayrıntıları atlamayın
Biraz test ettim ve genel olarak oldukça sağlam. Uzun düşünme süresi yüzünden bekleme süresi epey uzuyor, hatta son dönemdeki qwen moe gibi daha büyük modellerden bile daha uzun sürüyor
Bu modeli Xiaomi 15 serisi telefonların yapay zeka asistanı olarak kullanıp kullanmayacaklarını merak ediyorum. Muhtemelen kullanırlar. Ne beklemek gerektiğinden emin değilim
Vay canına. Harika benchmark. Bu modelle konuşmayı dört gözle bekliyorum