1 puan yazan GN⁺ 2025-05-01 | 1 yorum | WhatsApp'ta paylaş
  • MiMo-7B, dil modellerinin akıl yürütme potansiyelini en üst düzeye çıkarmak için geliştirilen bir model serisidir
  • Ön eğitim ve sonraki eğitim stratejileriyle matematik ve kod akıl yürütme görevlerinde üstün performans gösterir
  • MiMo-7B, küçük bir model olmasına rağmen daha büyük modellerle karşılaştırılabilir performans sergiler
  • Açık kaynak olarak sunulduğu için topluluğa katkı sunma potansiyeli taşır
  • RL altyapısı sayesinde eğitim ve doğrulama hızını büyük ölçüde artırır

I. Giriş

  • Başarılı pek çok pekiştirmeli öğrenme (RL) araştırması büyük modellere dayanır ve küçük modellerde matematik ile kod yeteneklerini aynı anda geliştirmek zordur
  • MiMo-7B, akıl yürütme görevleri için sıfırdan eğitilmiş bir modeldir ve daha büyük modelleri geride bırakabilecek bir akıl yürütme potansiyeline sahiptir
  • MiMo-7B serisi açık kaynak olarak sunulur ve topluluğun güçlü akıl yürütme dil modelleri geliştirmesine katkı sağlayabilir

🌟 Öne çıkanlar

  • Ön eğitim: akıl yürütme için temel model

    • Veri ön işleme hattını optimize ederek akıl yürütme örüntüsü yoğunluğunu artırır
    • Çeşitli sentetik akıl yürütme verileri üretmek için birden fazla strateji kullanır
    • Çoklu token tahminini ek bir eğitim hedefi olarak dahil ederek model performansını artırır
  • Sonraki eğitim reçetesi: öncü akıl yürütme modeli

    • 130K matematik ve kod problemini RL eğitim verisi olarak kullanır
    • Politika optimizasyonunu etkili biçimde yürütmek için test zorluğu tabanlı kod ödülünü devreye alır
    • Politika güncellemelerini istikrara kavuşturmak için kolay problemlere yönelik bir veri yeniden örnekleme stratejisi uygular
  • RL altyapısı

    • RL eğitimi ve doğrulamayı hızlandırmak için Seamless Rollout Engine geliştirir
    • MTP desteğini vLLM'e ekler ve RL sisteminin çıkarım motorunun sağlamlığını güçlendirir

II. Model ayrıntıları

  • MiMo-7B serisi çeşitli model checkpoint'leri sunar ve HuggingFace üzerinden indirilebilir

III. Değerlendirme sonuçları

  • MiMo-7B-RL, matematik ve kod akıl yürütme görevlerinde üstün performans gösterir
  • Çeşitli benchmark'larda rekabetçi sonuçlar elde eder

IV. Dağıtım

  • vLLM ve HuggingFace üzerinden çıkarım desteği
  • Önerilen ortam ve prompt kullanımıyla en iyi performans elde edilebilir

V. Atıf

  • MiMo-7B için atıf bilgileri sunulur

VI. İletişim

  • Sorular için mimo@xiaomi.com adresinden iletişime geçilebilir veya GitHub issue üzerinden ulaşılabilir

1 yorum

 
GN⁺ 2025-05-01
Hacker News görüşleri
  • Makaledeki kod verisi için pekiştirmeli öğrenme (RL) aşamasının ele alınış biçimi ilginçti. Birim testleri çalıştırarak çözülebilir kod üretim görevleri üzerinde eğitim yapmışlar. Diğer modellerin de bu eğitim aşamasını uygulayıp uygulamadığını merak ediyorum

    • Kod verisi: Kodlama problemleri için açık kaynak veri kümeleri ve yeni toplanmış problem setlerini içeren yüksek kaliteli bir eğitim seti kürate edilmiş. Test vakası olmayan problemler çıkarılmış. Altın çözümü olan problemler arasında tüm test vakalarını geçemeyenler hariç tutulmuş. Altın çözümü olmayan problemler ise gelişmiş muhakeme modelinin 16 rollout denemesinde çözülemiyorsa çıkarılmış. Matematik verisine benzer şekilde, MiMo-7B'nin SFT sürümü kullanılarak 16 rollout'un tamamında kusursuz çözülen kolay problemler filtrelenmiş. Bu sıkı temizleme süreci sonunda 30.000 kod problemi elde edilmiş
    • Her RL yinelemesi sırasında ödülü hesaplamak için binlerce problem değerlendiriliyor. Her problem yüzlerce test vakası içerebilir. Ödül hesaplama verimliliğini artırmak ve GPU boşta kalma süresini ortadan kaldırmak için, çok yüksek hacimde birim testi paralel çalıştırabilen bir online judge ortamı geliştirilmiş
  • Çin'de neden bu kadar çok İngilizce öncelikli yapay zeka modeli olduğunu merak ediyorum. Kendi nüfuslarıyla ilgilenmiyorlar mı, yoksa Çince öncelikli bir model yayınlarlarsa Batı'da dikkat çekmeyeceğini mi düşünüyorlar, merak ediyorum

  • 7B modelinin kodlama performansı çok güçlü. Gemini Pro 2.5 kullanıyorum ve 67.8 puan almıştı; bu model 57.8 alıyor ve Gemini 2.5 Flash'ın 60.6 puanına oldukça yaklaşıyor

    • llama4 hakkında duyduklarım yüzünden değerlendirme sonuçlarına karşı kuşkucu hale geldim, ama kapalı değerlendirmelerde nereye yerleşeceğini göreceğiz. Yine de çok etkileyici
  • MiMo-7B'nin Qwen-32B gibi daha büyük modelleri geçtiği ve matematik/kod benchmark'larında OpenAI o1-mini ile benzer performans iddia ettiği söyleniyor. Bu, ön eğitim + RLHF optimizasyonunun ölçeği aşmaya başladığının bir işareti mi, yoksa dar yetenekleri benchmark'lama konusunda daha ustalaştığımız anlamına mı geliyor, merak ediyorum

  • O3 gibi en yüksek performanslı modellerin atlandığı benchmark'ları görmek eğlenceli. Şu anda birçok benchmark'ta en iyi model o. Gemini Pro/Claude 3.7 de var

  • ollama'da gguf dosyaları kullanırken genelde yeni modelle birlikte kullanılacak bir modelfile mı oluşturuyorsunuz, yoksa varsayılan ollama'nın yeni modelle çalışmasını mı umuyorsunuz, merak ediyorum

  • README'de sadece "RL" yazıyor ve hangi tür RL kullanıldığı belirtilmiyor. Araştırmacılara: meşgul olduğunuzu biliyorum ama lütfen bu tür ayrıntıları atlamayın

  • Biraz test ettim ve genel olarak oldukça sağlam. Uzun düşünme süresi yüzünden bekleme süresi epey uzuyor, hatta son dönemdeki qwen moe gibi daha büyük modellerden bile daha uzun sürüyor

    • genel olarak moe daha iyi bir ödünleşim gibi görünüyor
  • Bu modeli Xiaomi 15 serisi telefonların yapay zeka asistanı olarak kullanıp kullanmayacaklarını merak ediyorum. Muhtemelen kullanırlar. Ne beklemek gerektiğinden emin değilim

  • Vay canına. Harika benchmark. Bu modelle konuşmayı dört gözle bekliyorum

    • Birkaç dikkat çekici nokta var. Birincisi, 7B model 25T token ile eğitilmiş(!). Bu Meta ölçeğinde bir eğitim. Llama 4 Maverick yaklaşık 22T ile eğitilmişti. (Scout, daha küçük model: 40T)
    • İkincisi, başka modellerden muhakeme elde etmek için damıtılmış model veya RL katmanı yerine, baştan itibaren muhakeme yerleşik bir RL modeline giden ilginç bir yol izlenmiş. İddia, bu yöntemle parametre başına çok daha fazla ek verimlilik elde edilebildiği yönünde
    • Xiaomi modelleriyle ilgili deneyimim yok, bu yüzden temkinliyim ama istatistiksel olarak çok umut verici bir yerel muhakeme modeli gibi görünüyor