- MiniMax-M1, dünyanın ilk açık ağırlıklı büyük ölçekli hibrit attention tabanlı muhakeme modelidir
- 456 milyar parametreli hibrit MoE yapısı ve Lightning Attention mekanizmasıyla uzun bağlam işlemede üstündür
- RL tabanlı eğitim ve CISPO algoritmasının kullanımı sayesinde çeşitli problemleri verimli biçimde çözebilir
- Benchmark sonuçlarında mevcut DeepSeek-R1, Qwen3-235B gibi modellerle karşılaştırıldığında karmaşık SW mühendisliği, araç kullanımı ve uzun girdi gibi alanlarda üstün performans gösterir
- Çeşitli muhakeme ortamları ile destek araçları, API ve chatbot sunması sayesinde yeni nesil dil modeli ajanlarının temeli olarak kullanım değeri yüksektir
MiniMax-M1 açık kaynak projesine genel bakış
- MiniMax-M1, dünyanın ilk açık ağırlıklı büyük ölçekli hibrit attention muhakeme modeli olarak, mevcut ticari ve açık modellere kıyasla güçlü avantajlar ve gerçek kullanım potansiyeli gösterir
- Büyük ölçekli hibrit Mixture-of-Experts(MoE) yapısı ile Lightning Attention mekanizmasını birleştirerek uzun bağlam, karmaşık muhakeme ve yazılım ortamı problemlerini çözmeye optimize edilmiştir
- Uzun bağlamı (azami 1 milyon token) verimli biçimde destekler ve test sırasında hesaplama miktarını (100K temelinde DeepSeek-R1'e kıyasla %25 FLOPs) büyük ölçüde azaltır
- En güncel RL teknikleri, yeni nesil CISPO algoritması ve hibrit attention tasarımıyla hem ölçeklenebilirlik hem de muhakeme verimliliği en üst düzeye çıkarılmıştır
1. Modele genel bakış
- MiniMax-M1, hibrit Mixture-of-Experts(MoE) yapısı ve Lightning Attention içerir
- Önceki modeli MiniMax-Text-01 (456 milyar parametre, token başına 45.9 milyar etkin parametre) temel alınarak geliştirilmiştir
- 1 milyon token bağlam uzunluğunu destekler (DeepSeek R1'in 8 katı bağlam boyutu)
- Lightning Attention ile test hesaplama maliyetini büyük ölçüde azaltır (DeepSeek R1'e kıyasla %25)
- Uzun girdiler ve karmaşık muhakeme gerektiren görevler için uygundur
- Büyük ölçekli RL aracılığıyla matematiksel muhakeme, gerçek dünya SW mühendisliği gibi geniş bir problem yelpazesinde eğitim almıştır
- MiniMax-M1'e özgü bir RL ölçekleme çerçevesi sunar
- CISPO tekniği: mevcut RL yöntemlerinden daha üstün bir importance sampling weight clipping algoritması kullanır
- Hibrit attention tabanlı yapıyla RL verimliliği ve ölçeklenebilirliği güçlendirilmiştir
- 40K, 80K düşünme bütçesi olmak üzere iki model olarak eğitilmiş ve yayımlanmıştır
- SW mühendisliği, araç kullanımı, uzun bağlam görevleri gibi alanlarda mevcut DeepSeek-R1 ve Qwen3-235B gibi yüksek performanslı açık modellere kıyasla olağanüstü performans gösterir
- Gerçek dünya zorluklarını çözmeye yönelik yeni nesil dil modeli ajanlarının inşası için temel sağlar
2. Değerlendirme(Evaluation)
Benchmark sonuçlarının öne çıkan noktaları
- Matematik, kod, SW mühendisliği ve uzun bağlam alanlarında SOTA düzeyine yakın performans
- Diğer açık modellere kıyasla genel olarak daha yüksek skorlar elde eder; özellikle yazılım benchmark'ları (SWE-bench) ve uzun bağlam alanında belirgin rekabet gücü sunar
- Dikkat çeken bazı örnekler
- SWE-bench: 56.0(M1-80k) / 34.4(Qwen3) / 49.2(DeepSeek R1)
- OpenAI-MRCR(128k): 73.4(M1-80k) / 27.7(Qwen3) / 35.8(DeepSeek R1)
- LiveCodeBench, FullStackBench gibi SW geliştirmeyle ilgili görevlerde sağlam performans
- Çalıştırma ortamı: temperature 1.0, top_p 0.95 altında değerlendirilmiştir
- SWE-bench, TAU-bench gibi benchmark'lar için kendine özgü prosedür ve ayarlarla (ör. dosya düzeyinde iki aşamalı localization, embedding kullanmadan) değerlendirme yapılmıştır
3. MiniMax-M1 model kullanım kılavuzu
En iyi performans için önerilen ayarlar
3.1. Muhakeme parametreleri
- Temperature: 1.0
- Top_p: 0.95
Bu kombinasyon, metin çeşitliliği ile mantıksal tutarlılığı aynı anda sağlayan bir ortam sunar
3.2. Sistem prompt'u
- Genel işler: "You are a helpful assistant."
- Web geliştirme: UI ile entegre kod üretimi gibi karmaşık web sayfası işleri için özelleştirilmiş prompt sunulur
- Matematiksel muhakeme: adım adım çözümden sonra son yanıtı \boxed{} içine yazın
4. Dağıtım kılavuzu
- HuggingFace üzerinden MiniMax-M1-40k, MiniMax-M1-80k modelleri indirilebilir
- Gerçek servislerde vLLM tabanlı dağıtım önerilir
- Verimli bellek yönetimi, güçlü batch işleme ve performans optimizasyonu sayesinde büyük modellerin servis edilmesine uygundur
- Ayrı olarak Transformers tabanlı dağıtım da desteklenir
5. Function calling(işlevsel arayüz)
- MiniMax-M1, function calling özelliğini destekler
6. Chatbot & API
- MiniMax Chatbot: çevrimiçi arama da içeren bir sohbet arayüzü sunar
- API: geliştiricilere yönelik çevrimiçi API ve MiniMax MCP Server gibi geliştirici araçları sunar
- Yapay zeka tabanlı video·görüntü·ses sentezi, voice cloning vb. dahildir
1 yorum
Hacker News görüşleri
Bunu çalıştırmak için ne gerektiğini merak ediyorsanız, 8 adet H200 141GB gerekiyor ve fiyatı yaklaşık 250 bin dolar seviyesinde
github tartışması / eBay ürün fiyat bilgisi
Bu haftanın MiniMax'in "launch week"ü olduğu söyleniyor
Pazartesi M1'i, salı ise Hailuo 2'yi duyurdular
Çin modelleriyle ilgili haberler
Bu hafta boyunca bu tür duyuruların sürüp sürmeyeceği henüz belli değil ve şirket şu an için daha çok LLM ve video modelleriyle biliniyor
Resmi duyurular MiniMax'in X'inde (eski Twitter) görülebilir
Ayrıca MiniMax M1'in teknik raporu da faydalı
teknik rapor PDF
SOTA bir open-weight model değil ama lightning attention ve GRPO varyantı (CISPO) hakkında oldukça ilginç ve iddialı şeyler söylüyor
(Benim şirketle bir ilgim yok, sadece edindiğim bilgileri paylaşıyorum)
arXiv makalesinde "We publicly release MiniMax-M1 at this https url" ifadesini görünce, gerçekten boş bir depo değil de somut kod yayımladıkları için bu şirket hoşuma gitti
Benim görüşüm
Bu alan hakkında güvenilir uzmanlar ya da ilginç tartışmalar yapan kişiler varsa tanışmak isterim
Yakında Hong Kong Borsası'nda (HKEX) halka arz da planlıyor
ilgili haber
Resmi sayfada açıkça yazmıyor ama MiniMax bir Çin şirketi
Wikipedia'ya bakın
Keşke bu tür model adlarını biraz daha iyi seçselerdi
Mac Studio işlemcisi gibi duruyor
Adını o ünlü klasik yapay zeka algoritmasından alıyor
Makalede "In our attention design, a transformer block with softmax attention follows every seven transnormer blocks (Qin et al., 2022a) with lightning attention" deniyor
Yani toplamın %87,5'i linear attention, %12,5'i full attention
Aslında "linear attention" terimi kafa karıştırıcı
softmax attention, bilgi yönlendirme yöntemidir ve token k hesaplanırken 1'den k'ye kadar bilgiyi alır, ama bunun sabit boyutlu bir kanal üzerinden geçmesi gerekir
Buna karşılık linear attention'da her katmanda yalnızca sabit boyutlu bir "register bank" vardır
Gerçek anlamda attention demek zor; katman-toplu işlemlerle uyumlu olması dışında çok dikkat çekici bir yanı yok
MiniMax'in IPO söylentilerini yaydığı söyleniyor
ilgili haber
Batı bulut altyapısı olmadan bu ölçekte eğitim yaptıysa, token işleme düzeninin nasıl olduğunu merak ediyorum
xcancel bağlantısı