MiniMax-M1 açık ağırlıklı, büyük ölçekli hibrit attention muhakeme modeli

(github.com/MiniMax-AI)

5 puan yazan GN⁺ 2025-06-19 | 1 yorum | WhatsApp'ta paylaş

MiniMax-M1, dünyanın ilk açık ağırlıklı büyük ölçekli hibrit attention tabanlı muhakeme modelidir
456 milyar parametreli hibrit MoE yapısı ve Lightning Attention mekanizmasıyla uzun bağlam işlemede üstündür
RL tabanlı eğitim ve CISPO algoritmasının kullanımı sayesinde çeşitli problemleri verimli biçimde çözebilir
Benchmark sonuçlarında mevcut DeepSeek-R1, Qwen3-235B gibi modellerle karşılaştırıldığında karmaşık SW mühendisliği, araç kullanımı ve uzun girdi gibi alanlarda üstün performans gösterir
Çeşitli muhakeme ortamları ile destek araçları, API ve chatbot sunması sayesinde yeni nesil dil modeli ajanlarının temeli olarak kullanım değeri yüksektir

MiniMax-M1 açık kaynak projesine genel bakış

MiniMax-M1, dünyanın ilk açık ağırlıklı büyük ölçekli hibrit attention muhakeme modeli olarak, mevcut ticari ve açık modellere kıyasla güçlü avantajlar ve gerçek kullanım potansiyeli gösterir
Büyük ölçekli hibrit Mixture-of-Experts(MoE) yapısı ile Lightning Attention mekanizmasını birleştirerek uzun bağlam, karmaşık muhakeme ve yazılım ortamı problemlerini çözmeye optimize edilmiştir
Uzun bağlamı (azami 1 milyon token) verimli biçimde destekler ve test sırasında hesaplama miktarını (100K temelinde DeepSeek-R1'e kıyasla %25 FLOPs) büyük ölçüde azaltır
En güncel RL teknikleri, yeni nesil CISPO algoritması ve hibrit attention tasarımıyla hem ölçeklenebilirlik hem de muhakeme verimliliği en üst düzeye çıkarılmıştır

1. Modele genel bakış

MiniMax-M1, hibrit Mixture-of-Experts(MoE) yapısı ve Lightning Attention içerir
Önceki modeli MiniMax-Text-01 (456 milyar parametre, token başına 45.9 milyar etkin parametre) temel alınarak geliştirilmiştir
1 milyon token bağlam uzunluğunu destekler (DeepSeek R1'in 8 katı bağlam boyutu)
Lightning Attention ile test hesaplama maliyetini büyük ölçüde azaltır (DeepSeek R1'e kıyasla %25)
Uzun girdiler ve karmaşık muhakeme gerektiren görevler için uygundur
Büyük ölçekli RL aracılığıyla matematiksel muhakeme, gerçek dünya SW mühendisliği gibi geniş bir problem yelpazesinde eğitim almıştır
MiniMax-M1'e özgü bir RL ölçekleme çerçevesi sunar
- CISPO tekniği: mevcut RL yöntemlerinden daha üstün bir importance sampling weight clipping algoritması kullanır
- Hibrit attention tabanlı yapıyla RL verimliliği ve ölçeklenebilirliği güçlendirilmiştir
40K, 80K düşünme bütçesi olmak üzere iki model olarak eğitilmiş ve yayımlanmıştır
SW mühendisliği, araç kullanımı, uzun bağlam görevleri gibi alanlarda mevcut DeepSeek-R1 ve Qwen3-235B gibi yüksek performanslı açık modellere kıyasla olağanüstü performans gösterir
Gerçek dünya zorluklarını çözmeye yönelik yeni nesil dil modeli ajanlarının inşası için temel sağlar

2. Değerlendirme(Evaluation)

Benchmark sonuçlarının öne çıkan noktaları

Matematik, kod, SW mühendisliği ve uzun bağlam alanlarında SOTA düzeyine yakın performans
Diğer açık modellere kıyasla genel olarak daha yüksek skorlar elde eder; özellikle yazılım benchmark'ları (SWE-bench) ve uzun bağlam alanında belirgin rekabet gücü sunar
Dikkat çeken bazı örnekler
- SWE-bench: 56.0(M1-80k) / 34.4(Qwen3) / 49.2(DeepSeek R1)
- OpenAI-MRCR(128k): 73.4(M1-80k) / 27.7(Qwen3) / 35.8(DeepSeek R1)
- LiveCodeBench, FullStackBench gibi SW geliştirmeyle ilgili görevlerde sağlam performans
Reklam
Çalıştırma ortamı: temperature 1.0, top_p 0.95 altında değerlendirilmiştir
SWE-bench, TAU-bench gibi benchmark'lar için kendine özgü prosedür ve ayarlarla (ör. dosya düzeyinde iki aşamalı localization, embedding kullanmadan) değerlendirme yapılmıştır

3. MiniMax-M1 model kullanım kılavuzu

En iyi performans için önerilen ayarlar

3.1. Muhakeme parametreleri

Temperature: 1.0
Top_p: 0.95
Bu kombinasyon, metin çeşitliliği ile mantıksal tutarlılığı aynı anda sağlayan bir ortam sunar

3.2. Sistem prompt'u

Genel işler: "You are a helpful assistant."
Web geliştirme: UI ile entegre kod üretimi gibi karmaşık web sayfası işleri için özelleştirilmiş prompt sunulur
Matematiksel muhakeme: adım adım çözümden sonra son yanıtı \boxed{} içine yazın

4. Dağıtım kılavuzu

HuggingFace üzerinden MiniMax-M1-40k, MiniMax-M1-80k modelleri indirilebilir
Gerçek servislerde vLLM tabanlı dağıtım önerilir
- Verimli bellek yönetimi, güçlü batch işleme ve performans optimizasyonu sayesinde büyük modellerin servis edilmesine uygundur
Reklam
Ayrı olarak Transformers tabanlı dağıtım da desteklenir

5. Function calling(işlevsel arayüz)

MiniMax-M1, function calling özelliğini destekler
- Dış işlev gerektiğinde parametreleri yapılandırılmış biçimde otomatik olarak üretir
- Function calling kılavuzu sunulur

6. Chatbot & API

MiniMax Chatbot: çevrimiçi arama da içeren bir sohbet arayüzü sunar
API: geliştiricilere yönelik çevrimiçi API ve MiniMax MCP Server gibi geliştirici araçları sunar
- Yapay zeka tabanlı video·görüntü·ses sentezi, voice cloning vb. dahildir

1 yorum

GN⁺ 2025-06-19

Hacker News görüşleri

Bunu çalıştırmak için ne gerektiğini merak ediyorsanız, 8 adet H200 141GB gerekiyor ve fiyatı yaklaşık 250 bin dolar seviyesinde
github tartışması / eBay ürün fiyat bilgisi
- Acaba Mac Studio 512GB ile çalıştırılamaz mı, yaklaşık 8.500 dolar yeterli olur
- Bu, tamamen kuantize edilmiş sürüm için geçerli; Q4 ya da Q8 ile çalıştırılırsa 10 bin doların altındaki donanımla da çalıştırmak mümkün
- Bu modelin parametre sayısını merak ediyorum
Bu haftanın MiniMax'in "launch week"ü olduğu söyleniyor
Pazartesi M1'i, salı ise Hailuo 2'yi duyurdular
Çin modelleriyle ilgili haberler
Bu hafta boyunca bu tür duyuruların sürüp sürmeyeceği henüz belli değil ve şirket şu an için daha çok LLM ve video modelleriyle biliniyor
Resmi duyurular MiniMax'in X'inde (eski Twitter) görülebilir
Ayrıca MiniMax M1'in teknik raporu da faydalı
teknik rapor PDF
SOTA bir open-weight model değil ama lightning attention ve GRPO varyantı (CISPO) hakkında oldukça ilginç ve iddialı şeyler söylüyor
(Benim şirketle bir ilgim yok, sadece edindiğim bilgileri paylaşıyorum)
- Pazartesi M1, salı Hailuo 2 diye gittilerse, Apple çipleri gibi M1, M1 Pro, M1 Ultra adlarını kullanmaları eğlenceli olabilirdi
arXiv makalesinde "We publicly release MiniMax-M1 at this https url" ifadesini görünce, gerçekten boş bir depo değil de somut kod yayımladıkları için bu şirket hoşuma gitti
Benim görüşüm
- LinkedIn'e göre Singapur merkezli bir şirket gibi görünüyor ve iyi LLM'ler yapmak için giriş bariyerinin çok yüksek olmadığı anlaşılıyor
- Open-weight modeller ve Strix Halo / Ryzen AI Max gelişimi sayesinde birkaç yıl içinde iyi LLM'leri yerelde ucuza çalıştırabileceğimiz konusunda iyimserim
- İleride yerel model çalıştırmanın kaçınılmaz hale geleceği bir havaya giriyoruz; bu hem umut hem de endişe veriyor
  Bu alan hakkında güvenilir uzmanlar ya da ilginç tartışmalar yapan kişiler varsa tanışmak isterim
- LinkedIn'de yazdığının aksine aslında Şanghay merkezli bir şirket
- MiniMax'in modeli yaklaşık 500 bin dolarlık bütçeyle eğittiğini söyleyen bir Twitter paylaşımı gördüm
  
  RL'yi (pekiştirmeli öğrenme) 534.700 dolara eğittik
  Bunun bu maliyetle nasıl mümkün olduğunu merak ediyorum
- Bu şirket gerçekten Şanghay merkezli bir Çin şirketi
  Yakında Hong Kong Borsası'nda (HKEX) halka arz da planlıyor
  ilgili haber
Resmi sayfada açıkça yazmıyor ama MiniMax bir Çin şirketi
Wikipedia'ya bakın
- Birçok kişinin MiniMax'in Çinli bir şirket olduğunu bilmesinin nedeni, video üreticilerinin adının 'Hailuo' gibi belirgin şekilde Çin çağrışımlı olması ve bugüne kadar bununla tanınmaları
- Kendi proje sayfasında Çin şirketi olduğunu özellikle belirtmesi için bir sebep var mı ki?
Keşke bu tür model adlarını biraz daha iyi seçselerdi
Mac Studio işlemcisi gibi duruyor
- Minimax algoritmasını biliyorum
  Adını o ünlü klasik yapay zeka algoritmasından alıyor
- Senin Mac'in 'Apple' tarafından yapılıyor ve o da gerçekten bir elma türü adından geliyor
- Bana Max adındaki eski kayıp köpeğimi hatırlatıyor; adın gerçekten çok kötü, neredeyse suç sayılacak kadar kötü olduğunu düşünüyorum
Makalede "In our attention design, a transformer block with softmax attention follows every seven transnormer blocks (Qin et al., 2022a) with lightning attention" deniyor
Yani toplamın %87,5'i linear attention, %12,5'i full attention
Aslında "linear attention" terimi kafa karıştırıcı
softmax attention, bilgi yönlendirme yöntemidir ve token k hesaplanırken 1'den k'ye kadar bilgiyi alır, ama bunun sabit boyutlu bir kanal üzerinden geçmesi gerekir
Buna karşılık linear attention'da her katmanda yalnızca sabit boyutlu bir "register bank" vardır
Gerçek anlamda attention demek zor; katman-toplu işlemlerle uyumlu olması dışında çok dikkat çekici bir yanı yok
MiniMax'in IPO söylentilerini yaydığı söyleniyor
ilgili haber
Batı bulut altyapısı olmadan bu ölçekte eğitim yaptıysa, token işleme düzeninin nasıl olduğunu merak ediyorum
- 512 adet H800 GPU ile 3 hafta eğitildi ve maliyet yaklaşık 500 bin dolar seviyesindeydi
  xcancel bağlantısı
- Sneakernet kullanıldı

MiniMax-M1 açık ağırlıklı, büyük ölçekli hibrit attention muhakeme modeli

MiniMax-M1 açık kaynak projesine genel bakış

1. Modele genel bakış

2. Değerlendirme(Evaluation)

Benchmark sonuçlarının öne çıkan noktaları

3. MiniMax-M1 model kullanım kılavuzu

En iyi performans için önerilen ayarlar

3.1. Muhakeme parametreleri

3.2. Sistem prompt'u

4. Dağıtım kılavuzu

5. Function calling(işlevsel arayüz)

6. Chatbot & API

İlgili okumalar

1 yorum

Hacker News görüşleri