5 puan yazan GN⁺ 2025-06-19 | 1 yorum | WhatsApp'ta paylaş
  • MiniMax-M1, dünyanın ilk açık ağırlıklı büyük ölçekli hibrit attention tabanlı muhakeme modelidir
  • 456 milyar parametreli hibrit MoE yapısı ve Lightning Attention mekanizmasıyla uzun bağlam işlemede üstündür
  • RL tabanlı eğitim ve CISPO algoritmasının kullanımı sayesinde çeşitli problemleri verimli biçimde çözebilir
  • Benchmark sonuçlarında mevcut DeepSeek-R1, Qwen3-235B gibi modellerle karşılaştırıldığında karmaşık SW mühendisliği, araç kullanımı ve uzun girdi gibi alanlarda üstün performans gösterir
  • Çeşitli muhakeme ortamları ile destek araçları, API ve chatbot sunması sayesinde yeni nesil dil modeli ajanlarının temeli olarak kullanım değeri yüksektir

MiniMax-M1 açık kaynak projesine genel bakış

  • MiniMax-M1, dünyanın ilk açık ağırlıklı büyük ölçekli hibrit attention muhakeme modeli olarak, mevcut ticari ve açık modellere kıyasla güçlü avantajlar ve gerçek kullanım potansiyeli gösterir
  • Büyük ölçekli hibrit Mixture-of-Experts(MoE) yapısı ile Lightning Attention mekanizmasını birleştirerek uzun bağlam, karmaşık muhakeme ve yazılım ortamı problemlerini çözmeye optimize edilmiştir
  • Uzun bağlamı (azami 1 milyon token) verimli biçimde destekler ve test sırasında hesaplama miktarını (100K temelinde DeepSeek-R1'e kıyasla %25 FLOPs) büyük ölçüde azaltır
  • En güncel RL teknikleri, yeni nesil CISPO algoritması ve hibrit attention tasarımıyla hem ölçeklenebilirlik hem de muhakeme verimliliği en üst düzeye çıkarılmıştır

1. Modele genel bakış

  • MiniMax-M1, hibrit Mixture-of-Experts(MoE) yapısı ve Lightning Attention içerir
  • Önceki modeli MiniMax-Text-01 (456 milyar parametre, token başına 45.9 milyar etkin parametre) temel alınarak geliştirilmiştir
  • 1 milyon token bağlam uzunluğunu destekler (DeepSeek R1'in 8 katı bağlam boyutu)
  • Lightning Attention ile test hesaplama maliyetini büyük ölçüde azaltır (DeepSeek R1'e kıyasla %25)
  • Uzun girdiler ve karmaşık muhakeme gerektiren görevler için uygundur
  • Büyük ölçekli RL aracılığıyla matematiksel muhakeme, gerçek dünya SW mühendisliği gibi geniş bir problem yelpazesinde eğitim almıştır
  • MiniMax-M1'e özgü bir RL ölçekleme çerçevesi sunar
    • CISPO tekniği: mevcut RL yöntemlerinden daha üstün bir importance sampling weight clipping algoritması kullanır
    • Hibrit attention tabanlı yapıyla RL verimliliği ve ölçeklenebilirliği güçlendirilmiştir
  • 40K, 80K düşünme bütçesi olmak üzere iki model olarak eğitilmiş ve yayımlanmıştır
  • SW mühendisliği, araç kullanımı, uzun bağlam görevleri gibi alanlarda mevcut DeepSeek-R1 ve Qwen3-235B gibi yüksek performanslı açık modellere kıyasla olağanüstü performans gösterir
  • Gerçek dünya zorluklarını çözmeye yönelik yeni nesil dil modeli ajanlarının inşası için temel sağlar

2. Değerlendirme(Evaluation)

Benchmark sonuçlarının öne çıkan noktaları

  • Matematik, kod, SW mühendisliği ve uzun bağlam alanlarında SOTA düzeyine yakın performans
  • Diğer açık modellere kıyasla genel olarak daha yüksek skorlar elde eder; özellikle yazılım benchmark'ları (SWE-bench) ve uzun bağlam alanında belirgin rekabet gücü sunar
  • Dikkat çeken bazı örnekler
    • SWE-bench: 56.0(M1-80k) / 34.4(Qwen3) / 49.2(DeepSeek R1)
    • OpenAI-MRCR(128k): 73.4(M1-80k) / 27.7(Qwen3) / 35.8(DeepSeek R1)
    • LiveCodeBench, FullStackBench gibi SW geliştirmeyle ilgili görevlerde sağlam performans
  • Çalıştırma ortamı: temperature 1.0, top_p 0.95 altında değerlendirilmiştir
  • SWE-bench, TAU-bench gibi benchmark'lar için kendine özgü prosedür ve ayarlarla (ör. dosya düzeyinde iki aşamalı localization, embedding kullanmadan) değerlendirme yapılmıştır

3. MiniMax-M1 model kullanım kılavuzu

En iyi performans için önerilen ayarlar

3.1. Muhakeme parametreleri

  • Temperature: 1.0
  • Top_p: 0.95
    Bu kombinasyon, metin çeşitliliği ile mantıksal tutarlılığı aynı anda sağlayan bir ortam sunar

3.2. Sistem prompt'u

  • Genel işler: "You are a helpful assistant."
  • Web geliştirme: UI ile entegre kod üretimi gibi karmaşık web sayfası işleri için özelleştirilmiş prompt sunulur
  • Matematiksel muhakeme: adım adım çözümden sonra son yanıtı \boxed{} içine yazın

4. Dağıtım kılavuzu

  • HuggingFace üzerinden MiniMax-M1-40k, MiniMax-M1-80k modelleri indirilebilir
  • Gerçek servislerde vLLM tabanlı dağıtım önerilir
    • Verimli bellek yönetimi, güçlü batch işleme ve performans optimizasyonu sayesinde büyük modellerin servis edilmesine uygundur
  • Ayrı olarak Transformers tabanlı dağıtım da desteklenir

5. Function calling(işlevsel arayüz)

  • MiniMax-M1, function calling özelliğini destekler
    • Dış işlev gerektiğinde parametreleri yapılandırılmış biçimde otomatik olarak üretir
    • Function calling kılavuzu sunulur

6. Chatbot & API

  • MiniMax Chatbot: çevrimiçi arama da içeren bir sohbet arayüzü sunar
  • API: geliştiricilere yönelik çevrimiçi API ve MiniMax MCP Server gibi geliştirici araçları sunar
    • Yapay zeka tabanlı video·görüntü·ses sentezi, voice cloning vb. dahildir

1 yorum

 
GN⁺ 2025-06-19
Hacker News görüşleri
  • Bunu çalıştırmak için ne gerektiğini merak ediyorsanız, 8 adet H200 141GB gerekiyor ve fiyatı yaklaşık 250 bin dolar seviyesinde
    github tartışması / eBay ürün fiyat bilgisi

    • Acaba Mac Studio 512GB ile çalıştırılamaz mı, yaklaşık 8.500 dolar yeterli olur
    • Bu, tamamen kuantize edilmiş sürüm için geçerli; Q4 ya da Q8 ile çalıştırılırsa 10 bin doların altındaki donanımla da çalıştırmak mümkün
    • Bu modelin parametre sayısını merak ediyorum
  • Bu haftanın MiniMax'in "launch week"ü olduğu söyleniyor
    Pazartesi M1'i, salı ise Hailuo 2'yi duyurdular
    Çin modelleriyle ilgili haberler
    Bu hafta boyunca bu tür duyuruların sürüp sürmeyeceği henüz belli değil ve şirket şu an için daha çok LLM ve video modelleriyle biliniyor
    Resmi duyurular MiniMax'in X'inde (eski Twitter) görülebilir
    Ayrıca MiniMax M1'in teknik raporu da faydalı
    teknik rapor PDF
    SOTA bir open-weight model değil ama lightning attention ve GRPO varyantı (CISPO) hakkında oldukça ilginç ve iddialı şeyler söylüyor
    (Benim şirketle bir ilgim yok, sadece edindiğim bilgileri paylaşıyorum)

    • Pazartesi M1, salı Hailuo 2 diye gittilerse, Apple çipleri gibi M1, M1 Pro, M1 Ultra adlarını kullanmaları eğlenceli olabilirdi
  • arXiv makalesinde "We publicly release MiniMax-M1 at this https url" ifadesini görünce, gerçekten boş bir depo değil de somut kod yayımladıkları için bu şirket hoşuma gitti

  • Benim görüşüm

    • LinkedIn'e göre Singapur merkezli bir şirket gibi görünüyor ve iyi LLM'ler yapmak için giriş bariyerinin çok yüksek olmadığı anlaşılıyor
    • Open-weight modeller ve Strix Halo / Ryzen AI Max gelişimi sayesinde birkaç yıl içinde iyi LLM'leri yerelde ucuza çalıştırabileceğimiz konusunda iyimserim
    • İleride yerel model çalıştırmanın kaçınılmaz hale geleceği bir havaya giriyoruz; bu hem umut hem de endişe veriyor
      Bu alan hakkında güvenilir uzmanlar ya da ilginç tartışmalar yapan kişiler varsa tanışmak isterim
    • LinkedIn'de yazdığının aksine aslında Şanghay merkezli bir şirket
    • MiniMax'in modeli yaklaşık 500 bin dolarlık bütçeyle eğittiğini söyleyen bir Twitter paylaşımı gördüm

      RL'yi (pekiştirmeli öğrenme) 534.700 dolara eğittik
      Bunun bu maliyetle nasıl mümkün olduğunu merak ediyorum

    • Bu şirket gerçekten Şanghay merkezli bir Çin şirketi
      Yakında Hong Kong Borsası'nda (HKEX) halka arz da planlıyor
      ilgili haber
  • Resmi sayfada açıkça yazmıyor ama MiniMax bir Çin şirketi
    Wikipedia'ya bakın

    • Birçok kişinin MiniMax'in Çinli bir şirket olduğunu bilmesinin nedeni, video üreticilerinin adının 'Hailuo' gibi belirgin şekilde Çin çağrışımlı olması ve bugüne kadar bununla tanınmaları
    • Kendi proje sayfasında Çin şirketi olduğunu özellikle belirtmesi için bir sebep var mı ki?
  • Keşke bu tür model adlarını biraz daha iyi seçselerdi
    Mac Studio işlemcisi gibi duruyor

    • Minimax algoritmasını biliyorum
      Adını o ünlü klasik yapay zeka algoritmasından alıyor
    • Senin Mac'in 'Apple' tarafından yapılıyor ve o da gerçekten bir elma türü adından geliyor
    • Bana Max adındaki eski kayıp köpeğimi hatırlatıyor; adın gerçekten çok kötü, neredeyse suç sayılacak kadar kötü olduğunu düşünüyorum
  • Makalede "In our attention design, a transformer block with softmax attention follows every seven transnormer blocks (Qin et al., 2022a) with lightning attention" deniyor
    Yani toplamın %87,5'i linear attention, %12,5'i full attention
    Aslında "linear attention" terimi kafa karıştırıcı
    softmax attention, bilgi yönlendirme yöntemidir ve token k hesaplanırken 1'den k'ye kadar bilgiyi alır, ama bunun sabit boyutlu bir kanal üzerinden geçmesi gerekir
    Buna karşılık linear attention'da her katmanda yalnızca sabit boyutlu bir "register bank" vardır
    Gerçek anlamda attention demek zor; katman-toplu işlemlerle uyumlu olması dışında çok dikkat çekici bir yanı yok

  • MiniMax'in IPO söylentilerini yaydığı söyleniyor
    ilgili haber

  • Batı bulut altyapısı olmadan bu ölçekte eğitim yaptıysa, token işleme düzeninin nasıl olduğunu merak ediyorum

    • 512 adet H800 GPU ile 3 hafta eğitildi ve maliyet yaklaşık 500 bin dolar seviyesindeydi
      xcancel bağlantısı
    • Sneakernet kullanıldı