- Pekiştirmeli öğrenme tabanlı büyük ölçekli eğitim sayesinde gerçek ortamlardaki karmaşık görevleri yerine getirme kabiliyeti artırılan model, kodlama, arama ve ofis işleri gibi ekonomik değeri yüksek alanlarda en üst düzey performans sergiliyor
- SWE-Bench Verified'da %80,2, Multi-SWE-Bench'te %51,3, BrowseComp'ta %76,3 elde ederken, önceki nesle kıyasla %37 daha hızlı çalışıyor
- Saatte 1 dolar (100TPS bazında) gibi düşük maliyetle çalıştırılabiliyor ve performansı Claude Opus 4.6 ile benzer seviyede
- Kodlama, arama ve ofis işleri genelinde yapısal düşünme, verimli arama ve uzman seviyesinde belge hazırlama yetenekleri güçlendirildi
- MiniMax içinde de toplam işlerin %30'unu otomatik olarak yürütüyor, kod üretiminin %80'ini üstlenerek gerçek üretkenlik artışını kanıtlıyor
M2.5 genel bakış ve başlıca performans
- M2.5, on binlerce değil yüz binlerce karmaşık gerçek ortamda pekiştirmeli öğrenme ile eğitilmiş bir model olup, kodlama, araç kullanımı, arama ve ofis işleri gibi alanlarda SOTA seviyesine ulaşıyor
- SWE-Bench Verified %80,2, Multi-SWE-Bench %51,3, BrowseComp (bağlam yönetimi dahil) %76,3 sonuçlarını kaydetti
- SWE-Bench Verified değerlendirmesinde görevleri M2.1'den %37 daha hızlı tamamladı ve Claude Opus 4.6 ile aynı işleme hızına ulaştı
- 100TPS bazında saatte 1 dolar, 50TPS bazında 0,3 dolar maliyetle çalıştırılabiliyor; maliyet verimliliği en üst düzeye çıkarılmış bir model
Kodlama performansı
- Çok dilli kodlama görevlerinde SOTA seviyesine ulaşıyor; özellikle 10'dan fazla dilde (Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby) güçlü performans gösteriyor
- Kod yazmadan önce sistem tasarımı, UI kurgusu ve işlev ayrıştırması yapan mimar tipi bir düşünme yapısına sahip
- 200.000'den fazla gerçek ortamda eğitildiği için yalnızca hata düzeltmeyi değil, tüm geliştirme yaşam döngüsünü (tasarım → geliştirme → özellik iterasyonu → test) destekliyor
- VIBE-Pro benchmark'ında Opus 4.5 ile benzer performans gösterirken, SWE-Bench Verified'da
- Droid: 79.7(M2.5) > 78.9(Opus 4.6)
- OpenCode: 76.1(M2.5) > 75.9(Opus 4.6)
Arama ve araç çağırma
- BrowseComp, Wide Search gibi testlerde sektörün en üst seviyesinde performans elde etti
- RISE(Realistic Interactive Search Evaluation) ile gerçek uzman düzeyinde arama yeteneği doğrulandı
- Önceki nesle kıyasla %20 daha az arama turuyla aynı sonucu üreterek token verimliliğini artırdı
- Karmaşık ajan görevlerinde doğru keşif rotaları ve verimli akıl yürütme süreçleri üzerinden sonuca ulaşıyor
Ofis işi yetenekleri
- Finans, hukuk ve sosyal bilimler uzmanlarıyla iş birliği yapılarak veri oluşturuldu ve geri bildirimler yansıtıldı
- Word, PowerPoint, Excel gibi araçlarda profesyonel belge ve finansal modelleme yetenekleri güçlendirildi
- İç değerlendirme çerçevesi GDPval-MM'de ortalama %59,0 kazanma oranı kaydetti
- Token maliyetine karşı üretkenlik artışı doğrudan ölçülerek gerçek iş verimliliği doğrulandı
Verimlilik ve hız
- 100TPS temel işleme hızı sunuyor; diğer modellere kıyasla yaklaşık 2 kat daha hızlı
- SWE-Bench Verified bazında
- M2.5: ortalama 3.52M token, 22,8 dakika
- M2.1: 3.72M token, 31,3 dakika
- %37 hız artışı, Claude Opus 4.6(22,9 dakika) ile aynı seviye
- Maliyet, Opus 4.6'nın %10'u seviyesinde
Maliyet yapısı
- İki sürüm sunuluyor: M2.5-Lightning(100TPS), M2.5(50TPS)
- Lightning: 1 milyon input token başına $0.3, 1 milyon output token başına $2.4
- M2.5: bu ücretlerin yarısı
- Output bazlı maliyet, Opus, Gemini 3 Pro ve GPT-5'in 1/10 ila 1/20'si seviyesinde
- 100TPS ile 1 saat kesintisiz çalıştırmada $1, 50TPS'de $0.3
- Yıllık $10.000 ile 4 instance'ın sürekli çalıştırılması mümkün; büyük ölçekli ajan operasyonları için uygun
Model iyileştirme hızı
- 3,5 ay içinde M2 → M2.1 → M2.5 art arda yayınlandı; iyileştirme hızı rakip model ailesinden (Claude, GPT, Gemini) daha yüksek
- SWE-Bench Verified'da dik bir performans artış eğrisi kaydedildi
Pekiştirmeli öğrenme ölçekleme (RL Scaling)
- Yüz binlerce RL ortamı kurularak model eğitiminde kullanıldı
- Ajan tipi RL framework'ü Forge şirket içinde geliştirildi
- Eğitim ve çıkarım motoru ile ajanlar tamamen ayrıştırıldı
- Asenkron zamanlama optimizasyonu ve ağaç birleştirme stratejisi ile eğitim hızı 40 kat artırıldı
- CISPO algoritması kullanılarak büyük ölçekli MoE modellerinde kararlılık sağlandı
- Süreç ödül mekanizması ile uzun bağlamlarda da kalite izleniyor
- Zeka ile yanıt hızı arasında denge kurmak için görev süresi değerlendirme sistemi devreye alındı
MiniMax Agent entegrasyonu
- M2.5, MiniMax Agent ile tam entegre şekilde sunuluyor ve uzman çalışan düzeyinde bir ajan deneyimi sağlıyor
- Office Skills (Word, PowerPoint, Excel vb.) otomatik yüklenerek belge kalitesi artırılıyor
- Kullanıcılar Office Skills ile sektöre özgü uzman bilgiyi birleştirerek özelleştirilmiş Expert oluşturabiliyor
- Örnek: araştırma raporunun otomatik yazılması, finansal modelin otomatik oluşturulması ve doğrulanması
- Şu anda 10.000'den fazla Expert oluşturulmuş durumda ve sayı hızla artıyor
- MiniMax içinde toplam işlerin %30'unu M2.5 otomatik olarak yürütüyor
- Ar-Ge, ürün, satış, insan kaynakları, finans dahil tüm bölümlerde kullanılıyor
- Yeni commit edilen kodun %80'i M2.5 tarafından üretilen kod
Ek: değerlendirme yöntemi özeti
- SWE-bench, Terminal Bench 2, VIBE-Pro, BrowseComp, Wide Search, RISE, GDPval-MM, MEWC, Finance Modeling gibi çeşitli iç ve dış benchmark'lar kullanıldı
- Tüm testler birleşik bir pipeline ve birden çok tekrar çalıştırmanın ortalaması üzerinden hesaplandı
- Değerlendirme ortamı 8 çekirdekli CPU, 16GB bellek, 7200 saniye sınırı ve standart araç setini içeriyor
1 yorum
Hacker News görüşleri
Daha iyi ve daha ucuz modellerin bolca çıkmasını umuyorum
Rekabet canlı olmalı ki pazar sağlıklı kalsın
Ama benchmark sonuçlarına temkinli yaklaşmak gerek
MiniMax 2.1 fena değil ama ona “zeki” demek zor
Özellikle testleri geçmek için kod tabanını manipüle etme eğilimi var
Hatta gerçekten başarısız olan testleri başarılıymış gibi gösteren raporlar da düzenliyor
Artificial Analysis metriklerine göre MiniMax 2.1’in kodlama puanı 33 ve üst düzey modellerle arasında büyük fark var
Algoritma problemi çözdürdüğünüzde, çözemeyince test case’leri hardcode ediyor
DeepSeek de bir dönem böyle davranıyordu
Basit bir type error’u düzeltmek yerine cast veya Any’yi aşırı kullanarak sorunun üstünü kapatıyor
Gerçek bir düzeltme yapmak yerine type check’ten kaçıyordu
Buna karşılık MiMo v2 Flash fiyat/performans açısından çok daha iyiydi
Pelican görseli tanınabiliyor ama bitirme kalitesi düşük
Özellikle bisiklet kadrosundaki bar eksik
İlgili görsel
Çoğu model yönlendirilemeyen ön tekerlek yapıları üretiyor, bu ise ondan ziyade dürüst bir “çözülmemiş problem” işareti gibi duruyor
Sanki koda “TODO” yorumu bırakılmış gibi
Pelikanın bacak uzunluğu düşünülünce duruşu da şaşırtıcı biçimde anatomik olarak doğal
MiniMax M2.1 en sık kullandığım model
Hızlı, ucuz ve tool calling yeteneği çok iyi
Geliştirme için Antigravity + Claude kullanıyorum ama iş akışımda önce MiniMax’e gidiyorum
Kod işlerinde GLM, İngilizce analizde Kimi K2.5 kullanıyorum
Henüz self-hosting yapmıyorum ama Çin OSS modellerini tercih ediyorum
Çünkü gelecekte onları kendim barındırabilme ihtimali var
openclaw assistant’ım da MiniMax ile çalışıyor ve hız, kalite ve maliyet dengesi en iyi onda
100 tokens/sec hızında 1 saat çalıştırmak $1, 50 tokens/sec ise yaklaşık $0.30 ediyor
API üzerinden mi kullandığını, yoksa aylık abonelik mi olduğunu merak ediyorum
Aylık planda hız limiti veya reset olup olmadığını da bilmek isterim
Ben de MM2.1’in en ekonomik seçenek olduğunu, K2.5’in ise genel olarak en güçlü model olduğunu düşünüyorum
Hemen OpenRouter’da bakacağım
Benchmark’lar fazla iyi görünüyor, o yüzden şüphe uyandırıyor
Eğitim yöntemi ilginç ama gerçekten yenilikçi olup olmadığı belirsiz
Bir benchmark’ın güvenilirliğini modelin nesnel özelliklerine ve geçmiş deneyimlerime göre değerlendiriyorum
Mesela Kimi K2.5 gerçekten dengeli ve zeki hissettiren bir model, bu yüzden rakamlarına güveniyorum
GLM 5 geçmişte abartılı benchmark’lar yayımlamıştı ama bu kez model boyutunu ve mimarisini ciddi biçimde geliştirdiği için ihtimal verilebilir
Buna karşılık MiniMax her zaman kırılgan ve hata döngülerine düşmeye yatkın bir model oldu
Basit JavaScript kodlarını bile sık sık bozuyordu ve model boyutu da fazla küçük, bu yüzden bu performans iddiasına inanmak zor
M2, benchmark skorlarını şişirmenin tipik bir örneğiydi
SWE-B sonuçlarıyla gerçek, eğitim görmemiş görevler arasındaki fark büyüktü
2.5 sürümü yakında brokk.ai’nin power ranking listesine eklenecek
Şirketimiz Github Copilot içinde yalnızca OpenAI, Anthropic ve Google LLM’lerine izin veriyor
Bu yüzden krediler bir hafta içinde tükeniyor
Daha fazla çeşit LLM kullanabilsek iyi olurdu
M2.5’i OpenCode’da basit bir iş için denedim ve sonuçlar berbattı
Sadece 250 satırlık bağımsız bir script’ti ama Opus 4.6’nın yalnızca ipucuyla çözebildiği seviyedeki işi M2.5 ayrıntılı prompt olmadan yapamadı
Test edilen kod bağlantısı
İlginç olan, orta ölçekli (Tier-2) şirketlerin neredeyse hiç rekabetçi model çıkarmaması
Sonuçta tablo, büyük 4 laboratuvar ile Çin laboratuvarları arasındaki mücadeleye dönüyor
Dile özel LLM’ler sıradan bilgisayarlarda çalışabilse güzel olurdu
Örneğin yalnızca Python 3+ ile belirli framework’ler ve kod depoları üzerinde eğitilmiş modeller gibi
Böylece bunu internet araması için kullanılan modelden ayırıp maliyeti azaltmak da mümkün olabilir
Bu modelin saatlik $1 olduğu söyleniyor; bu da benim kullandığım Claude Code’un aylık $200 planına yakın bir seviye
Pratikte günde yaklaşık 3 tanesini paralel çalıştırıyor, haftada 60 saat kadar kullanıyorum
7/24 sürekli çalıştırmaya uygun bir kullanım senaryosu varsa ilginç olabilir ama şu an benim aklıma gelmiyor
Bunu bu şekilde kullanan örnekler bilen biri var mı diye merak ediyorum