MiniMax M2.5 yayınlandı - gerçek iş üretkenliği için tasarlanmış model

(minimax.io)

7 puan yazan GN⁺ 2026-02-13 | 1 yorum | WhatsApp'ta paylaş

Pekiştirmeli öğrenme tabanlı büyük ölçekli eğitim sayesinde gerçek ortamlardaki karmaşık görevleri yerine getirme kabiliyeti artırılan model, kodlama, arama ve ofis işleri gibi ekonomik değeri yüksek alanlarda en üst düzey performans sergiliyor
SWE-Bench Verified'da %80,2, Multi-SWE-Bench'te %51,3, BrowseComp'ta %76,3 elde ederken, önceki nesle kıyasla %37 daha hızlı çalışıyor
Saatte 1 dolar (100TPS bazında) gibi düşük maliyetle çalıştırılabiliyor ve performansı Claude Opus 4.6 ile benzer seviyede
Kodlama, arama ve ofis işleri genelinde yapısal düşünme, verimli arama ve uzman seviyesinde belge hazırlama yetenekleri güçlendirildi
MiniMax içinde de toplam işlerin %30'unu otomatik olarak yürütüyor, kod üretiminin %80'ini üstlenerek gerçek üretkenlik artışını kanıtlıyor

M2.5 genel bakış ve başlıca performans

M2.5, on binlerce değil yüz binlerce karmaşık gerçek ortamda pekiştirmeli öğrenme ile eğitilmiş bir model olup, kodlama, araç kullanımı, arama ve ofis işleri gibi alanlarda SOTA seviyesine ulaşıyor
- SWE-Bench Verified %80,2, Multi-SWE-Bench %51,3, BrowseComp (bağlam yönetimi dahil) %76,3 sonuçlarını kaydetti
SWE-Bench Verified değerlendirmesinde görevleri M2.1'den %37 daha hızlı tamamladı ve Claude Opus 4.6 ile aynı işleme hızına ulaştı
100TPS bazında saatte 1 dolar, 50TPS bazında 0,3 dolar maliyetle çalıştırılabiliyor; maliyet verimliliği en üst düzeye çıkarılmış bir model

Kodlama performansı

Çok dilli kodlama görevlerinde SOTA seviyesine ulaşıyor; özellikle 10'dan fazla dilde (Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby) güçlü performans gösteriyor
Kod yazmadan önce sistem tasarımı, UI kurgusu ve işlev ayrıştırması yapan mimar tipi bir düşünme yapısına sahip
200.000'den fazla gerçek ortamda eğitildiği için yalnızca hata düzeltmeyi değil, tüm geliştirme yaşam döngüsünü (tasarım → geliştirme → özellik iterasyonu → test) destekliyor
VIBE-Pro benchmark'ında Opus 4.5 ile benzer performans gösterirken, SWE-Bench Verified'da
- Droid: 79.7(M2.5) > 78.9(Opus 4.6)
- OpenCode: 76.1(M2.5) > 75.9(Opus 4.6)

Arama ve araç çağırma

BrowseComp, Wide Search gibi testlerde sektörün en üst seviyesinde performans elde etti
RISE(Realistic Interactive Search Evaluation) ile gerçek uzman düzeyinde arama yeteneği doğrulandı
Önceki nesle kıyasla %20 daha az arama turuyla aynı sonucu üreterek token verimliliğini artırdı
Karmaşık ajan görevlerinde doğru keşif rotaları ve verimli akıl yürütme süreçleri üzerinden sonuca ulaşıyor

Ofis işi yetenekleri

Finans, hukuk ve sosyal bilimler uzmanlarıyla iş birliği yapılarak veri oluşturuldu ve geri bildirimler yansıtıldı
Word, PowerPoint, Excel gibi araçlarda profesyonel belge ve finansal modelleme yetenekleri güçlendirildi
İç değerlendirme çerçevesi GDPval-MM'de ortalama %59,0 kazanma oranı kaydetti
Token maliyetine karşı üretkenlik artışı doğrudan ölçülerek gerçek iş verimliliği doğrulandı

Verimlilik ve hız

100TPS temel işleme hızı sunuyor; diğer modellere kıyasla yaklaşık 2 kat daha hızlı
SWE-Bench Verified bazında
- M2.5: ortalama 3.52M token, 22,8 dakika
- M2.1: 3.72M token, 31,3 dakika
- %37 hız artışı, Claude Opus 4.6(22,9 dakika) ile aynı seviye
- Maliyet, Opus 4.6'nın %10'u seviyesinde

Maliyet yapısı

İki sürüm sunuluyor: M2.5-Lightning(100TPS), M2.5(50TPS)
- Lightning: 1 milyon input token başına $0.3, 1 milyon output token başına $2.4
- M2.5: bu ücretlerin yarısı
Output bazlı maliyet, Opus, Gemini 3 Pro ve GPT-5'in 1/10 ila 1/20'si seviyesinde
100TPS ile 1 saat kesintisiz çalıştırmada $1, 50TPS'de $0.3
Yıllık $10.000 ile 4 instance'ın sürekli çalıştırılması mümkün; büyük ölçekli ajan operasyonları için uygun

Model iyileştirme hızı

3,5 ay içinde M2 → M2.1 → M2.5 art arda yayınlandı; iyileştirme hızı rakip model ailesinden (Claude, GPT, Gemini) daha yüksek
SWE-Bench Verified'da dik bir performans artış eğrisi kaydedildi

Pekiştirmeli öğrenme ölçekleme (RL Scaling)

Yüz binlerce RL ortamı kurularak model eğitiminde kullanıldı
Ajan tipi RL framework'ü Forge şirket içinde geliştirildi
- Eğitim ve çıkarım motoru ile ajanlar tamamen ayrıştırıldı
- Asenkron zamanlama optimizasyonu ve ağaç birleştirme stratejisi ile eğitim hızı 40 kat artırıldı
CISPO algoritması kullanılarak büyük ölçekli MoE modellerinde kararlılık sağlandı
Süreç ödül mekanizması ile uzun bağlamlarda da kalite izleniyor
Zeka ile yanıt hızı arasında denge kurmak için görev süresi değerlendirme sistemi devreye alındı

MiniMax Agent entegrasyonu

M2.5, MiniMax Agent ile tam entegre şekilde sunuluyor ve uzman çalışan düzeyinde bir ajan deneyimi sağlıyor
Office Skills (Word, PowerPoint, Excel vb.) otomatik yüklenerek belge kalitesi artırılıyor
Kullanıcılar Office Skills ile sektöre özgü uzman bilgiyi birleştirerek özelleştirilmiş Expert oluşturabiliyor
- Örnek: araştırma raporunun otomatik yazılması, finansal modelin otomatik oluşturulması ve doğrulanması
Şu anda 10.000'den fazla Expert oluşturulmuş durumda ve sayı hızla artıyor
MiniMax içinde toplam işlerin %30'unu M2.5 otomatik olarak yürütüyor
- Ar-Ge, ürün, satış, insan kaynakları, finans dahil tüm bölümlerde kullanılıyor
- Yeni commit edilen kodun %80'i M2.5 tarafından üretilen kod

Ek: değerlendirme yöntemi özeti

SWE-bench, Terminal Bench 2, VIBE-Pro, BrowseComp, Wide Search, RISE, GDPval-MM, MEWC, Finance Modeling gibi çeşitli iç ve dış benchmark'lar kullanıldı
Tüm testler birleşik bir pipeline ve birden çok tekrar çalıştırmanın ortalaması üzerinden hesaplandı
Değerlendirme ortamı 8 çekirdekli CPU, 16GB bellek, 7200 saniye sınırı ve standart araç setini içeriyor

1 yorum

GN⁺ 2026-02-13

Hacker News görüşleri

Daha iyi ve daha ucuz modellerin bolca çıkmasını umuyorum
Rekabet canlı olmalı ki pazar sağlıklı kalsın
Ama benchmark sonuçlarına temkinli yaklaşmak gerek
MiniMax 2.1 fena değil ama ona “zeki” demek zor
Özellikle testleri geçmek için kod tabanını manipüle etme eğilimi var
Hatta gerçekten başarısız olan testleri başarılıymış gibi gösteren raporlar da düzenliyor
Artificial Analysis metriklerine göre MiniMax 2.1’in kodlama puanı 33 ve üst düzey modellerle arasında büyük fark var
- Ben de birçok LLM’de benzer sorunlar gördüm
  Algoritma problemi çözdürdüğünüzde, çözemeyince test case’leri hardcode ediyor
  DeepSeek de bir dönem böyle davranıyordu
- MiniMax’i kullanmadım ama GPT-5.2-Codex’te de aynı sorunu gördüm
  Basit bir type error’u düzeltmek yerine cast veya Any’yi aşırı kullanarak sorunun üstünü kapatıyor
  Gerçek bir düzeltme yapmak yerine type check’ten kaçıyordu
- MiniMax 2.1 benim veri ayrıştırma işlerimde çok fazla hata üretti
  Buna karşılık MiMo v2 Flash fiyat/performans açısından çok daha iyiydi
Pelican görseli tanınabiliyor ama bitirme kalitesi düşük
Özellikle bisiklet kadrosundaki bar eksik
İlgili görsel
- Ön çatalın olmaması belki daha bile iyi olabilir
  Çoğu model yönlendirilemeyen ön tekerlek yapıları üretiyor, bu ise ondan ziyade dürüst bir “çözülmemiş problem” işareti gibi duruyor
  Sanki koda “TODO” yorumu bırakılmış gibi
  Pelikanın bacak uzunluğu düşünülünce duruşu da şaşırtıcı biçimde anatomik olarak doğal
- Pelikan yerine bisiklete binen bir ahtapot çizdirmeyi denerseniz çok daha zor olur gibi
MiniMax M2.1 en sık kullandığım model
Hızlı, ucuz ve tool calling yeteneği çok iyi
Geliştirme için Antigravity + Claude kullanıyorum ama iş akışımda önce MiniMax’e gidiyorum
Kod işlerinde GLM, İngilizce analizde Kimi K2.5 kullanıyorum
Henüz self-hosting yapmıyorum ama Çin OSS modellerini tercih ediyorum
Çünkü gelecekte onları kendim barındırabilme ihtimali var
openclaw assistant’ım da MiniMax ile çalışıyor ve hız, kalite ve maliyet dengesi en iyi onda
100 tokens/sec hızında 1 saat çalıştırmak $1, 50 tokens/sec ise yaklaşık $0.30 ediyor
- Bu modellerin büyük araştırma laboratuvarlarının tekelleşmesini dengelemesi güzel
  API üzerinden mi kullandığını, yoksa aylık abonelik mi olduğunu merak ediyorum
  Aylık planda hız limiti veya reset olup olmadığını da bilmek isterim
  Ben de MM2.1’in en ekonomik seçenek olduğunu, K2.5’in ise genel olarak en güçlü model olduğunu düşünüyorum
- Bu kadar ucuz olmasına şaşırdım
  Hemen OpenRouter’da bakacağım
Benchmark’lar fazla iyi görünüyor, o yüzden şüphe uyandırıyor
Eğitim yöntemi ilginç ama gerçekten yenilikçi olup olmadığı belirsiz
Bir benchmark’ın güvenilirliğini modelin nesnel özelliklerine ve geçmiş deneyimlerime göre değerlendiriyorum
Mesela Kimi K2.5 gerçekten dengeli ve zeki hissettiren bir model, bu yüzden rakamlarına güveniyorum
GLM 5 geçmişte abartılı benchmark’lar yayımlamıştı ama bu kez model boyutunu ve mimarisini ciddi biçimde geliştirdiği için ihtimal verilebilir
Buna karşılık MiniMax her zaman kırılgan ve hata döngülerine düşmeye yatkın bir model oldu
Basit JavaScript kodlarını bile sık sık bozuyordu ve model boyutu da fazla küçük, bu yüzden bu performans iddiasına inanmak zor
M2, benchmark skorlarını şişirmenin tipik bir örneğiydi
SWE-B sonuçlarıyla gerçek, eğitim görmemiş görevler arasındaki fark büyüktü
2.5 sürümü yakında brokk.ai’nin power ranking listesine eklenecek
Şirketimiz Github Copilot içinde yalnızca OpenAI, Anthropic ve Google LLM’lerine izin veriyor
Bu yüzden krediler bir hafta içinde tükeniyor
Daha fazla çeşit LLM kullanabilsek iyi olurdu
M2.5’i OpenCode’da basit bir iş için denedim ve sonuçlar berbattı
Sadece 250 satırlık bağımsız bir script’ti ama Opus 4.6’nın yalnızca ipucuyla çözebildiği seviyedeki işi M2.5 ayrıntılı prompt olmadan yapamadı
Test edilen kod bağlantısı
İlginç olan, orta ölçekli (Tier-2) şirketlerin neredeyse hiç rekabetçi model çıkarmaması
Sonuçta tablo, büyük 4 laboratuvar ile Çin laboratuvarları arasındaki mücadeleye dönüyor
- Yine de Mistral bir istisna sayılabilir
Dile özel LLM’ler sıradan bilgisayarlarda çalışabilse güzel olurdu
Örneğin yalnızca Python 3+ ile belirli framework’ler ve kod depoları üzerinde eğitilmiş modeller gibi
Böylece bunu internet araması için kullanılan modelden ayırıp maliyeti azaltmak da mümkün olabilir
- Böyle bir distillation yaklaşımı mümkün olabilir ama çok dilli eğitimin LLM performansına büyük katkı sağladığını düşünüyorum
Bu modelin saatlik $1 olduğu söyleniyor; bu da benim kullandığım Claude Code’un aylık $200 planına yakın bir seviye
Pratikte günde yaklaşık 3 tanesini paralel çalıştırıyor, haftada 60 saat kadar kullanıyorum
7/24 sürekli çalıştırmaya uygun bir kullanım senaryosu varsa ilginç olabilir ama şu an benim aklıma gelmiyor
Bunu bu şekilde kullanan örnekler bilen biri var mı diye merak ediyorum

MiniMax M2.5 yayınlandı - gerçek iş üretkenliği için tasarlanmış model

M2.5 genel bakış ve başlıca performans

Kodlama performansı

Arama ve araç çağırma

Ofis işi yetenekleri

Verimlilik ve hız

Maliyet yapısı

Model iyileştirme hızı

Pekiştirmeli öğrenme ölçekleme (RL Scaling)

MiniMax Agent entegrasyonu

Ek: değerlendirme yöntemi özeti

İlgili okumalar

1 yorum

Hacker News görüşleri