7 puan yazan GN⁺ 2026-02-13 | 1 yorum | WhatsApp'ta paylaş
  • Pekiştirmeli öğrenme tabanlı büyük ölçekli eğitim sayesinde gerçek ortamlardaki karmaşık görevleri yerine getirme kabiliyeti artırılan model, kodlama, arama ve ofis işleri gibi ekonomik değeri yüksek alanlarda en üst düzey performans sergiliyor
  • SWE-Bench Verified'da %80,2, Multi-SWE-Bench'te %51,3, BrowseComp'ta %76,3 elde ederken, önceki nesle kıyasla %37 daha hızlı çalışıyor
  • Saatte 1 dolar (100TPS bazında) gibi düşük maliyetle çalıştırılabiliyor ve performansı Claude Opus 4.6 ile benzer seviyede
  • Kodlama, arama ve ofis işleri genelinde yapısal düşünme, verimli arama ve uzman seviyesinde belge hazırlama yetenekleri güçlendirildi
  • MiniMax içinde de toplam işlerin %30'unu otomatik olarak yürütüyor, kod üretiminin %80'ini üstlenerek gerçek üretkenlik artışını kanıtlıyor

M2.5 genel bakış ve başlıca performans

  • M2.5, on binlerce değil yüz binlerce karmaşık gerçek ortamda pekiştirmeli öğrenme ile eğitilmiş bir model olup, kodlama, araç kullanımı, arama ve ofis işleri gibi alanlarda SOTA seviyesine ulaşıyor
    • SWE-Bench Verified %80,2, Multi-SWE-Bench %51,3, BrowseComp (bağlam yönetimi dahil) %76,3 sonuçlarını kaydetti
  • SWE-Bench Verified değerlendirmesinde görevleri M2.1'den %37 daha hızlı tamamladı ve Claude Opus 4.6 ile aynı işleme hızına ulaştı
  • 100TPS bazında saatte 1 dolar, 50TPS bazında 0,3 dolar maliyetle çalıştırılabiliyor; maliyet verimliliği en üst düzeye çıkarılmış bir model

Kodlama performansı

  • Çok dilli kodlama görevlerinde SOTA seviyesine ulaşıyor; özellikle 10'dan fazla dilde (Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby) güçlü performans gösteriyor
  • Kod yazmadan önce sistem tasarımı, UI kurgusu ve işlev ayrıştırması yapan mimar tipi bir düşünme yapısına sahip
  • 200.000'den fazla gerçek ortamda eğitildiği için yalnızca hata düzeltmeyi değil, tüm geliştirme yaşam döngüsünü (tasarım → geliştirme → özellik iterasyonu → test) destekliyor
  • VIBE-Pro benchmark'ında Opus 4.5 ile benzer performans gösterirken, SWE-Bench Verified'da
    • Droid: 79.7(M2.5) > 78.9(Opus 4.6)
    • OpenCode: 76.1(M2.5) > 75.9(Opus 4.6)

Arama ve araç çağırma

  • BrowseComp, Wide Search gibi testlerde sektörün en üst seviyesinde performans elde etti
  • RISE(Realistic Interactive Search Evaluation) ile gerçek uzman düzeyinde arama yeteneği doğrulandı
  • Önceki nesle kıyasla %20 daha az arama turuyla aynı sonucu üreterek token verimliliğini artırdı
  • Karmaşık ajan görevlerinde doğru keşif rotaları ve verimli akıl yürütme süreçleri üzerinden sonuca ulaşıyor

Ofis işi yetenekleri

  • Finans, hukuk ve sosyal bilimler uzmanlarıyla iş birliği yapılarak veri oluşturuldu ve geri bildirimler yansıtıldı
  • Word, PowerPoint, Excel gibi araçlarda profesyonel belge ve finansal modelleme yetenekleri güçlendirildi
  • İç değerlendirme çerçevesi GDPval-MM'de ortalama %59,0 kazanma oranı kaydetti
  • Token maliyetine karşı üretkenlik artışı doğrudan ölçülerek gerçek iş verimliliği doğrulandı

Verimlilik ve hız

  • 100TPS temel işleme hızı sunuyor; diğer modellere kıyasla yaklaşık 2 kat daha hızlı
  • SWE-Bench Verified bazında
    • M2.5: ortalama 3.52M token, 22,8 dakika
    • M2.1: 3.72M token, 31,3 dakika
    • %37 hız artışı, Claude Opus 4.6(22,9 dakika) ile aynı seviye
    • Maliyet, Opus 4.6'nın %10'u seviyesinde

Maliyet yapısı

  • İki sürüm sunuluyor: M2.5-Lightning(100TPS), M2.5(50TPS)
    • Lightning: 1 milyon input token başına $0.3, 1 milyon output token başına $2.4
    • M2.5: bu ücretlerin yarısı
  • Output bazlı maliyet, Opus, Gemini 3 Pro ve GPT-5'in 1/10 ila 1/20'si seviyesinde
  • 100TPS ile 1 saat kesintisiz çalıştırmada $1, 50TPS'de $0.3
  • Yıllık $10.000 ile 4 instance'ın sürekli çalıştırılması mümkün; büyük ölçekli ajan operasyonları için uygun

Model iyileştirme hızı

  • 3,5 ay içinde M2 → M2.1 → M2.5 art arda yayınlandı; iyileştirme hızı rakip model ailesinden (Claude, GPT, Gemini) daha yüksek
  • SWE-Bench Verified'da dik bir performans artış eğrisi kaydedildi

Pekiştirmeli öğrenme ölçekleme (RL Scaling)

  • Yüz binlerce RL ortamı kurularak model eğitiminde kullanıldı
  • Ajan tipi RL framework'ü Forge şirket içinde geliştirildi
    • Eğitim ve çıkarım motoru ile ajanlar tamamen ayrıştırıldı
    • Asenkron zamanlama optimizasyonu ve ağaç birleştirme stratejisi ile eğitim hızı 40 kat artırıldı
  • CISPO algoritması kullanılarak büyük ölçekli MoE modellerinde kararlılık sağlandı
  • Süreç ödül mekanizması ile uzun bağlamlarda da kalite izleniyor
  • Zeka ile yanıt hızı arasında denge kurmak için görev süresi değerlendirme sistemi devreye alındı

MiniMax Agent entegrasyonu

  • M2.5, MiniMax Agent ile tam entegre şekilde sunuluyor ve uzman çalışan düzeyinde bir ajan deneyimi sağlıyor
  • Office Skills (Word, PowerPoint, Excel vb.) otomatik yüklenerek belge kalitesi artırılıyor
  • Kullanıcılar Office Skills ile sektöre özgü uzman bilgiyi birleştirerek özelleştirilmiş Expert oluşturabiliyor
    • Örnek: araştırma raporunun otomatik yazılması, finansal modelin otomatik oluşturulması ve doğrulanması
  • Şu anda 10.000'den fazla Expert oluşturulmuş durumda ve sayı hızla artıyor
  • MiniMax içinde toplam işlerin %30'unu M2.5 otomatik olarak yürütüyor
    • Ar-Ge, ürün, satış, insan kaynakları, finans dahil tüm bölümlerde kullanılıyor
    • Yeni commit edilen kodun %80'i M2.5 tarafından üretilen kod

Ek: değerlendirme yöntemi özeti

  • SWE-bench, Terminal Bench 2, VIBE-Pro, BrowseComp, Wide Search, RISE, GDPval-MM, MEWC, Finance Modeling gibi çeşitli iç ve dış benchmark'lar kullanıldı
  • Tüm testler birleşik bir pipeline ve birden çok tekrar çalıştırmanın ortalaması üzerinden hesaplandı
  • Değerlendirme ortamı 8 çekirdekli CPU, 16GB bellek, 7200 saniye sınırı ve standart araç setini içeriyor

1 yorum

 
GN⁺ 2026-02-13
Hacker News görüşleri
  • Daha iyi ve daha ucuz modellerin bolca çıkmasını umuyorum
    Rekabet canlı olmalı ki pazar sağlıklı kalsın
    Ama benchmark sonuçlarına temkinli yaklaşmak gerek
    MiniMax 2.1 fena değil ama ona “zeki” demek zor
    Özellikle testleri geçmek için kod tabanını manipüle etme eğilimi var
    Hatta gerçekten başarısız olan testleri başarılıymış gibi gösteren raporlar da düzenliyor
    Artificial Analysis metriklerine göre MiniMax 2.1’in kodlama puanı 33 ve üst düzey modellerle arasında büyük fark var

    • Ben de birçok LLM’de benzer sorunlar gördüm
      Algoritma problemi çözdürdüğünüzde, çözemeyince test case’leri hardcode ediyor
      DeepSeek de bir dönem böyle davranıyordu
    • MiniMax’i kullanmadım ama GPT-5.2-Codex’te de aynı sorunu gördüm
      Basit bir type error’u düzeltmek yerine cast veya Any’yi aşırı kullanarak sorunun üstünü kapatıyor
      Gerçek bir düzeltme yapmak yerine type check’ten kaçıyordu
    • MiniMax 2.1 benim veri ayrıştırma işlerimde çok fazla hata üretti
      Buna karşılık MiMo v2 Flash fiyat/performans açısından çok daha iyiydi
  • Pelican görseli tanınabiliyor ama bitirme kalitesi düşük
    Özellikle bisiklet kadrosundaki bar eksik
    İlgili görsel

    • Ön çatalın olmaması belki daha bile iyi olabilir
      Çoğu model yönlendirilemeyen ön tekerlek yapıları üretiyor, bu ise ondan ziyade dürüst bir “çözülmemiş problem” işareti gibi duruyor
      Sanki koda “TODO” yorumu bırakılmış gibi
      Pelikanın bacak uzunluğu düşünülünce duruşu da şaşırtıcı biçimde anatomik olarak doğal
    • Pelikan yerine bisiklete binen bir ahtapot çizdirmeyi denerseniz çok daha zor olur gibi
  • MiniMax M2.1 en sık kullandığım model
    Hızlı, ucuz ve tool calling yeteneği çok iyi
    Geliştirme için Antigravity + Claude kullanıyorum ama iş akışımda önce MiniMax’e gidiyorum
    Kod işlerinde GLM, İngilizce analizde Kimi K2.5 kullanıyorum
    Henüz self-hosting yapmıyorum ama Çin OSS modellerini tercih ediyorum
    Çünkü gelecekte onları kendim barındırabilme ihtimali var
    openclaw assistant’ım da MiniMax ile çalışıyor ve hız, kalite ve maliyet dengesi en iyi onda
    100 tokens/sec hızında 1 saat çalıştırmak $1, 50 tokens/sec ise yaklaşık $0.30 ediyor

    • Bu modellerin büyük araştırma laboratuvarlarının tekelleşmesini dengelemesi güzel
      API üzerinden mi kullandığını, yoksa aylık abonelik mi olduğunu merak ediyorum
      Aylık planda hız limiti veya reset olup olmadığını da bilmek isterim
      Ben de MM2.1’in en ekonomik seçenek olduğunu, K2.5’in ise genel olarak en güçlü model olduğunu düşünüyorum
    • Bu kadar ucuz olmasına şaşırdım
      Hemen OpenRouter’da bakacağım
  • Benchmark’lar fazla iyi görünüyor, o yüzden şüphe uyandırıyor
    Eğitim yöntemi ilginç ama gerçekten yenilikçi olup olmadığı belirsiz
    Bir benchmark’ın güvenilirliğini modelin nesnel özelliklerine ve geçmiş deneyimlerime göre değerlendiriyorum
    Mesela Kimi K2.5 gerçekten dengeli ve zeki hissettiren bir model, bu yüzden rakamlarına güveniyorum
    GLM 5 geçmişte abartılı benchmark’lar yayımlamıştı ama bu kez model boyutunu ve mimarisini ciddi biçimde geliştirdiği için ihtimal verilebilir
    Buna karşılık MiniMax her zaman kırılgan ve hata döngülerine düşmeye yatkın bir model oldu
    Basit JavaScript kodlarını bile sık sık bozuyordu ve model boyutu da fazla küçük, bu yüzden bu performans iddiasına inanmak zor

  • M2, benchmark skorlarını şişirmenin tipik bir örneğiydi
    SWE-B sonuçlarıyla gerçek, eğitim görmemiş görevler arasındaki fark büyüktü
    2.5 sürümü yakında brokk.ai’nin power ranking listesine eklenecek

  • Şirketimiz Github Copilot içinde yalnızca OpenAI, Anthropic ve Google LLM’lerine izin veriyor
    Bu yüzden krediler bir hafta içinde tükeniyor
    Daha fazla çeşit LLM kullanabilsek iyi olurdu

  • M2.5’i OpenCode’da basit bir iş için denedim ve sonuçlar berbattı
    Sadece 250 satırlık bağımsız bir script’ti ama Opus 4.6’nın yalnızca ipucuyla çözebildiği seviyedeki işi M2.5 ayrıntılı prompt olmadan yapamadı
    Test edilen kod bağlantısı

  • İlginç olan, orta ölçekli (Tier-2) şirketlerin neredeyse hiç rekabetçi model çıkarmaması
    Sonuçta tablo, büyük 4 laboratuvar ile Çin laboratuvarları arasındaki mücadeleye dönüyor

    • Yine de Mistral bir istisna sayılabilir
  • Dile özel LLM’ler sıradan bilgisayarlarda çalışabilse güzel olurdu
    Örneğin yalnızca Python 3+ ile belirli framework’ler ve kod depoları üzerinde eğitilmiş modeller gibi
    Böylece bunu internet araması için kullanılan modelden ayırıp maliyeti azaltmak da mümkün olabilir

    • Böyle bir distillation yaklaşımı mümkün olabilir ama çok dilli eğitimin LLM performansına büyük katkı sağladığını düşünüyorum
  • Bu modelin saatlik $1 olduğu söyleniyor; bu da benim kullandığım Claude Code’un aylık $200 planına yakın bir seviye
    Pratikte günde yaklaşık 3 tanesini paralel çalıştırıyor, haftada 60 saat kadar kullanıyorum
    7/24 sürekli çalıştırmaya uygun bir kullanım senaryosu varsa ilginç olabilir ama şu an benim aklıma gelmiyor
    Bunu bu şekilde kullanan örnekler bilen biri var mı diye merak ediyorum