Mistral Medium 3.5 duyuruldu
(mistral.ai)- 128B Dense model olarak, komut yürütme, akıl yürütme ve kodlamayı tek bir ağırlıkta birleştiriyor ve 256k context window desteği sunuyor
- İstek bazında çıkarım eforu ayarlanabildiği için basit sohbetlerden karmaşık agentic görevlere kadar tek bir modelle yanıt verebiliyor
- SWE-Bench Verified %77,6, τ³-Telecom 91,4 puan ile Devstral 2 ve Qwen3.5 397B A17B'yi geride bırakıyor
- Vision encoder yeniden eğitildi; böylece değişken görüntü boyutları ve en-boy oranları işlenebiliyor
- Vibe uzak ajanı ile kodlama oturumları bulutta asenkron olarak çalıştırılıyor; birden fazla oturum paralel yürütülebiliyor ve tamamlandığında bildirim alınabiliyor
- CLI veya Le Chat üzerinden başlatılabiliyor; yerel bir oturum buluta teleport edildiğinde geçmiş, durum ve onay kayıtları aynen taşınıyor
- Her oturum izole bir sandbox içinde çalışıyor ve tamamlandığında otomatik olarak GitHub PR oluşturuluyor
- GitHub, Linear, Jira, Sentry, Slack, Teams gibi mevcut geliştirme araçlarıyla entegre oluyor
- Modül refactoring'i, test oluşturma, bağımlılık yükseltme, CI inceleme, bug düzeltme gibi tekrarlayan ve iyi tanımlanmış işler için uygun
- Le Chat'in Work modu (önizleme), e-posta, takvim, mesajlar gibi birden fazla aracı aynı anda kullanarak çok adımlı işleri tamamlanana kadar otomatik yürütüyor
- Connector'ler varsayılan olarak etkin, tüm araç çağrıları ve düşünme gerekçesi gösteriliyor, hassas işler için açık onay isteniyor
- API fiyatı, giriş için milyon token başına 1,5 dolar, çıkış için milyon token başına 7,5 dolar
- Açık ağırlıklar değiştirilmiş MIT lisansıyla yayımlandı; en az 4 GPU ile self-hosting mümkün
1 yorum
Hacker News görüşleri
Yorumlarda herkesin neye baktığını anlamıyorum. Bu model diğer modelleri geçemiyor olabilir ama boyutuna göre rekabetçi olduğu kesin
GLM 5.1 harika ama Q4'te bile yaklaşık 400GB gerekiyor, Kimi K2.5 de iyi ama Q4 quantization ölçütüyle neredeyse 600GB istiyor
Bu model Q4'te 70GB VRAM ile çalışabiliyor, yani tüketici tarafına daha da yaklaşıyor. 128GB RAM'li bir Mac Studio'yu yaklaşık 3500 dolara almak mümkün
Claude'a takılmış olanlar sadece Opus mu kullanıyor bilmiyorum ama Pro planda Sonnet de zaten çok yetenekliydi. Bu model yerelde çalışıp en güncel Sonnet'i geçiyor ve repoda HERMES.md var diye ek ücret kesmiyor ya da hesabı keyfi biçimde kilitlemiyor
Mistral hiçbir zaman frontier seviyesinde rekabetçi olmadı ama belki de Mistral'dan beklememiz gereken rol bu değildir. Maliyet/boyutun %20'siyle frontier'ın %80'ini veren bir Pareto modeli olması bile yeterince iyi görünüyor
Böyle bir modeli 128GB Mac'te çalıştırabilirsiniz ama önce Q4'ün kaliteyi yeterince koruyup korumadığına bakmak gerekir. Her modelin quantization hassasiyeti farklıdır ve gerçek hız da önemlidir
Asenkron işler ya da arka plan işleri için prompt işleme ve token üretim hızı daha az önemli olabilir, ama birçok Mac Studio alıcısı bunun buluttaki gerçek donanımda barındırılan modeller kadar iyi yanıt vermediğini zor yoldan öğrendi
On-premise işleme ihtiyacı güçlü olmayan çoğu kişi için bu modeli OpenRouter'ın barındırmalı sağlayıcılarından biri üzerinden kullanıp token başına ödeme yapmak en iyi kullanım şekli olabilir
Bu yıl çıkan neredeyse tüm open-weight modellerin Sonnet'e eşit ya da ondan iyi olduğu söylendi ama benchmarklarda açıkça önde olsalar bile pratikte henüz bunu hissetmedim
Claude Pilled ifadesi hoşuma gitti
Benchmarklar F8_E4M3 temelinde ve bunu hiçbir Mac'te çalıştıramazsınız
Sonnet'in 1M token context'i var ama bu model 256k ile geliyor ve yerelde bunun bile düzgün kullanılabilmesi pek olası değil
Sonnet ağ üzerinden bile hızlıyken bu model çok daha yavaş olacaktır
Çin dışındaki open source modellerin en az bir nesil geriden geliyor gibi görünmesi üzücü
Mistral'ı her zaman destekliyorum. Model ve ülke çeşitliliği önemli
Bu model üzerine bir şeyler inşa etmek için iyi, sağlam bir temel gibi görünüyor; umarım 3.6/3.7'de daha fazla iyileştirme gelir. Computer use benchmarklarına bakınca vision pipeline tarafında gelişim alanı var gibi ama bu sadece bir tahmin
Bazı benchmark sonuçlarının farklı çıkması, bunun frontier log'larından çekilmiş değil de gerçekten bağımsız eğitilmiş bir model olduğu hissini veriyor. Bu da çok önemli
Belirli bir model içinde farklı bir weight architecture bulunması, küresel sistem mimarisi açısından başlı başına bir avantaj gibi görünüyor
Mistral'ın düzenli olarak güvenilir modeller çıkarması piyasa için iyi
Alıcıların fiyat ve dağıtım konusunda pazarlık gücü kazanması için iki şirketten birini seçmek zorunda olunan yapının aşılması gerekiyor
Denediğim diğer barındırmalı LLM'lerle kıyaslayınca, sadece Mistral oldukça sıkı CSP header'ları kullanıyor gibi görünüyor
JavaScript kütüphaneleri içeren bir web sitesi yapmasını istediğinizde, Le Chat'te canvas mode olsa bile preview çalışmıyor
Yeni bir sürüm çıktığında bazen web'de biraz test etmek istiyorum ama para ödemeden ya da agent harness kullanmadan bunu yapmak zor
SVG çizmekte gerçekten kötü https://chat.mistral.ai/chat/23214adb-5530-4af9-bb47-90f5219...
Vibe'da MCP server yapılandırması için yardım istemiştim; MCP'nin MineCraft Protocol olduğunu kendinden emin şekilde açıklayıp bilgisayarda Minecraft binary'sini aramaya başlamıştı
Bunu bütün modeller yapamıyor, bazıları sadece daha komik şekilde başarısız oluyor
mistral-medium-2508'i metin dönüştürme işlerinde kullanıyorum ve benim kullanımımda mistral-large'dan daha iyi sonuç veriyor
Yeni modeli de denemek istiyorum ama çok daha pahalı ve coding/agentic model olarak sunuluyor; bu yüzden önceki medium modelin yerine mi geçecek pek emin değilim
mistral-medium-2508'de 1M token başına fiyat $0.4/$2 idi, mistral-medium-3.5 ise $1.5/$7.5
Sonnet'e neredeyse eşdeğer sonuçlar veriyor ama %90 daha ucuz. Coding için asla kullanmam ama bu metin analizi işi için çok iyiydi. En yeni Çin modellerinden bile çok daha iyiydi
Bu yüzden bu sürümü bekliyordum ama en güncel Mistral Large'dan 5 kat daha pahalı. Ucuz Large sürümünü yeni sürüme geçiş sırasında sonlandırmalarından endişe ediyorum
Bu modelin sorunu, DeepSeek v4 Flash'ın 2 bit quantization ile oldukça iyi çalışması https://github.com/antirez/llama.cpp-deepseek-v4-flash
M3 Ultra'da 30 t/s üretim, 400 t/s prefill veriyor ve 128GB MacBook Pro M3 Max'te de çok daha yavaş değil
opencode/pi ile birlikte iyi bir coding agent oluyor ve tool calling de çok stabil. Bu hız, 120B dense bir modelin asla ulaşamayacağı bir seviye
Bu yüzden sadece aynı boyuttaki 4 bit quantized modellerle değil, 86GB GGUF dosyası olan DeepSeek v4 Flash ile de rekabet etmek zorunda; yerel çıkarımın pratik tarafında kazanması kolay değil
Henüz commit etmediğim hız iyileştirmeleri de var, yakında push edeceğim. Mevcut tree biraz yavaş olabilir ama hâlâ gayet kullanılabilir
Avrupa'da olduğum için Mistral hayranıyım ama anlamadığım bir nokta var. Mistral Mixtral ile open-weight MoE akımını başlatmıştı; şimdi neden oldukça büyük bir dense model çıkardığını anlamıyorum
Bu yaklaşımla ne yerel çıkarımda ne de uzaktan çıkarımda güvenilir biçimde rekabet etmek kolay. Çünkü model SOTA'dan uzak ve serving maliyeti de ucuz değil
Dense modellerin, Qwen 3.6 27B gibi onlarca milyar parametre seviyesinde yeri var ama bunun 5 katına çıkıldığında, aynı VRAM'i isteyen diğer modelleri yetenek bakımından ezip geçmiyorsa mantıklı görünmüyor
Bunun agentic workflow'ta nasıl çalıştığıyla neredeyse hiçbir ilgisi yok. Q2 quantization'da kalitenin ciddi şekilde düştüğünü zaten biliyoruz
Eğer bu quantized Flash daha büyük context uzunluklarında da uygun kalite ve performansı koruyabiliyorsa, V4 serisinin çekirdek özellikleri gibi görünen kısımları da koruyarak Qwen 3 Coder-Next 80B gibi aynı weight class modeller için oldukça makul bir rakip olabilir
Bu Mistral sürümü, frontier laboratuvarlarla diğer oyuncular arasındaki farkı yeniden hissettiriyor
Agent öncesi dönemde modeller arasındaki fark her zaman bu kadar net değildi ve her modelin kendine has bir çekiciliği vardı
Artık frontier modellerden daha kötü bir şeyi kullanmak istemiyorum. Yetenek farkı çok büyük ve daha zayıf bir model seçmenin üretkenlikte gerçek bir maliyeti var
Mistral'ı, özellikle de Cohere'i seven biri oldum ama iki şirketin de sürümleri için heyecan duymayalı epey oldu
Yine de mistral voxtral realtime'ı her gün kullanıyorum ve harika
2 yıl önceyi söylemeye bile gerek yok
Ama Claude Code, Codex'ten belirgin biçimde daha iyi ve Codex de Gemini-cli'den açıkça daha iyi
Bu bağlamda Claude Code'un agentic coding'de non-frontier modellerden çok daha iyi olması şaşırtıcı değil. Hatta uzmanlaşmış agentic görevlerde diğer frontier modellerden de oldukça iyi
Karmaşık coding işleri dahil çoğu görevde frontier modellerle GPT-4.1 gibi modeller arasındaki farkı ayırt etmek neredeyse imkânsız
Farkı görmek için context window, tool calling ya da reasoning step'in belirli yönleri gibi alanlara gerçekten odaklanmak gerekiyor
Üstelik frontier modeller sonuç üretmek için brute force yaklaşımına daha fazla başvuruyor ve bu da çalıştırma maliyetini ciddi biçimde artırıyor. Sadece faturaya yansıyan maliyet değil, herhangi bir çıktı gelene kadar bekleme süresi de uzuyor
Yerel modeller konusuna hiç girmeyeceğim bile
Mistral burada uzun vadeli oynuyor gibi görünüyor. Daha küçük modeller, daha düşük maliyet ve genel olarak yeterince iyi performans
Fena değil ama özel de değil. Yine de ne ABD ne de Çin kaynaklı olmayan bir model haberi hâlâ iyi haber
Artık 128B'nin Medium sayılması komik
Eskiden GPT-2'de 355M parametre medium sayılıyordu
Belki de bu değerlendirme doğruydu