Mistral Medium 3.5 duyuruldu

(mistral.ai)

2 puan yazan GN⁺ 2026-04-30 | 1 yorum | WhatsApp'ta paylaş

128B Dense model olarak, komut yürütme, akıl yürütme ve kodlamayı tek bir ağırlıkta birleştiriyor ve 256k context window desteği sunuyor
İstek bazında çıkarım eforu ayarlanabildiği için basit sohbetlerden karmaşık agentic görevlere kadar tek bir modelle yanıt verebiliyor
SWE-Bench Verified %77,6, τ³-Telecom 91,4 puan ile Devstral 2 ve Qwen3.5 397B A17B'yi geride bırakıyor
Vision encoder yeniden eğitildi; böylece değişken görüntü boyutları ve en-boy oranları işlenebiliyor
Vibe uzak ajanı ile kodlama oturumları bulutta asenkron olarak çalıştırılıyor; birden fazla oturum paralel yürütülebiliyor ve tamamlandığında bildirim alınabiliyor
CLI veya Le Chat üzerinden başlatılabiliyor; yerel bir oturum buluta teleport edildiğinde geçmiş, durum ve onay kayıtları aynen taşınıyor
Her oturum izole bir sandbox içinde çalışıyor ve tamamlandığında otomatik olarak GitHub PR oluşturuluyor
GitHub, Linear, Jira, Sentry, Slack, Teams gibi mevcut geliştirme araçlarıyla entegre oluyor
Modül refactoring'i, test oluşturma, bağımlılık yükseltme, CI inceleme, bug düzeltme gibi tekrarlayan ve iyi tanımlanmış işler için uygun
Le Chat'in Work modu (önizleme), e-posta, takvim, mesajlar gibi birden fazla aracı aynı anda kullanarak çok adımlı işleri tamamlanana kadar otomatik yürütüyor
- Connector'ler varsayılan olarak etkin, tüm araç çağrıları ve düşünme gerekçesi gösteriliyor, hassas işler için açık onay isteniyor
API fiyatı, giriş için milyon token başına 1,5 dolar, çıkış için milyon token başına 7,5 dolar
Açık ağırlıklar değiştirilmiş MIT lisansıyla yayımlandı; en az 4 GPU ile self-hosting mümkün

1 yorum

GN⁺ 2026-04-30

Hacker News görüşleri

Yorumlarda herkesin neye baktığını anlamıyorum. Bu model diğer modelleri geçemiyor olabilir ama boyutuna göre rekabetçi olduğu kesin
GLM 5.1 harika ama Q4'te bile yaklaşık 400GB gerekiyor, Kimi K2.5 de iyi ama Q4 quantization ölçütüyle neredeyse 600GB istiyor
Bu model Q4'te 70GB VRAM ile çalışabiliyor, yani tüketici tarafına daha da yaklaşıyor. 128GB RAM'li bir Mac Studio'yu yaklaşık 3500 dolara almak mümkün
Claude'a takılmış olanlar sadece Opus mu kullanıyor bilmiyorum ama Pro planda Sonnet de zaten çok yetenekliydi. Bu model yerelde çalışıp en güncel Sonnet'i geçiyor ve repoda HERMES.md var diye ek ücret kesmiyor ya da hesabı keyfi biçimde kilitlemiyor
Mistral hiçbir zaman frontier seviyesinde rekabetçi olmadı ama belki de Mistral'dan beklememiz gereken rol bu değildir. Maliyet/boyutun %20'siyle frontier'ın %80'ini veren bir Pareto modeli olması bile yeterince iyi görünüyor
- Yerel LLM'lerle ilgilenen biri, modeli “çalıştırabilmek” ile “hızlı çalıştırabilmek” arasının tamamen farklı ölçütler olduğunu bilir
  Böyle bir modeli 128GB Mac'te çalıştırabilirsiniz ama önce Q4'ün kaliteyi yeterince koruyup korumadığına bakmak gerekir. Her modelin quantization hassasiyeti farklıdır ve gerçek hız da önemlidir
  Asenkron işler ya da arka plan işleri için prompt işleme ve token üretim hızı daha az önemli olabilir, ama birçok Mac Studio alıcısı bunun buluttaki gerçek donanımda barındırılan modeller kadar iyi yanıt vermediğini zor yoldan öğrendi
  On-premise işleme ihtiyacı güçlü olmayan çoğu kişi için bu modeli OpenRouter'ın barındırmalı sağlayıcılarından biri üzerinden kullanıp token başına ödeme yapmak en iyi kullanım şekli olabilir
  Bu yıl çıkan neredeyse tüm open-weight modellerin Sonnet'e eşit ya da ondan iyi olduğu söylendi ama benchmarklarda açıkça önde olsalar bile pratikte henüz bunu hissetmedim
- HERMES.md'yi bilmiyordum, merak edenler bilgiye burada ulaşabilir https://github.com/anthropics/claude-code/issues/53262
- Şubattan önce Max planda Opus High'ı sorunsuz şekilde sürekli kullanabiliyordum, şimdi ise sadece Sonnet High kullanıyorum ve oldukça yetenekli
  Claude Pilled ifadesi hoşuma gitti
- “Yerelde çalışıp en güncel Sonnet'i geçiyor” demek doğru değil
  Benchmarklar F8_E4M3 temelinde ve bunu hiçbir Mac'te çalıştıramazsınız
  Sonnet'in 1M token context'i var ama bu model 256k ile geliyor ve yerelde bunun bile düzgün kullanılabilmesi pek olası değil
  Sonnet ağ üzerinden bile hızlıyken bu model çok daha yavaş olacaktır
- Qwen 35B A3B MoE de unutulmamalı. Bu modelden her ölçütte daha iyi performans veriyor ama bellek/hesaplama maliyeti çok daha düşük
  Çin dışındaki open source modellerin en az bir nesil geriden geliyor gibi görünmesi üzücü
Mistral'ı her zaman destekliyorum. Model ve ülke çeşitliliği önemli
Bu model üzerine bir şeyler inşa etmek için iyi, sağlam bir temel gibi görünüyor; umarım 3.6/3.7'de daha fazla iyileştirme gelir. Computer use benchmarklarına bakınca vision pipeline tarafında gelişim alanı var gibi ama bu sadece bir tahmin
Bazı benchmark sonuçlarının farklı çıkması, bunun frontier log'larından çekilmiş değil de gerçekten bağımsız eğitilmiş bir model olduğu hissini veriyor. Bu da çok önemli
Belirli bir model içinde farklı bir weight architecture bulunması, küresel sistem mimarisi açısından başlı başına bir avantaj gibi görünüyor
Mistral'ın düzenli olarak güvenilir modeller çıkarması piyasa için iyi
Alıcıların fiyat ve dağıtım konusunda pazarlık gücü kazanması için iki şirketten birini seçmek zorunda olunan yapının aşılması gerekiyor
Denediğim diğer barındırmalı LLM'lerle kıyaslayınca, sadece Mistral oldukça sıkı CSP header'ları kullanıyor gibi görünüyor
JavaScript kütüphaneleri içeren bir web sitesi yapmasını istediğinizde, Le Chat'te canvas mode olsa bile preview çalışmıyor
Yeni bir sürüm çıktığında bazen web'de biraz test etmek istiyorum ama para ödemeden ya da agent harness kullanmadan bunu yapmak zor
SVG çizmekte gerçekten kötü https://chat.mistral.ai/chat/23214adb-5530-4af9-bb47-90f5219...
- SVG en iyi benchmark olmayabilir ama bu, eski Mistral modellerini Mistral Vibe'da kullanma deneyimimle örtüşüyor
  Vibe'da MCP server yapılandırması için yardım istemiştim; MCP'nin MineCraft Protocol olduğunu kendinden emin şekilde açıklayıp bilgisayarda Minecraft binary'sini aramaya başlamıştı
- Bir LLM'den SVG çizmesini hiç istemedim, buna ihtiyaç duymadım ya da bunu beklemedim
  Bunu bütün modeller yapamıyor, bazıları sadece daha komik şekilde başarısız oluyor
mistral-medium-2508'i metin dönüştürme işlerinde kullanıyorum ve benim kullanımımda mistral-large'dan daha iyi sonuç veriyor
Yeni modeli de denemek istiyorum ama çok daha pahalı ve coding/agentic model olarak sunuluyor; bu yüzden önceki medium modelin yerine mi geçecek pek emin değilim
mistral-medium-2508'de 1M token başına fiyat $0.4/$2 idi, mistral-medium-3.5 ise $1.5/$7.5
- Prodüksiyonda büyük metin bloklarını işlemek için Mistral Large kullanıyorum
  Sonnet'e neredeyse eşdeğer sonuçlar veriyor ama %90 daha ucuz. Coding için asla kullanmam ama bu metin analizi işi için çok iyiydi. En yeni Çin modellerinden bile çok daha iyiydi
  Bu yüzden bu sürümü bekliyordum ama en güncel Mistral Large'dan 5 kat daha pahalı. Ucuz Large sürümünü yeni sürüme geçiş sırasında sonlandırmalarından endişe ediyorum
Bu modelin sorunu, DeepSeek v4 Flash'ın 2 bit quantization ile oldukça iyi çalışması https://github.com/antirez/llama.cpp-deepseek-v4-flash
M3 Ultra'da 30 t/s üretim, 400 t/s prefill veriyor ve 128GB MacBook Pro M3 Max'te de çok daha yavaş değil
opencode/pi ile birlikte iyi bir coding agent oluyor ve tool calling de çok stabil. Bu hız, 120B dense bir modelin asla ulaşamayacağı bir seviye
Bu yüzden sadece aynı boyuttaki 4 bit quantized modellerle değil, 86GB GGUF dosyası olan DeepSeek v4 Flash ile de rekabet etmek zorunda; yerel çıkarımın pratik tarafında kazanması kolay değil
Henüz commit etmediğim hız iyileştirmeleri de var, yakında push edeceğim. Mevcut tree biraz yavaş olabilir ama hâlâ gayet kullanılabilir
Avrupa'da olduğum için Mistral hayranıyım ama anlamadığım bir nokta var. Mistral Mixtral ile open-weight MoE akımını başlatmıştı; şimdi neden oldukça büyük bir dense model çıkardığını anlamıyorum
Bu yaklaşımla ne yerel çıkarımda ne de uzaktan çıkarımda güvenilir biçimde rekabet etmek kolay. Çünkü model SOTA'dan uzak ve serving maliyeti de ucuz değil
Dense modellerin, Qwen 3.6 27B gibi onlarca milyar parametre seviyesinde yeri var ama bunun 5 katına çıkıldığında, aynı VRAM'i isteyen diğer modelleri yetenek bakımından ezip geçmiyorsa mantıklı görünmüyor
- GitHub bağlantısında sadece “bu yöntemle quantize edilen model sohbette çok iyi çalışıyor ve frontier-model vibes veriyor ama kapsamlı şekilde test edilmedi” deniyor
  Bunun agentic workflow'ta nasıl çalıştığıyla neredeyse hiçbir ilgisi yok. Q2 quantization'da kalitenin ciddi şekilde düştüğünü zaten biliyoruz
  Eğer bu quantized Flash daha büyük context uzunluklarında da uygun kalite ve performansı koruyabiliyorsa, V4 serisinin çekirdek özellikleri gibi görünen kısımları da koruyarak Qwen 3 Coder-Next 80B gibi aynı weight class modeller için oldukça makul bir rakip olabilir
Bu Mistral sürümü, frontier laboratuvarlarla diğer oyuncular arasındaki farkı yeniden hissettiriyor
Agent öncesi dönemde modeller arasındaki fark her zaman bu kadar net değildi ve her modelin kendine has bir çekiciliği vardı
Artık frontier modellerden daha kötü bir şeyi kullanmak istemiyorum. Yetenek farkı çok büyük ve daha zayıf bir model seçmenin üretkenlikte gerçek bir maliyeti var
Mistral'ı, özellikle de Cohere'i seven biri oldum ama iki şirketin de sürümleri için heyecan duymayalı epey oldu
Yine de mistral voxtral realtime'ı her gün kullanıyorum ve harika
- Hiç katılmıyorum. Daha sadece 1 yıl önce frontier modellerle non-frontier modeller arasındaki üretkenlik farkı çok daha büyüktü
  2 yıl önceyi söylemeye bile gerek yok
- Non-agentic işlerde Gemini, ChatGPT ve Claude arasında genel olarak net bir kazanan yok. Basit chatbot arayüzü açısından apples to oranges durumu var
  Ama Claude Code, Codex'ten belirgin biçimde daha iyi ve Codex de Gemini-cli'den açıkça daha iyi
  Bu bağlamda Claude Code'un agentic coding'de non-frontier modellerden çok daha iyi olması şaşırtıcı değil. Hatta uzmanlaşmış agentic görevlerde diğer frontier modellerden de oldukça iyi
- Frontier modellerden daha kötü bir şeyi kullanmak istememek oldukça safça ve yanlış bir yargı
  Karmaşık coding işleri dahil çoğu görevde frontier modellerle GPT-4.1 gibi modeller arasındaki farkı ayırt etmek neredeyse imkânsız
  Farkı görmek için context window, tool calling ya da reasoning step'in belirli yönleri gibi alanlara gerçekten odaklanmak gerekiyor
  Üstelik frontier modeller sonuç üretmek için brute force yaklaşımına daha fazla başvuruyor ve bu da çalıştırma maliyetini ciddi biçimde artırıyor. Sadece faturaya yansıyan maliyet değil, herhangi bir çıktı gelene kadar bekleme süresi de uzuyor
  Yerel modeller konusuna hiç girmeyeceğim bile
Mistral burada uzun vadeli oynuyor gibi görünüyor. Daha küçük modeller, daha düşük maliyet ve genel olarak yeterince iyi performans
Fena değil ama özel de değil. Yine de ne ABD ne de Çin kaynaklı olmayan bir model haberi hâlâ iyi haber
- Sanırım Avrupa için çıta bu
Artık 128B'nin Medium sayılması komik
Eskiden GPT-2'de 355M parametre medium sayılıyordu
- GPT-2 1.5B, yayımlanamayacak kadar tehlikeli kabul ediliyordu
  Belki de bu değerlendirme doğruydu

Mistral Medium 3.5 duyuruldu

İlgili okumalar

1 yorum

Hacker News görüşleri