2 puan yazan GN⁺ 2026-04-30 | 1 yorum | WhatsApp'ta paylaş
  • 128B Dense model olarak, komut yürütme, akıl yürütme ve kodlamayı tek bir ağırlıkta birleştiriyor ve 256k context window desteği sunuyor
  • İstek bazında çıkarım eforu ayarlanabildiği için basit sohbetlerden karmaşık agentic görevlere kadar tek bir modelle yanıt verebiliyor
  • SWE-Bench Verified %77,6, τ³-Telecom 91,4 puan ile Devstral 2 ve Qwen3.5 397B A17B'yi geride bırakıyor
  • Vision encoder yeniden eğitildi; böylece değişken görüntü boyutları ve en-boy oranları işlenebiliyor
  • Vibe uzak ajanı ile kodlama oturumları bulutta asenkron olarak çalıştırılıyor; birden fazla oturum paralel yürütülebiliyor ve tamamlandığında bildirim alınabiliyor
  • CLI veya Le Chat üzerinden başlatılabiliyor; yerel bir oturum buluta teleport edildiğinde geçmiş, durum ve onay kayıtları aynen taşınıyor
  • Her oturum izole bir sandbox içinde çalışıyor ve tamamlandığında otomatik olarak GitHub PR oluşturuluyor
  • GitHub, Linear, Jira, Sentry, Slack, Teams gibi mevcut geliştirme araçlarıyla entegre oluyor
  • Modül refactoring'i, test oluşturma, bağımlılık yükseltme, CI inceleme, bug düzeltme gibi tekrarlayan ve iyi tanımlanmış işler için uygun
  • Le Chat'in Work modu (önizleme), e-posta, takvim, mesajlar gibi birden fazla aracı aynı anda kullanarak çok adımlı işleri tamamlanana kadar otomatik yürütüyor
    • Connector'ler varsayılan olarak etkin, tüm araç çağrıları ve düşünme gerekçesi gösteriliyor, hassas işler için açık onay isteniyor
  • API fiyatı, giriş için milyon token başına 1,5 dolar, çıkış için milyon token başına 7,5 dolar
  • Açık ağırlıklar değiştirilmiş MIT lisansıyla yayımlandı; en az 4 GPU ile self-hosting mümkün

1 yorum

 
GN⁺ 2026-04-30
Hacker News görüşleri
  • Yorumlarda herkesin neye baktığını anlamıyorum. Bu model diğer modelleri geçemiyor olabilir ama boyutuna göre rekabetçi olduğu kesin
    GLM 5.1 harika ama Q4'te bile yaklaşık 400GB gerekiyor, Kimi K2.5 de iyi ama Q4 quantization ölçütüyle neredeyse 600GB istiyor
    Bu model Q4'te 70GB VRAM ile çalışabiliyor, yani tüketici tarafına daha da yaklaşıyor. 128GB RAM'li bir Mac Studio'yu yaklaşık 3500 dolara almak mümkün
    Claude'a takılmış olanlar sadece Opus mu kullanıyor bilmiyorum ama Pro planda Sonnet de zaten çok yetenekliydi. Bu model yerelde çalışıp en güncel Sonnet'i geçiyor ve repoda HERMES.md var diye ek ücret kesmiyor ya da hesabı keyfi biçimde kilitlemiyor
    Mistral hiçbir zaman frontier seviyesinde rekabetçi olmadı ama belki de Mistral'dan beklememiz gereken rol bu değildir. Maliyet/boyutun %20'siyle frontier'ın %80'ini veren bir Pareto modeli olması bile yeterince iyi görünüyor

    • Yerel LLM'lerle ilgilenen biri, modeli “çalıştırabilmek” ile “hızlı çalıştırabilmek” arasının tamamen farklı ölçütler olduğunu bilir
      Böyle bir modeli 128GB Mac'te çalıştırabilirsiniz ama önce Q4'ün kaliteyi yeterince koruyup korumadığına bakmak gerekir. Her modelin quantization hassasiyeti farklıdır ve gerçek hız da önemlidir
      Asenkron işler ya da arka plan işleri için prompt işleme ve token üretim hızı daha az önemli olabilir, ama birçok Mac Studio alıcısı bunun buluttaki gerçek donanımda barındırılan modeller kadar iyi yanıt vermediğini zor yoldan öğrendi
      On-premise işleme ihtiyacı güçlü olmayan çoğu kişi için bu modeli OpenRouter'ın barındırmalı sağlayıcılarından biri üzerinden kullanıp token başına ödeme yapmak en iyi kullanım şekli olabilir
      Bu yıl çıkan neredeyse tüm open-weight modellerin Sonnet'e eşit ya da ondan iyi olduğu söylendi ama benchmarklarda açıkça önde olsalar bile pratikte henüz bunu hissetmedim
    • HERMES.md'yi bilmiyordum, merak edenler bilgiye burada ulaşabilir https://github.com/anthropics/claude-code/issues/53262
    • Şubattan önce Max planda Opus High'ı sorunsuz şekilde sürekli kullanabiliyordum, şimdi ise sadece Sonnet High kullanıyorum ve oldukça yetenekli
      Claude Pilled ifadesi hoşuma gitti
    • “Yerelde çalışıp en güncel Sonnet'i geçiyor” demek doğru değil
      Benchmarklar F8_E4M3 temelinde ve bunu hiçbir Mac'te çalıştıramazsınız
      Sonnet'in 1M token context'i var ama bu model 256k ile geliyor ve yerelde bunun bile düzgün kullanılabilmesi pek olası değil
      Sonnet ağ üzerinden bile hızlıyken bu model çok daha yavaş olacaktır
    • Qwen 35B A3B MoE de unutulmamalı. Bu modelden her ölçütte daha iyi performans veriyor ama bellek/hesaplama maliyeti çok daha düşük
      Çin dışındaki open source modellerin en az bir nesil geriden geliyor gibi görünmesi üzücü
  • Mistral'ı her zaman destekliyorum. Model ve ülke çeşitliliği önemli
    Bu model üzerine bir şeyler inşa etmek için iyi, sağlam bir temel gibi görünüyor; umarım 3.6/3.7'de daha fazla iyileştirme gelir. Computer use benchmarklarına bakınca vision pipeline tarafında gelişim alanı var gibi ama bu sadece bir tahmin
    Bazı benchmark sonuçlarının farklı çıkması, bunun frontier log'larından çekilmiş değil de gerçekten bağımsız eğitilmiş bir model olduğu hissini veriyor. Bu da çok önemli
    Belirli bir model içinde farklı bir weight architecture bulunması, küresel sistem mimarisi açısından başlı başına bir avantaj gibi görünüyor

  • Mistral'ın düzenli olarak güvenilir modeller çıkarması piyasa için iyi
    Alıcıların fiyat ve dağıtım konusunda pazarlık gücü kazanması için iki şirketten birini seçmek zorunda olunan yapının aşılması gerekiyor

  • Denediğim diğer barındırmalı LLM'lerle kıyaslayınca, sadece Mistral oldukça sıkı CSP header'ları kullanıyor gibi görünüyor
    JavaScript kütüphaneleri içeren bir web sitesi yapmasını istediğinizde, Le Chat'te canvas mode olsa bile preview çalışmıyor
    Yeni bir sürüm çıktığında bazen web'de biraz test etmek istiyorum ama para ödemeden ya da agent harness kullanmadan bunu yapmak zor
    SVG çizmekte gerçekten kötü https://chat.mistral.ai/chat/23214adb-5530-4af9-bb47-90f5219...

    • SVG en iyi benchmark olmayabilir ama bu, eski Mistral modellerini Mistral Vibe'da kullanma deneyimimle örtüşüyor
      Vibe'da MCP server yapılandırması için yardım istemiştim; MCP'nin MineCraft Protocol olduğunu kendinden emin şekilde açıklayıp bilgisayarda Minecraft binary'sini aramaya başlamıştı
    • Bir LLM'den SVG çizmesini hiç istemedim, buna ihtiyaç duymadım ya da bunu beklemedim
      Bunu bütün modeller yapamıyor, bazıları sadece daha komik şekilde başarısız oluyor
  • mistral-medium-2508'i metin dönüştürme işlerinde kullanıyorum ve benim kullanımımda mistral-large'dan daha iyi sonuç veriyor
    Yeni modeli de denemek istiyorum ama çok daha pahalı ve coding/agentic model olarak sunuluyor; bu yüzden önceki medium modelin yerine mi geçecek pek emin değilim
    mistral-medium-2508'de 1M token başına fiyat $0.4/$2 idi, mistral-medium-3.5 ise $1.5/$7.5

    • Prodüksiyonda büyük metin bloklarını işlemek için Mistral Large kullanıyorum
      Sonnet'e neredeyse eşdeğer sonuçlar veriyor ama %90 daha ucuz. Coding için asla kullanmam ama bu metin analizi işi için çok iyiydi. En yeni Çin modellerinden bile çok daha iyiydi
      Bu yüzden bu sürümü bekliyordum ama en güncel Mistral Large'dan 5 kat daha pahalı. Ucuz Large sürümünü yeni sürüme geçiş sırasında sonlandırmalarından endişe ediyorum
  • Bu modelin sorunu, DeepSeek v4 Flash'ın 2 bit quantization ile oldukça iyi çalışması https://github.com/antirez/llama.cpp-deepseek-v4-flash
    M3 Ultra'da 30 t/s üretim, 400 t/s prefill veriyor ve 128GB MacBook Pro M3 Max'te de çok daha yavaş değil
    opencode/pi ile birlikte iyi bir coding agent oluyor ve tool calling de çok stabil. Bu hız, 120B dense bir modelin asla ulaşamayacağı bir seviye
    Bu yüzden sadece aynı boyuttaki 4 bit quantized modellerle değil, 86GB GGUF dosyası olan DeepSeek v4 Flash ile de rekabet etmek zorunda; yerel çıkarımın pratik tarafında kazanması kolay değil
    Henüz commit etmediğim hız iyileştirmeleri de var, yakında push edeceğim. Mevcut tree biraz yavaş olabilir ama hâlâ gayet kullanılabilir
    Avrupa'da olduğum için Mistral hayranıyım ama anlamadığım bir nokta var. Mistral Mixtral ile open-weight MoE akımını başlatmıştı; şimdi neden oldukça büyük bir dense model çıkardığını anlamıyorum
    Bu yaklaşımla ne yerel çıkarımda ne de uzaktan çıkarımda güvenilir biçimde rekabet etmek kolay. Çünkü model SOTA'dan uzak ve serving maliyeti de ucuz değil
    Dense modellerin, Qwen 3.6 27B gibi onlarca milyar parametre seviyesinde yeri var ama bunun 5 katına çıkıldığında, aynı VRAM'i isteyen diğer modelleri yetenek bakımından ezip geçmiyorsa mantıklı görünmüyor

    • GitHub bağlantısında sadece “bu yöntemle quantize edilen model sohbette çok iyi çalışıyor ve frontier-model vibes veriyor ama kapsamlı şekilde test edilmedi” deniyor
      Bunun agentic workflow'ta nasıl çalıştığıyla neredeyse hiçbir ilgisi yok. Q2 quantization'da kalitenin ciddi şekilde düştüğünü zaten biliyoruz
      Eğer bu quantized Flash daha büyük context uzunluklarında da uygun kalite ve performansı koruyabiliyorsa, V4 serisinin çekirdek özellikleri gibi görünen kısımları da koruyarak Qwen 3 Coder-Next 80B gibi aynı weight class modeller için oldukça makul bir rakip olabilir
  • Bu Mistral sürümü, frontier laboratuvarlarla diğer oyuncular arasındaki farkı yeniden hissettiriyor
    Agent öncesi dönemde modeller arasındaki fark her zaman bu kadar net değildi ve her modelin kendine has bir çekiciliği vardı
    Artık frontier modellerden daha kötü bir şeyi kullanmak istemiyorum. Yetenek farkı çok büyük ve daha zayıf bir model seçmenin üretkenlikte gerçek bir maliyeti var
    Mistral'ı, özellikle de Cohere'i seven biri oldum ama iki şirketin de sürümleri için heyecan duymayalı epey oldu
    Yine de mistral voxtral realtime'ı her gün kullanıyorum ve harika

    • Hiç katılmıyorum. Daha sadece 1 yıl önce frontier modellerle non-frontier modeller arasındaki üretkenlik farkı çok daha büyüktü
      2 yıl önceyi söylemeye bile gerek yok
    • Non-agentic işlerde Gemini, ChatGPT ve Claude arasında genel olarak net bir kazanan yok. Basit chatbot arayüzü açısından apples to oranges durumu var
      Ama Claude Code, Codex'ten belirgin biçimde daha iyi ve Codex de Gemini-cli'den açıkça daha iyi
      Bu bağlamda Claude Code'un agentic coding'de non-frontier modellerden çok daha iyi olması şaşırtıcı değil. Hatta uzmanlaşmış agentic görevlerde diğer frontier modellerden de oldukça iyi
    • Frontier modellerden daha kötü bir şeyi kullanmak istememek oldukça safça ve yanlış bir yargı
      Karmaşık coding işleri dahil çoğu görevde frontier modellerle GPT-4.1 gibi modeller arasındaki farkı ayırt etmek neredeyse imkânsız
      Farkı görmek için context window, tool calling ya da reasoning step'in belirli yönleri gibi alanlara gerçekten odaklanmak gerekiyor
      Üstelik frontier modeller sonuç üretmek için brute force yaklaşımına daha fazla başvuruyor ve bu da çalıştırma maliyetini ciddi biçimde artırıyor. Sadece faturaya yansıyan maliyet değil, herhangi bir çıktı gelene kadar bekleme süresi de uzuyor
      Yerel modeller konusuna hiç girmeyeceğim bile
  • Mistral burada uzun vadeli oynuyor gibi görünüyor. Daha küçük modeller, daha düşük maliyet ve genel olarak yeterince iyi performans

  • Fena değil ama özel de değil. Yine de ne ABD ne de Çin kaynaklı olmayan bir model haberi hâlâ iyi haber

    • Sanırım Avrupa için çıta bu
  • Artık 128B'nin Medium sayılması komik
    Eskiden GPT-2'de 355M parametre medium sayılıyordu

    • GPT-2 1.5B, yayımlanamayacak kadar tehlikeli kabul ediliyordu
      Belki de bu değerlendirme doğruydu