3 puan yazan GN⁺ 2025-06-11 | 1 yorum | WhatsApp'ta paylaş
  • Magistral, Mistral AI'nin alan odaklı kullanım, şeffaflık ve çok dilli akıl yürütme için özelleştirilmiş ilk akıl yürütme (reasoning) modeli
  • Açık kaynak Magistral Small (24B parametre) ve kurumsal sürüm Magistral Medium olmak üzere iki versiyonla sunuldu
  • Düşünce zinciri (Chain of Thought) tabanlı çok dilli akıl yürütmeyi, adım adım mantıksal süreci kullanıcının dilinde şeffaf biçimde sunuyor
  • AIME2024'te Magistral Medium %73,6 (en yüksek %90), Small ise %70,7 (en yüksek %83,3) performans gösterdi
  • Hukuk, finans, sağlık gibi regülasyona tabi sektörler, veri mühendisliği, yazılım geliştirme ve yaratıcı içerik gibi farklı dil ve sektörlerde doğru adım adım mantık ilerleyişi ile 10 kat daha hızlı yanıt süresi sağlıyor

Magistral — Mistral AI'nin İlk Akıl Yürütme Modeli Duyuruldu

  • Magistral, gerçek dünya problem çözme becerisi ve geri bildirim temelli iyileştirme odağına sahip bir reasoning modeli
  • Magistral Small, 24B parametreli açık kaynak sürüm; Magistral Medium ise daha güçlü kurumsal sürüm olarak iki ayrı versiyonda sunuluyor
  • Performans göstergeleri:
    • Magistral Medium: AIME2024'te %73,6, çoğunluk oyu ölçütünde %90
    • Magistral Small: sırasıyla %70,7 ve %83,3
  • Küresel diller ve yazı sistemleri temelinde Chain of Thought muhakemesi uyguluyor; ana dil seviyesinde düşünce akışı sağlayabiliyor
  • Yapısal hesaplama, programlama mantığı, karar ağaçları, kural tabanlı sistemler gibi çok çeşitli görevler için uygun
  • Le Chat'in Think mode ve Flash Answers özellikleriyle yanıt hızını rakiplere kıyasla 10 kat artırıyor
  • Resmî makalede algoritmalar, eğitim altyapısı, pekiştirmeli öğrenme teknikleri ve eğitim içgörüleri genelinde değerlendirmelere yer veriliyor

Model ve teknik ayrıntılar

  • Şeffaf akıl yürütme süreci:
    • Magistral, çok adımlı mantık için optimize edildi; böylece kullanıcılar akıl yürütme sürecini kendi dillerinde görebiliyor ve izleyebiliyor
    • Genel amaçlı modellere kıyasla yorumlanabilirlik ve doğrulama yetenekleri güçlendirilmiş durumda
    • Sürekli model güncellemeleri ve hızlı iyileştirme hedefleniyor
  • Çok dilli akıl yürütme: İngilizce, Fransızca, İspanyolca, Almanca, İtalyanca, Arapça, Rusça, Çince ve diğer dillerde yüksek doğruluk ve mantıksal tutarlılık sağlıyor
  • Yanıt hızı:
    • Magistral Medium, Le Chat'in Flash Answers özelliği sayesinde rakiplere göre 10 kat daha yüksek token işleme hızıyla gerçek zamanlı akıl yürütme ve geri bildirim desteği sunuyor
    • ChatGPT gibi başlıca rakip modellere kıyasla hız tarafında üstünlüğünü gösteriyor

Açık kaynak ve topluluk katılımı

  • Magistral Small, Apache 2.0 lisansı ile yayımlandı
  • Kullanıcılar yapı ve akıl yürütme yaklaşımı üzerinde doğrudan analiz, değişiklik ve yeniden yapılandırma yapabiliyor
  • Önceki açık kaynak modeller, ether0 ve DeepHermes 3 gibi yenilikçi araştırma projelerinde kullanılmıştı

Geniş kapsamlı kullanım örnekleri

  • Magistral, hukuk, finans, yazılım geliştirme ve hikâye anlatımı gibi hassas adım adım akıl yürütme ve şeffaflığın önemli olduğu alanlar için optimize edildi
  • İş stratejisi ve operasyonlar

    • Stratejik planlama, risk değerlendirmesi, veri temelli karar alma ve karmaşık kısıtlar altında optimal çözüm hesaplama gibi görevleri yerine getirebiliyor
  • Regülasyona tabi sektörler ve kamu

    • Hukuk, finans, sağlık ve kamu uzmanları mantıksal akıl yürütme yolunu izleyebiliyor ve denetlenebilirlik sağlayabiliyor
    • Sonuçların denetlenebilirliği ve mevzuata uyum gereksinimlerini destekliyor
  • Sistemler, yazılım ve veri mühendisliği alanı

    • Akıl yürütmeyen LLM'lere kıyasla programlama, proje tasarımı, backend mimarisi ve veri mühendisliği desteğinin kalitesini artırıyor
    • Harici araçlar ve API entegrasyonları gibi çok adımlı işlerde etkili
  • İçerik üretimi ve iletişim

    • Magistral, yaratıcı yazarlık ve hikâye anlatımında da güçlü sonuçlar veriyor
    • Yalnızca tutarlı metin değil, özgün ve sıra dışı fikirler üretme yeteneği de sunuyor

Kullanım ve dağıtım yolları

  • Small sürümü indirildikten sonra self-hosted olarak dağıtılabiliyor
  • Medium sürümü Le Chat (web), API ve Amazon SageMaker üzerinden hemen kullanılabiliyor
  • Yakında IBM WatsonX, Azure AI ve Google Cloud Marketplace için de ek destek gelecek
  • Kuruma özel, on-premise dağıtım için ayrıca iletişime geçilebiliyor

1 yorum

 
GN⁺ 2025-06-11
Hacker News görüşleri
  • Magistral Small modelinin GGUF sürümünü HuggingFace üzerinde bizzat oluşturup yükleme deneyimini paylaşıyor. ollama run hf.co/unsloth/Magistral-Small-2506-GGUF:UD-Q4_K_XL komutuyla ollama'da çalıştırılabildiğini, llama.cpp tarafında ise --jinja, --temp 0.7, --top-p 0.95 gibi seçeneklerin mutlaka kullanılması gerektiğini özellikle belirtiyor. Ollama'nın bağlam uzunluğunu da 8192'nin üstüne çıkarmak tavsiye ediliyor; ek rehber de resmi dokümanda bulunabiliyor
    • DeepSeek ile ilgili benchmark karşılaştırmaları ilginç bulunuyor. Mevcut Magistral makalesi DeepSeek-V3 (Aralık 2023) ve DeepSeek-R1 (Ocak 2024) sürümleriyle kıyaslama yapıyor; ancak gerçekte daha adil karşılaştırma hedefinin en yeni DeepSeek-R1-0528 sürümü olduğu düşünülüyor. Örnek olarak, R1'in AIME 2024'te 79.8 puan alırken R1-0528'in 91.4'e çıktığı, AIME 2025'te de sırasıyla 70 ve 87.5 puan aldığı belirtiliyor. Güncel DeepSeek benchmark'ları buradan görülebilir
    • Magistral makalesinin(PDF) gerçekten etkileyici olduğu söyleniyor. Makale GRPO'yu ele alırken 1) KL Divergence'ın kaldırılması 2) toplam uzunlukla normalizasyon 3) advantage minibatch normalizasyonu 4) trust region'ın gevşetilmesi gibi çeşitli iyileştirmeler sunuyor
    • Yaş doğrulaması riskine rağmen, Unsloth modeline gerçekten "müthiş" denecek kadar övgü var. Modelin sürekli iyi çalıştığından duyulan memnuniyet ifade ediliyor; ayrıca llama.cpp içinde "jinja" yoksa varsayılan olarak ne kullanıldığını merak ediyor
    • Fazla düşünmemek gerektiği ima edilerek referans olarak gist bağlantısı paylaşılıyor
  • Yalnızca benchmark sonuçlarına bakılırsa Magistral Small ve Medium modellerinin, DeepSeek-R1'in en güncel sürümüne kıyasla tüm one-shot testlerde geride kaldığı görülüyor. Yazıda en yeni DeepSeek-R1'e hiç değinilmemesi ve maliyetin de 2 katın üzerinde olması, Avrupa'nın önde gelen yapay zeka şirketi olarak bilinen bir yerin bile mevcut teknoloji trendlerini yakalamakta zorlandığı şeklinde yorumlanıyor
    • İlk DeepSeek R1 çok az compute ile olağanüstü performans verdiği için, yeni R1'in tüm benchmark'larda o3 ve 2.5 Pro gibi modelleri ezip geçmemesinin şaşırtıcı olduğu belirtiliyor. Magistral Small (24B) AIME 2024'te %70.7 alırken, R1 distill (32B) %72.6 alıyor. Majority voting@64 ile Magistral Small %83.3'e kadar çıkıp tam R1'i bile geçiyor. Ayrıca 24B modelin sıradan gaming GPU'larda da çalışabilmesi, erişilebilirlik açısından büyük avantaj olarak anlatılıyor. İlgili Distill modeli bağlantısı da eklenmiş
    • Yapay zeka model rekabetinin bu kadar sert olduğu bir dönemde, en yeni modelden 6-12 ay geriden gelse bile astronomik maliyetlere çıkmayan bir tercih yapmanın mühendislik açısından yine de anlamlı olduğu düşünülüyor. Elbette pazar payı açısından sadece "en iyi"yi isteyen müşteri mantığı anlaşılır bulunuyor; ancak sürekli para kaybeden bir işte pazar payının ne kadar önemli olduğu sorgulanıyor
    • Mistral'ın yatırımcı yapısına bakıldığında pratikte Avrupa şirketi sayılamayacağı, ana sahipliğin ABD sermayesinde olduğu vurgulanıyor. Ayrıntılar yatırımcı bilgisi bağlantısında görülebilir
    • Rekabet gücü biraz düşük olsa bile, her bölgenin eğitimi kontrol edilebilen kendi modeline sahip olmasının stratejik olarak zorunlu olduğu görüşü var. Ancak teknoloji farkı fazla açılırsa, kullanıcı gözünde tamamen işe yaramaz sayılma riski bulunduğu da ekleniyor
    • Mistral'ın gerçekten tam anlamıyla "bağımsız" bir eğitim pipeline'ı kurmuş olmasına dikkat çekiliyor. DeepSeek gibi rakiplerin ise muhtemelen GPT-4, o1 vb. verilerle eğitildiği tahmin ediliyor
  • Ollama, API ve llm-mistral eklentisi üzerinden Magistral modelini doğrudan kullandığı notlarını kayıt bağlantısında derlemiş
    • Simon'a, "bisiklete binen iki pelikan" arasındaki fiili farkın ne olduğu soruluyor. Küçük sürümün yerelde, daha güçlü büyük sürümün ise API üzerinden çalıştırıldığı tahmin ediliyor
  • Mistral OCR modelinin yoğun biçimde tanıtıldığı dönemde 600 sayfalık bir PDF üzerinde OCR yapma zorunluluğu yaşamış gerçek kullanım deneyimi aktarılıyor. Tamamı monospaced metin olmasına rağmen OCR çıktısının %80'inin görsel sanıldığı ve neredeyse sadece boşluk üretildiği, bu haliyle tesseract'tan çok daha kötü olduğu söyleniyor. Bir ay sonra, berbat sonuca rağmen fatura ödeyip hesabı silme deneyimi yaşamış. Bu yeni ürünün öncekinden daha iyi olabileceği kabul edilse de, Mistral'ın aşırı pazarlaması yüzünden beklentinin düştüğü belirtiliyor
  • Benchmark örneklemesinin fazla dağınık ve sınırlı olması kafa karıştırıyor. Neden yalnızca Magistral Medium'un Deepseek V3, R1 ve Mistral Medium 3 ile karşılaştırıldığı; Magistral Small, Alibaba Qwen veya o3/o4 mini sürümlerinin neden dışarıda bırakıldığı anlaşılamıyor
  • Mantıksal akıl yürütme ve Vikipedi düzeyi genel kültür testi için Mistral AI'ya "São Paulo'dan Paris'e giden bir Brezilya vatandaşının Lizbon aktarmasında pasaport kontrolünden nerede geçeceği" sorulmuş. Mistral AI önce "sadece Paris'te" diye yanıt vermiş; Vikipedi maddesine bakması söylenince yanıtını "Lizbon'da" olarak düzeltmiş. Meta AI (Llama 4) ise hiçbirinde gerekmediğini söylemiş ve doğrulukta yetersiz kalmış. Diğer LLM'lerin ne diyeceği de merak ediliyor
    • Sorunun aslında bir tür hileli soru olduğu görüşü var. Gerçekte yalnızca Schengen'e giriş noktası olan Lizbon'da değil, Brezilya/Mercosur çıkış noktası olan São Paulo'da da kontrol gerektiğine dikkat çekiliyor
    • Gemini (2.5 Flash) tarafından verilen yanıt etkileyici bulunmuş. Ana akış şöyle: Brezilya vatandaşları 90 güne kadar Schengen vizesinden muaf. Lizbon'da giriş kontrolünden sonra Paris uçuşu Schengen içi iç hat sayıldığı için Paris'te ek kontrol olmuyor. 2026'da ETIAS elektronik seyahat izni sistemi planlanıyor, ancak bu ön izin niteliğinde ve kontrolün nerede yapılacağını etkilemiyor
    • Soruyu soran kişinin de cevaptan emin olmadığı, bu yüzden bu tarz testlerde LLM'lerin ne kadar ikna edici konuştuğunu karşılaştırmanın eğlenceli olduğu söyleniyor
    • Brezilya ile Portekiz arasında özel bir vize muafiyeti anlaşması olabileceği, dolayısıyla Llama 4'ün yanıtının da aslında doğru çıkabileceği ihtimali açık bırakılıyor
  • Qwen3'ün benchmark grafiğine dahil edilmesi isteniyor. Sadece Qwen3-4B bile Magistral-22B ile neredeyse başa baş performans gösterirken, Qwen3-30B-A3B çok daha üstün sonuçlar veriyor
    • 30-A3B modelinin gerçekten olağanüstü olduğu söyleniyor. Yerelde API maliyeti olmadan çalıştırıldığında, 1-2 yıl önceki kapalı modellere kıyasla bile daha iyi performans verdiği; özellikle programlama işlerinde gpt-4o'dan daha iyi bulunduğu belirtiliyor
    • Çeşitli modelleri benchmark etmek için otomatik bir site olup olmadığı soruluyor. Kendisinin yaptığı doğrudan testlerde de Qwen3-30B-A3B'nin benzer parametre ve bellek koşullarında hâlâ en iyi olduğu ifade ediliyor
    • Qwen3'ün şimdiye kadar değerlendirilen en etkileyici reasoning modeli olduğu düşünülüyor
    • Mistral için ise hep başka modellerin daha iyi olduğu ve bu yüzden pek işe yaramadığı değerlendirmesi yapılıyor. Yine de Avrupa çıkışlı olması nedeniyle ayrı bir anlam yüklendiği, performanstan bağımsız olarak Mistral adının konuşulmaya devam edeceği tahmin ediliyor
  • Etimolojiyle ilgili eğlenceli bir not var. "mistral" ile "magistral" kelimelerinin ikisi de "masterly" anlamına uzanıyor. mistral aslında Oksitanca kökenli ve bugün İngilizcede daha çok Akdeniz rüzgarını ifade etmek için kullanılıyor. magistral ise "magister" sözcüğünün sıfat hali. Benzer başka kelimeler bulunup alan adları alınırsa kazanç fırsatı bile çıkabileceği esprisi yapılıyor
  • Kaç tane daha open-weight reasoning modeli olduğu merak ediliyor. Birden fazla modeli aynı problem üzerinde eşzamanlı çalıştırma fikri düşünülüyor. Ayrıca Small modelin yayımlanıp Medium'un ücretli hizmet olarak tutulması da ilginç bulunuyor. Medium'un adeta zincir gibi birkaç Small çağrısını birbirine bağlayarak kullanılıp kullanılamayacağı da soruluyor
    • Qwen 3, DeepSeek R1 ve Phi-4 Reasoning'in şu anda en iyi open-weight reasoning modelleri olduğu düşünülüyor
    • Aslında pratikte yalnızca DeepSeek ailesinin bulunduğu, distill modeller sayesinde sıradan tüketici donanımında da çalıştırmanın mümkün olduğu belirtiliyor
  • Pazarlama metinlerinde en-dash kullanımının aşırı fazla oluşunun, model çıktılarının yazım stiline de yansıyıp yansımadığı merak ediliyor; öyleyse düzeltilmesi gerektiği söyleniyor
    • Örnek metinlerden birinde, Magistral'ın yaratıcı işler için mükemmel bir eşlikçi olduğu ve gerekirse “acayip derecede tuhaf” metinler de üretebildiği vurgulanıyor
    • 49 adet en-dash ve 59 adet virgül kullanıldığı, oranın dikkat çekici derecede yüksek olduğu sayısal olarak belirtiliyor
    • Bunun Mistral'ın pazarlama stiline özgü olduğu, gerçek model çıktılarında aynı oranda en-dash kullanımının gözlenmediği yorumu yapılıyor
    • LibreOffice'te - yazıp boşluk tuşuna basınca bunun sık sık en-dash'e dönüşmesi nedeniyle yanlış anlaşılmamak için özellikle düzelttiğini paylaşan bir deneyim aktarılıyor
    • Hukuk dünyasında ise en-dash'e özel bir sevgi besleniyormuş gibi şakalı bir yorum yapılıyor