5 puan yazan GN⁺ 2025-01-31 | 1 yorum | WhatsApp'ta paylaş
  • Mistral AI ekibi, 24B parametreli Mistral Small 3 modelini Apache 2.0 lisansıyla yayımladı.
  • Bu model, Llama 3.3 70B veya Qwen 32B gibi daha büyük modellerle rekabet edebiliyor ve GPT4o-mini gibi kapalı modeller için uygun bir alternatif oluşturuyor.
  • Mistral Small 3, daha az katman sayesinde işlem süresini kısaltan, yerel dağıtıma uygun bir boyutta tasarlandı.
  • MMLU'da %81'in üzerinde doğruluk gösteriyor ve 150 tokens/s gecikme değerine sahip.

Performans

İnsan değerlendirmesi

  • Harici bir değerlendirme şirketiyle birlikte 1.000'den fazla kodlama ve genel prompt seti değerlendirildi.
  • Mistral Small 3 ile diğer modellerin yanıtları karşılaştırılarak tercih ölçümü yapıldı.
  • Adil bir değerlendirme için özen gösterildi ve benchmark'ların geçerliliğine güvenildiği belirtildi.

Komut performansı

  • Komut ayarlı model, kendisinden üç kat daha büyük açık modeller ve GPT4o-mini ile rekabetçi performans gösteriyor.
  • Kod, matematik, genel bilgi ve komut yürütme benchmark'larında yüksek doğruluk kaydediyor.

Ön eğitim performansı

  • Mistral Small 3, 24B'lik bir model olarak boyutuna göre en iyi performansı sunuyor ve Llama 3.3 70B gibi kendisinden üç kat büyük modellerle rekabet ediyor.

Mistral Small 3 kullanım senaryoları

  • Hızlı yanıt veren etkileşimli destek: Hızlı ve doğru yanıtların kritik olduğu senaryolarda güçlü performans sunuyor.
  • Düşük gecikmeli function calling: Otomatikleştirilmiş iş akışlarında hızlı fonksiyon çalıştırmayı destekliyor.
  • Uzman alan modelleri üretme: Belirli alanlara göre ince ayar yapılarak yüksek doğruluklu uzman modeller oluşturulabiliyor.
  • Yerel çıkarım: Hassas bilgi işleyen bireyler ve kurumlar için faydalı.

Tercih ettiğiniz teknoloji yığınında Mistral Small 3 kullanımı

  • Mistral Small 3, la Plateforme üzerinde mistral-small-latest veya mistral-small-2501 olarak kullanılabiliyor.
  • Model, Hugging Face, Ollama, Kaggle, Together AI ve Fireworks AI iş birliğiyle çeşitli platformlarda sunuluyor.

Sonraki planlar

  • Mistral Small 3, DeepSeek gibi büyük açık kaynak çıkarım modellerini tamamlıyor ve çıkarım yeteneğini güçlendirebilecek sağlam bir temel model olarak kullanılabiliyor.
  • Gelecekte daha küçük ve daha büyük modellerin yayımlanması planlanıyor.

Mistral'ın açık kaynak modelleri

  • Apache 2.0 lisansıyla genel amaçlı modeller sunulması planlanıyor.
  • Model ağırlıkları indirilebiliyor, yerelde dağıtılabiliyor ve serbestçe değiştirilebiliyor ve kullanılabiliyor.
  • Sunucusuz API, on-premise ve VPC dağıtımı, özelleştirme ve orkestrasyon platformları üzerinden sunulacak.

1 yorum

 
GN⁺ 2025-01-31
Hacker News görüşleri
  • Mistral Small modeli, makul performanslı dizüstü bilgisayarlarda çalıştırılabilecek ideal model olmayı hedefliyor ve Llama 3.3 70B ile Qwen 2.5 32B ile karşılaştırılıyor

    • M2 64GB MacBook Pro üzerinde Ollama aracılığıyla çalıştırılıyor; hızlı ve güçlü performans sunuyor
    • Model ağırlıkları için 14GB indirme gerekiyor
  • Epoch AI'dan Tom, LLM değerlendirmelerini sistematik ve büyük ölçekli biçimde gerçekleştirecek altyapıyı kuruyor

    • Değerlendirmeleri Birleşik Krallık hükümetinin Inspect kütüphanesini kullanarak yapıyor
    • Mistral Small 3'ü MATH seviye 5'te değerlendirip 0.45 doğruluk elde etti
    • 1.324 soru için 8'er kez örnekleme yaparak ortalama doğruluğu ölçtü
  • Apache 2.0 lisansına geçerek ticari olmayan lisanstan uzaklaşıyor

  • Kod üretim istemleriyle denendiğinde, qwen2.5-coder-32b ile benzer performans gösteriyor

    • Küçük modellerin daha rafine çıktılar üretmesi etkileyici
    • 8x7B mixtral modelinin yeni bir sürümü bekleniyor
  • Bu sürümün ana noktaları şöyle

    • Apache 2.0 lisansı uygulanıyor
    • Düşük gecikme (11ms/token)
    • Performans, Qwen 2.5 32B ile Llama 3.3 70B arasında
    • Mistral Small modeli 9 token/sn hızında çalışıyor
  • Son MoE model sürümleri nedeniyle 24GB VRAM yetersiz hissettiriyor

    • Mistral Small 3, RL veya sentetik veri kullanmıyor
  • Mistral Small modeli, Mary J Blige'ın ilk albümüyle ilgili soruya doğru yanıt veriyor

  • Küçük modelleri kullanma gerekçesine dair merak var

  • Model adında parametre sayısının da yer alması gerektiğini düşünenler var