- Mistral AI ekibi, 24B parametreli Mistral Small 3 modelini Apache 2.0 lisansıyla yayımladı.
- Bu model, Llama 3.3 70B veya Qwen 32B gibi daha büyük modellerle rekabet edebiliyor ve GPT4o-mini gibi kapalı modeller için uygun bir alternatif oluşturuyor.
- Mistral Small 3, daha az katman sayesinde işlem süresini kısaltan, yerel dağıtıma uygun bir boyutta tasarlandı.
- MMLU'da %81'in üzerinde doğruluk gösteriyor ve 150 tokens/s gecikme değerine sahip.
Performans
İnsan değerlendirmesi
- Harici bir değerlendirme şirketiyle birlikte 1.000'den fazla kodlama ve genel prompt seti değerlendirildi.
- Mistral Small 3 ile diğer modellerin yanıtları karşılaştırılarak tercih ölçümü yapıldı.
- Adil bir değerlendirme için özen gösterildi ve benchmark'ların geçerliliğine güvenildiği belirtildi.
Komut performansı
- Komut ayarlı model, kendisinden üç kat daha büyük açık modeller ve GPT4o-mini ile rekabetçi performans gösteriyor.
- Kod, matematik, genel bilgi ve komut yürütme benchmark'larında yüksek doğruluk kaydediyor.
Ön eğitim performansı
- Mistral Small 3, 24B'lik bir model olarak boyutuna göre en iyi performansı sunuyor ve Llama 3.3 70B gibi kendisinden üç kat büyük modellerle rekabet ediyor.
Mistral Small 3 kullanım senaryoları
- Hızlı yanıt veren etkileşimli destek: Hızlı ve doğru yanıtların kritik olduğu senaryolarda güçlü performans sunuyor.
- Düşük gecikmeli function calling: Otomatikleştirilmiş iş akışlarında hızlı fonksiyon çalıştırmayı destekliyor.
- Uzman alan modelleri üretme: Belirli alanlara göre ince ayar yapılarak yüksek doğruluklu uzman modeller oluşturulabiliyor.
- Yerel çıkarım: Hassas bilgi işleyen bireyler ve kurumlar için faydalı.
Tercih ettiğiniz teknoloji yığınında Mistral Small 3 kullanımı
- Mistral Small 3, la Plateforme üzerinde
mistral-small-latest veya mistral-small-2501 olarak kullanılabiliyor.
- Model, Hugging Face, Ollama, Kaggle, Together AI ve Fireworks AI iş birliğiyle çeşitli platformlarda sunuluyor.
Sonraki planlar
- Mistral Small 3, DeepSeek gibi büyük açık kaynak çıkarım modellerini tamamlıyor ve çıkarım yeteneğini güçlendirebilecek sağlam bir temel model olarak kullanılabiliyor.
- Gelecekte daha küçük ve daha büyük modellerin yayımlanması planlanıyor.
Mistral'ın açık kaynak modelleri
- Apache 2.0 lisansıyla genel amaçlı modeller sunulması planlanıyor.
- Model ağırlıkları indirilebiliyor, yerelde dağıtılabiliyor ve serbestçe değiştirilebiliyor ve kullanılabiliyor.
- Sunucusuz API, on-premise ve VPC dağıtımı, özelleştirme ve orkestrasyon platformları üzerinden sunulacak.
1 yorum
Hacker News görüşleri
Mistral Small modeli, makul performanslı dizüstü bilgisayarlarda çalıştırılabilecek ideal model olmayı hedefliyor ve Llama 3.3 70B ile Qwen 2.5 32B ile karşılaştırılıyor
Epoch AI'dan Tom, LLM değerlendirmelerini sistematik ve büyük ölçekli biçimde gerçekleştirecek altyapıyı kuruyor
Apache 2.0 lisansına geçerek ticari olmayan lisanstan uzaklaşıyor
Kod üretim istemleriyle denendiğinde, qwen2.5-coder-32b ile benzer performans gösteriyor
Bu sürümün ana noktaları şöyle
Son MoE model sürümleri nedeniyle 24GB VRAM yetersiz hissettiriyor
Mistral Small modeli, Mary J Blige'ın ilk albümüyle ilgili soruya doğru yanıt veriyor
Küçük modelleri kullanma gerekçesine dair merak var
Model adında parametre sayısının da yer alması gerektiğini düşünenler var