- Mistral Large 2, 128k bağlam penceresini ve Fransızca, Almanca, İspanyolca, İtalyanca, Çince, Japonca, Korece dahil birçok dili destekliyor
- Ayrıca Python, Java, C, C++, JavaScript, Bash dahil 80'den fazla programlama dilini destekliyor
- Tek düğümlü çıkarım için tasarlandı ve 123 milyar parametreden oluştuğu için tek bir düğümde yüksek çıktı sağlayabiliyor
- Araştırma ve ticari olmayan kullanım için kullanım ve değişikliğe izin veren Mistral Research License altında dağıtılıyor. Ticari kullanım için Mistral Commercial License alınması gerekiyor
Genel performans
- Mistral Large 2, performans/maliyet değerlendirme metriklerinde yeni bir çıta belirliyor
- Özellikle MMLU'da önceden eğitilmiş sürüm %84,0 doğruluk elde ederek performans/maliyet Pareto sınırında yeni bir nokta oluşturuyor
Kod ve akıl yürütme
- Codestral 22B ve Codestral Mamba deneyimine dayanarak Mistral Large 2, çok miktarda kodla eğitildi
- Mistral Large 2, önceki Mistral Large'dan çok daha iyi ve GPT-4o, Claude 3 Opus, Llama 3 405B gibi önde gelen modellerle eşdeğer performans gösteriyor
- Modelin akıl yürütme yeteneğini geliştirmek için büyük çaba harcandı ve gerçeğe aykırı bilgi üretme eğilimini en aza indirmek için model ince ayarlandı
- Model, çözüm bulamadığında veya yeterli bilgi olmadığında bunu kabul edecek şekilde eğitildi
Talimatlara uyum ve hizalama
- Mistral Large 2'nin talimatlara uyumu ve sohbet yetenekleri önemli ölçüde geliştirildi
- Birçok iş uygulamasında kısalık önemli olduğu için mümkün olduğunca kısa ve öz yanıtlar üretmesi için büyük çaba gösterildi
Dil çeşitliliği
- Mistral Large 2, çok dilli verilerle yoğun şekilde eğitildiği için İngilizce, Fransızca, Almanca, İspanyolca, İtalyanca, Portekizce, Hollandaca, Rusça, Çince, Japonca, Korece, Arapça ve Hintçede güçlü performans gösteriyor
Araç kullanımı ve fonksiyon çağırma
- Mistral Large 2, geliştirilmiş fonksiyon çağırma ve arama özelliklerine sahip ve karmaşık iş uygulamalarının motoru olarak görev yapabilmesi için eğitildi
Bulut hizmet sağlayıcıları üzerinden Mistral modellerine erişim
- Google Cloud Platform ile ortaklık genişletilerek Mistral AI modelleri Vertex AI üzerinde sunuluyor
- Mistral AI modelleri Azure AI Studio, Amazon Bedrock ve IBM watsonx.ai üzerinde de kullanılabiliyor
GN⁺ özeti
- Mistral Large 2, çeşitli doğal dilleri ve programlama dillerini destekliyor; tek düğümde yüksek çıktı sunuyor.
- Kod üretimi ve akıl yürütme yetenekleri önemli ölçüde geliştirildi; gerçeğe aykırı bilgi üretme eğilimi en aza indirildi.
- Çok dilli verilerle yoğun şekilde eğitildiği için birçok dilde güçlü performans gösteriyor.
- Google Cloud Platform, Azure AI Studio, Amazon Bedrock ve IBM watsonx.ai ortaklıklarıyla küresel kullanıcılara sunuluyor.
- İş uygulamalarında kısa ve öz yanıtlar üretmek üzere tasarlandı.
1 yorum
Hacker News görüşü