- Mistral Large, en ileri düzey metin üretim modeli olup üst seviye akıl yürütme yeteneklerine sahiptir
- Birden çok dilde karmaşık akıl yürütme görevlerini gerçekleştirebilir ve metin anlama, dönüştürme ve kod üretimi için kullanılabilir
- MMLU benchmark'ında güçlü performans gösteriyor ve API aracılığıyla genel kullanıma sunulan modeller arasında dünyada en yüksek sıralı ikinci model konumunda
- GPT-4'ün %86,4'ünün ardından %81,2; Claude 2 %78,5, Gemini Pro %71,8
Mistral Large'ın yeni özellikleri ve güçlü yanları
- İngilizce, Fransızca, İspanyolca, Almanca ve İtalyanca dillerinde ana dil seviyesinde yetkin olup dil bilgisi ve kültürel bağlam konusunda nüanslı bir anlayış sunar
- 32K token context window sayesinde büyük belgelerde doğru bilgi geri çağırma sağlar
- Talimatları hassas biçimde izleme yeteneği sayesinde geliştiriciler kendi moderasyon politikalarını tasarlayabilir; bu özellik le Chat'in sistem düzeyi moderasyon ayarlarında kullanılır
- Function calling özelliği yerleşik olarak gelir ve la Plateforme'da uygulanan restricted output mode ile birlikte, büyük ölçekte uygulama geliştirmeyi ve teknoloji yığınını modernleştirmeyi mümkün kılar
Microsoft ile ortaklık sayesinde model Azure'da sunuluyor
- Mistral'in hedefi öncü yapay zekayı yaygınlaştırmak ve bunun için Azure'da açık ve ticari modeller sunuyor
- Mistral modelleri La Plateforme ve Azure üzerinden kullanılabilir, ayrıca doğrudan kullanıcı ortamına da dağıtılabilir
- La Plateforme, Mistral'in Avrupa altyapısında güvenli şekilde barındırılır; Azure tarafında ise Azure AI Studio ve Azure Machine Learning üzerinden sunulur
- Kendi ortamına dağıtım, en hassas kullanım senaryoları için model ağırlıklarına erişim sağlar; daha fazla bilgi için başarı hikayeleri okunabilir ve ekiple iletişime geçilebilir
Mistral Large'ın yetenekleri
- Mistral Large, standart benchmark'larda önde gelen LLM modelleriyle karşılaştırıldığında güçlü akıl yürütme becerileri sergiler
- Çok dilli yeteneklerde de Mistral Large, Fransızca, Almanca, İspanyolca ve İtalyanca dillerinde LLaMA 2 70B'yi açık ara geride bırakır
- Kodlama ve matematik görevlerinde de en üst düzey performans gösterir
Yeni Mistral Small, düşük gecikmeli iş yükleri için optimize edildi
- Mistral Large ile birlikte, gecikme ve maliyet için optimize edilmiş yeni model Mistral Small da duyuruldu
- Mistral Small, Mixtral 8x7B'den daha iyi performans ve daha düşük gecikme sunar; open-weight teklifler ile amiral gemisi model arasında rafine bir ara çözüm niteliğindedir
- Mistral Small, Mistral Large ile aynı RAG etkinleştirme ve function calling yeniliklerinden yararlanır
- Rekabetçi fiyatlı open-weight endpoint'ler ve yeni optimize edilmiş model endpoint'leri sunarak performans/maliyet dengesi için kapsamlı bir görünürlük sağlar
JSON biçimi ve function calling
- JSON biçim modu, dil modeli çıktısının geçerli JSON olmasını zorunlu kılar
- Function calling sayesinde geliştiriciler kendi araç setlerini Mistral endpoint'lerine bağlayarak dahili kod, API veya veritabanlarıyla daha karmaşık etkileşimler kurabilir
- Function calling ve JSON biçimi yalnızca mistral-small ve mistral-large'da kullanılabilir; tüm endpoint'ler için biçimlendirme desteğinin yakında eklenmesi planlanıyor
GN⁺ görüşü
- Mistral Large, çok dilli destek ve gelişmiş akıl yürütme yeteneklerine sahip bir yapay zeka dil modeli olarak, farklı dillerde karmaşık görevleri yerine getirebilmesiyle özellikle dikkat çekiyor.
- Bu model, GPT-4 gibi mevcut modellerle rekabet etme potansiyeline sahip; özellikle çoklu dil desteği, küresel pazardaki uygulanabilirliğini artırıyor.
- Azure ortaklığı, Mistral AI modellerinin daha geniş bir kullanıcı tabanına ulaşması için fırsat sunarken, bulut tabanlı yapay zeka hizmetlerinin ölçeklenebilirliğini ve erişilebilirliğini güçlendiriyor.
- Mistral Small gibi optimize edilmiş modellerin piyasaya çıkması, maliyet verimli ve düşük gecikmeli yapay zeka çözümlerine ihtiyaç duyan şirketler için cazip bir seçenek olabilir.
- JSON biçimi ve function calling özellikleri, geliştiricilerin yapay zeka modellerini kendi uygulamalarına daha kolay entegre etmesini sağlayarak yapay zeka teknolojisinin pratikliğini ve esnekliğini artırıyor.
1 yorum
Hacker News görüşleri
Pazarlama materyallerindeki dürüstlük takdir ediliyor. Pazar lideri ürünlerden daha düşük benchmark puanları göstermenin, Google'ın benchmark'ları seçmeli kullanmasından daha iyi olduğu düşünülüyor.
Zaten çok şey yaptılar ama açık kaynak topluluğuna katkıda bulunacaklarına dair sözlerini yeniden teyit eden bir ifade olmasının iyi olacağı yönünde bir görüş var. Bunun markalarının temel bir parçası olduğu düşünülüyordu.
miquolayından sonra daha fazla açık ağırlık bekleniyordu, ancak sonucu görmek için beklemek gerekecek gibi duruyor.Değişiklik güncellemeleri: API endpoint adları değiştirildi ve model endpoint'leri eklendi, yeni modeller duyuruldu, mevcut modeller için güncelleme ve kullanımdan kaldırma planları paylaşıldı.
Yeni API özellikleri: Mistral Small ve Mistral Large modellerinde function calling ve JSON mode kullanılabiliyor.
La Plateforme: çoklu para birimini destekleyen ödeme sistemi eklendi ve kurumsal platform özellikleri sunuldu.
Le Chat: Mistral modelleriyle kolayca etkileşim kurulmasını sağlayan yeni bir sohbet arayüzü yayınlandı.
Yeni model, LLM CLI aracı için eklentiye eklendi. Artık şu şekilde kullanılabiliyor.
Le Chat'i kullanarak bugün ortaya çıkan birkaç kodlama sorununu çözmeyi denedim ve ChatGPT'den (GPT-4 dahil) çok daha iyi yanıtlar verdi. Bazı kişilerin öne sürdüğü gibi ChatGPT'nin kalitesi maliyet düşürmek için gerçekten geriledi mi emin değilim, ancak bu birkaç sorun özelinde Mistral'ın yanıt kalitesi açıkça çok daha iyiydi.
Le Chat'in varlığından haberim yoktu. Mistral kullanan bir ChatGPT rakibi istiyordum ve ürün adının başına "le" getirilmiş olmasını da beğendim.
Azure'da Mistral, GPT-4'ten biraz daha ucuz.
Açık ağırlıklarla ilgili tüm yaygaranın artık bitip bitmediği ve bundan sonra kapalı kalıp kalmayacağı sorgulanıyor.
Parametre boyutuna dair hiçbir yerde bilgi yok; bunun kasıtlı mı olduğu yoksa gözden mi kaçırıldığı soruluyor.
Bu durum, birden fazla değiştirilebilir CPU mimarisinin bulunmasına benziyor. Her yeni LLM çıktığında tekelin biraz daha zayıfladığı ve bu yüzden durumun iyileşeceğine dair umut doğuyor. Açık kaynak modeller olmasa bile OpenAI'nin misyonunu zaten gerçekleştirmiş gibi göründüğü söyleniyor.