Mistral 7B

(mistral.ai)

11 puan yazan GN⁺ 2023-09-28 | 1 yorum | WhatsApp'ta paylaş

Şu ana kadarki en güçlü dil modeli
7.3B parametreli model; tüm benchmark’larda Llama 2 13B’yi, birçok benchmark’ta ise Llama 1 34B’yi geride bırakıyor
Daha hızlı çıkarım için Grouped-query attention (GQA) ve daha düşük maliyetle daha uzun dizileri işlemek için Sliding Window Attention (SWA) kullanıyor
Apache 2.0 lisansı ile herhangi bir kısıtlama olmadan kullanılabiliyor
Herhangi bir bulutta (AWS/GCP/Azure) vLLM çıkarım sunucusu ve skypilot kullanılarak dağıtılabiliyor; ayrıca HuggingFace üzerinde de kullanılabiliyor
Kolayca ince ayar yapılabiliyor ve sohbet için ince ayar yapılmış modeli, Llama 2 13B Chat’i geride bırakıyor

1 yorum

GN⁺ 2023-09-28

Mistral, Meta ve DeciLM'den farklı olarak, bu sınıftaki modellere Apache lisansı veren ilk şirket.
Bu model MacBook Air M1'de iyi çalışıyor ve GPT3.5 ile kıyaslanabilir.
JSON gibi yapılandırılmış verileri işlemek için bir "function calling API" kullanım olasılığına dair sorular var.
Modelin eğitiminde kullanılan veri setine ilişkin endişeler ve benchmark sızıntısının sonuçları olduğundan iyi göstermiş olabileceği gündeme getirildi.
Modelin duyurusu, Twitter'ın torrent tracker URI'si üzerinden yapıldı.
LLM'ler için kodlama yardımcı araç testlerinde Mistral, CodeLlama ve GPT4 kadar iyi performans göstermedi.
Model, llama.cpp tarafından desteklendiği için macOS'taki FreeChat'te çalışıyor.
Projelerin neden 7B model gibi geniş bir aralık içinde belirli parametre boyutlarında standartlaşıyor gibi göründüğüne dair sorular var.
Modelin eğitimi, dayandığı veriler ve nerede eğitildiği hakkında daha fazla ayrıntı talep ediliyor.
Eğitim setindeki benchmark kontaminasyonuna yönelik testler isteniyor.