- NVIDIA ile iş birliği içinde geliştirilen 12 milyar parametreli model Mistral NeMo duyuruldu
- En fazla 128k tokenlık geniş bir bağlam penceresi sunuyor
- Akıl yürütme, dünya bilgisi ve kodlama doğruluğunda kendi sınıfının en iyileri arasında
- Standart mimari kullandığı için Mistral 7B kullanan sistemlere kolayca uygulanabiliyor
- Araştırmacıların ve şirketlerin benimsemesini hızlandırmak için, önceden eğitilmiş temel ve komut ayarlı checkpoint'ler Apache 2.0 lisansı altında yayımlandı
- Kuantizasyon farkındalığıyla eğitildiği için performans kaybı olmadan FP8 çıkarımı mümkün
Çok dilli model
- Küresel çok dilli uygulamalar için tasarlandı
- Fonksiyon çağırma için eğitildi ve geniş bir bağlam penceresine sahip
- Özellikle İngilizce, Fransızca, Almanca, İspanyolca, İtalyanca, Portekizce, Çince, Japonca, Korece, Arapça ve Hintçede güçlü
- Hedefi, tüm dil kullanıcıları için son teknoloji yapay zeka modeli sunmak
Tekken, daha verimli bir tokenizer
- Tiktoken tabanlı yeni tokenizer Tekken kullanılıyor
- 100'den fazla dilde doğal dil metinlerini ve kaynak kodu SentencePiece tokenizer'ına göre daha verimli sıkıştırıyor
- Kaynak kod, Çince, İtalyanca, Fransızca, Almanca, İspanyolca ve Rusçada yaklaşık %30 daha verimli
- Korece ve Arapçada sırasıyla 2 kat ve 3 kat daha verimli
- Llama 3 tokenizer'ı ile karşılaştırıldığında dillerin yaklaşık %85'inde daha iyi sıkıştırma performansı gösteriyor
Instruction fine-tuning
- Mistral NeMo gelişmiş ince ayar ve hizalama aşamalarından geçti
- Mistral 7B ile karşılaştırıldığında komutları doğru takip etme, akıl yürütme, çok turlu konuşmaları yönetme ve kod üretmede çok daha başarılı
Bağlantılar
- Temel ve komut modellerinin ağırlıkları HuggingFace üzerinde barındırılıyor
mistral-inference ile Mistral NeMo denenebilir, mistral-finetune ile ayarlanabilir
- NVIDIA NIM çıkarım mikroservisi olarak paketlendi ve ai.nvidia.com üzerinde kullanılabiliyor
1 yorum
Hacker News görüşleri
Mistral NeMo, NVIDIA ile iş birliği içinde geliştirilen 12B'lik bir model ve 128k tokene kadar geniş bir context window sunuyor
Mistral NeMo, Tekken adlı yeni tokenizer'ı kullanıyor; bu tokenizer 100'den fazla dilde eğitilmiş ve metin ile source code'u SentencePiece'e göre daha verimli sıkıştırıyor
NVIDIA blogunda da Mistral NeMo hakkında bir yazı bulunuyor
Büyük modeller hızlı şekilde piyasaya çıkıyor; bu da şirketlerin ölçeklenebilir süreçleri büyütmenin yolunu bulduğunu gösteriyor
NVIDIA Enterprise'a kaydolup "NIM" paket sürümünü deneme deneyiminin rahatsız edici olduğuna dair görüşler var
Mistral açık kaynak ilerlemesini gerçekten ciddiye alıyorsa, modeli eğitmekte kullanılan corpus'u paylaşması gerektiği görüşü var
Çok dilli eğitimin bir tür "crossover" sağlayıp sağlamadığı soruluyor
Açık kaynak üretken yapay zeka modellerinin ücretsiz yayımlanmasına dayanan iş modelinin anlaşılmadığı ifade ediliyor