Mistral NeMo duyuruldu

(mistral.ai)

6 puan yazan GN⁺ 2024-07-19 | 1 yorum | WhatsApp'ta paylaş

NVIDIA ile iş birliği içinde geliştirilen 12 milyar parametreli model Mistral NeMo duyuruldu
En fazla 128k tokenlık geniş bir bağlam penceresi sunuyor
Akıl yürütme, dünya bilgisi ve kodlama doğruluğunda kendi sınıfının en iyileri arasında
Standart mimari kullandığı için Mistral 7B kullanan sistemlere kolayca uygulanabiliyor
Araştırmacıların ve şirketlerin benimsemesini hızlandırmak için, önceden eğitilmiş temel ve komut ayarlı checkpoint'ler Apache 2.0 lisansı altında yayımlandı
Kuantizasyon farkındalığıyla eğitildiği için performans kaybı olmadan FP8 çıkarımı mümkün

Çok dilli model

Küresel çok dilli uygulamalar için tasarlandı
Fonksiyon çağırma için eğitildi ve geniş bir bağlam penceresine sahip
Özellikle İngilizce, Fransızca, Almanca, İspanyolca, İtalyanca, Portekizce, Çince, Japonca, Korece, Arapça ve Hintçede güçlü
Hedefi, tüm dil kullanıcıları için son teknoloji yapay zeka modeli sunmak

Tekken, daha verimli bir tokenizer

Tiktoken tabanlı yeni tokenizer Tekken kullanılıyor
100'den fazla dilde doğal dil metinlerini ve kaynak kodu SentencePiece tokenizer'ına göre daha verimli sıkıştırıyor
Kaynak kod, Çince, İtalyanca, Fransızca, Almanca, İspanyolca ve Rusçada yaklaşık %30 daha verimli
Korece ve Arapçada sırasıyla 2 kat ve 3 kat daha verimli
Llama 3 tokenizer'ı ile karşılaştırıldığında dillerin yaklaşık %85'inde daha iyi sıkıştırma performansı gösteriyor

Instruction fine-tuning

Mistral NeMo gelişmiş ince ayar ve hizalama aşamalarından geçti
Mistral 7B ile karşılaştırıldığında komutları doğru takip etme, akıl yürütme, çok turlu konuşmaları yönetme ve kod üretmede çok daha başarılı

Bağlantılar

Temel ve komut modellerinin ağırlıkları HuggingFace üzerinde barındırılıyor
mistral-inference ile Mistral NeMo denenebilir, mistral-finetune ile ayarlanabilir
NVIDIA NIM çıkarım mikroservisi olarak paketlendi ve ai.nvidia.com üzerinde kullanılabiliyor

1 yorum

GN⁺ 2024-07-19

Hacker News görüşleri

Mistral NeMo, NVIDIA ile iş birliği içinde geliştirilen 12B'lik bir model ve 128k tokene kadar geniş bir context window sunuyor
- Standart mimari kullandığı için kullanımı kolay ve Mistral 7B kullanan sistemlerde kolayca yerine geçirilebiliyor
- Apache 2.0 lisansı altında önceden eğitilmiş checkpoint'ler sunarak araştırmacılar ve şirketler tarafından benimsenmesini teşvik ediyor
- Quantization farkındalığı sayesinde performans kaybı olmadan FP8 inference sağlıyor
Mistral NeMo, Tekken adlı yeni tokenizer'ı kullanıyor; bu tokenizer 100'den fazla dilde eğitilmiş ve metin ile source code'u SentencePiece'e göre daha verimli sıkıştırıyor
- Byte-pair encoding'in daha verimli bir encoding yöntemi olduğu gösterilmişken neden SentencePiece'e geri dönüldüğü sorusu gündeme geliyor
NVIDIA blogunda da Mistral NeMo hakkında bir yazı bulunuyor
- NVIDIA NIM inference microservice olarak paketlenmiş ve NVIDIA TensorRT-LLM engine üzerinden performans açısından optimize edilmiş inference sunuyor
- NVIDIA L40S, NVIDIA GeForce RTX 4090 ve NVIDIA RTX 4500 GPU'larının belleğine sığacak şekilde tasarlanmış
- Megatron-LM kullanılarak 3.072 adet H100 80GB Tensor Core GPU ile eğitilmiş
Büyük modeller hızlı şekilde piyasaya çıkıyor; bu da şirketlerin ölçeklenebilir süreçleri büyütmenin yolunu bulduğunu gösteriyor
- Modelleri HuggingFace'te yayımlamanın bir iş modeli olup olmadığı sorgulanıyor
- Model dosyası indirme boyutu yaklaşık 25GB ve bu, 8fp quantized model
NVIDIA Enterprise'a kaydolup "NIM" paket sürümünü deneme deneyiminin rahatsız edici olduğuna dair görüşler var
- Model dosyalarını serbestçe indirebilmenin daha iyi olacağı söyleniyor
- NVIDIA'nın donanım tekeline rağmen karmaşık prosedürler dayatmasına yönelik şikayetler var
Mistral açık kaynak ilerlemesini gerçekten ciddiye alıyorsa, modeli eğitmekte kullanılan corpus'u paylaşması gerektiği görüşü var
- GGUF sürümünün neden çıkış gününde hazır olmadığı soruluyor
Çok dilli eğitimin bir tür "crossover" sağlayıp sağlamadığı soruluyor
- Almanca eğitimin İngilizce prompt'lara yanıt verirken kullanılıp kullanılamayacağı merak ediliyor
Açık kaynak üretken yapay zeka modellerinin ücretsiz yayımlanmasına dayanan iş modelinin anlaşılmadığı ifade ediliyor
- 3072 H100 kullanılarak eğitilmiş bir modelin neden ücretsiz sunulduğu sorgulanıyor

Mistral NeMo duyuruldu

Çok dilli model

Tekken, daha verimli bir tokenizer

Instruction fine-tuning

Bağlantılar

İlgili okumalar

1 yorum

Hacker News görüşleri