6 puan yazan GN⁺ 2024-07-19 | 1 yorum | WhatsApp'ta paylaş
  • NVIDIA ile iş birliği içinde geliştirilen 12 milyar parametreli model Mistral NeMo duyuruldu
  • En fazla 128k tokenlık geniş bir bağlam penceresi sunuyor
  • Akıl yürütme, dünya bilgisi ve kodlama doğruluğunda kendi sınıfının en iyileri arasında
  • Standart mimari kullandığı için Mistral 7B kullanan sistemlere kolayca uygulanabiliyor
  • Araştırmacıların ve şirketlerin benimsemesini hızlandırmak için, önceden eğitilmiş temel ve komut ayarlı checkpoint'ler Apache 2.0 lisansı altında yayımlandı
  • Kuantizasyon farkındalığıyla eğitildiği için performans kaybı olmadan FP8 çıkarımı mümkün

Çok dilli model

  • Küresel çok dilli uygulamalar için tasarlandı
  • Fonksiyon çağırma için eğitildi ve geniş bir bağlam penceresine sahip
  • Özellikle İngilizce, Fransızca, Almanca, İspanyolca, İtalyanca, Portekizce, Çince, Japonca, Korece, Arapça ve Hintçede güçlü
  • Hedefi, tüm dil kullanıcıları için son teknoloji yapay zeka modeli sunmak

Tekken, daha verimli bir tokenizer

  • Tiktoken tabanlı yeni tokenizer Tekken kullanılıyor
  • 100'den fazla dilde doğal dil metinlerini ve kaynak kodu SentencePiece tokenizer'ına göre daha verimli sıkıştırıyor
  • Kaynak kod, Çince, İtalyanca, Fransızca, Almanca, İspanyolca ve Rusçada yaklaşık %30 daha verimli
  • Korece ve Arapçada sırasıyla 2 kat ve 3 kat daha verimli
  • Llama 3 tokenizer'ı ile karşılaştırıldığında dillerin yaklaşık %85'inde daha iyi sıkıştırma performansı gösteriyor

Instruction fine-tuning

  • Mistral NeMo gelişmiş ince ayar ve hizalama aşamalarından geçti
  • Mistral 7B ile karşılaştırıldığında komutları doğru takip etme, akıl yürütme, çok turlu konuşmaları yönetme ve kod üretmede çok daha başarılı

Bağlantılar

  • Temel ve komut modellerinin ağırlıkları HuggingFace üzerinde barındırılıyor
  • mistral-inference ile Mistral NeMo denenebilir, mistral-finetune ile ayarlanabilir
  • NVIDIA NIM çıkarım mikroservisi olarak paketlendi ve ai.nvidia.com üzerinde kullanılabiliyor

1 yorum

 
GN⁺ 2024-07-19
Hacker News görüşleri
  • Mistral NeMo, NVIDIA ile iş birliği içinde geliştirilen 12B'lik bir model ve 128k tokene kadar geniş bir context window sunuyor

    • Standart mimari kullandığı için kullanımı kolay ve Mistral 7B kullanan sistemlerde kolayca yerine geçirilebiliyor
    • Apache 2.0 lisansı altında önceden eğitilmiş checkpoint'ler sunarak araştırmacılar ve şirketler tarafından benimsenmesini teşvik ediyor
    • Quantization farkındalığı sayesinde performans kaybı olmadan FP8 inference sağlıyor
  • Mistral NeMo, Tekken adlı yeni tokenizer'ı kullanıyor; bu tokenizer 100'den fazla dilde eğitilmiş ve metin ile source code'u SentencePiece'e göre daha verimli sıkıştırıyor

    • Byte-pair encoding'in daha verimli bir encoding yöntemi olduğu gösterilmişken neden SentencePiece'e geri dönüldüğü sorusu gündeme geliyor
  • NVIDIA blogunda da Mistral NeMo hakkında bir yazı bulunuyor

    • NVIDIA NIM inference microservice olarak paketlenmiş ve NVIDIA TensorRT-LLM engine üzerinden performans açısından optimize edilmiş inference sunuyor
    • NVIDIA L40S, NVIDIA GeForce RTX 4090 ve NVIDIA RTX 4500 GPU'larının belleğine sığacak şekilde tasarlanmış
    • Megatron-LM kullanılarak 3.072 adet H100 80GB Tensor Core GPU ile eğitilmiş
  • Büyük modeller hızlı şekilde piyasaya çıkıyor; bu da şirketlerin ölçeklenebilir süreçleri büyütmenin yolunu bulduğunu gösteriyor

    • Modelleri HuggingFace'te yayımlamanın bir iş modeli olup olmadığı sorgulanıyor
    • Model dosyası indirme boyutu yaklaşık 25GB ve bu, 8fp quantized model
  • NVIDIA Enterprise'a kaydolup "NIM" paket sürümünü deneme deneyiminin rahatsız edici olduğuna dair görüşler var

    • Model dosyalarını serbestçe indirebilmenin daha iyi olacağı söyleniyor
    • NVIDIA'nın donanım tekeline rağmen karmaşık prosedürler dayatmasına yönelik şikayetler var
  • Mistral açık kaynak ilerlemesini gerçekten ciddiye alıyorsa, modeli eğitmekte kullanılan corpus'u paylaşması gerektiği görüşü var

    • GGUF sürümünün neden çıkış gününde hazır olmadığı soruluyor
  • Çok dilli eğitimin bir tür "crossover" sağlayıp sağlamadığı soruluyor

    • Almanca eğitimin İngilizce prompt'lara yanıt verirken kullanılıp kullanılamayacağı merak ediliyor
  • Açık kaynak üretken yapay zeka modellerinin ücretsiz yayımlanmasına dayanan iş modelinin anlaşılmadığı ifade ediliyor

    • 3072 H100 kullanılarak eğitilmiş bir modelin neden ücretsiz sunulduğu sorgulanıyor