11 puan yazan GN⁺ 2023-09-28 | 1 yorum | WhatsApp'ta paylaş
  • Şu ana kadarki en güçlü dil modeli
  • 7.3B parametreli model; tüm benchmark’larda Llama 2 13B’yi, birçok benchmark’ta ise Llama 1 34B’yi geride bırakıyor
  • Daha hızlı çıkarım için Grouped-query attention (GQA) ve daha düşük maliyetle daha uzun dizileri işlemek için Sliding Window Attention (SWA) kullanıyor
  • Apache 2.0 lisansı ile herhangi bir kısıtlama olmadan kullanılabiliyor
  • Herhangi bir bulutta (AWS/GCP/Azure) vLLM çıkarım sunucusu ve skypilot kullanılarak dağıtılabiliyor; ayrıca HuggingFace üzerinde de kullanılabiliyor
  • Kolayca ince ayar yapılabiliyor ve sohbet için ince ayar yapılmış modeli, Llama 2 13B Chat’i geride bırakıyor

1 yorum

 
GN⁺ 2023-09-28
Hacker News görüşleri
  • Mistral, Meta ve DeciLM'den farklı olarak, bu sınıftaki modellere Apache lisansı veren ilk şirket.
  • Bu model MacBook Air M1'de iyi çalışıyor ve GPT3.5 ile kıyaslanabilir.
  • JSON gibi yapılandırılmış verileri işlemek için bir "function calling API" kullanım olasılığına dair sorular var.
  • Modelin eğitiminde kullanılan veri setine ilişkin endişeler ve benchmark sızıntısının sonuçları olduğundan iyi göstermiş olabileceği gündeme getirildi.
  • Modelin duyurusu, Twitter'ın torrent tracker URI'si üzerinden yapıldı.
  • LLM'ler için kodlama yardımcı araç testlerinde Mistral, CodeLlama ve GPT4 kadar iyi performans göstermedi.
  • Model, llama.cpp tarafından desteklendiği için macOS'taki FreeChat'te çalışıyor.
  • Projelerin neden 7B model gibi geniş bir aralık içinde belirli parametre boyutlarında standartlaşıyor gibi göründüğüne dair sorular var.
  • Modelin eğitimi, dayandığı veriler ve nerede eğitildiği hakkında daha fazla ayrıntı talep ediliyor.
  • Eğitim setindeki benchmark kontaminasyonuna yönelik testler isteniyor.