MistralAI'nin yeni açık kaynak LLM'sine (Large Language Model) giriş
params.json dosyasındaki dikkat çekici ayarlar:
hidden_dim / dim = 14336/4096 => MLP genişlemesi 3,5 kat
n_heads / n_kv_heads = 32/8 => 4 kat multi-query
"moe" => Mixture of Experts ile 8 içinden en iyi 2 uzman
İlgili kod GitHub'da görülebilir
Yapay zeka devrimi hakkında abartılı tanıtım videosu yok
Büyük bir derin öğrenme konferansı olan NeurIPS yaklaştığı için yapay zeka tarafında çok fazla hareketlilik var
Diğer LLM haberleri:
Mistral/Yi, 'neural alignment' adlı yeni bir teknikle ince ayar yapılmış modeller kullanarak Hugging Face liderlik tablosunda diğer modelleri geride bırakıyor
7B model, çoğu 70B modeli 'yeniyor'
Test edilen 34B model oldukça iyi görünüyor
Bu teknik Mistral Moe'ye uygulanırsa son derece güçlü bir model olabilir
Masaüstünde çalışabilen OSS'nin GPT-4'e meydan okuması açısından önemli bir dönüm noktası olabilir
Mistral'ın yaklaşımı:
Mistral açıklamaya çok önem vermiyor, ancak bu tarz Google'ın cilalanmış kurumsal duyurularından daha güven verici hissettiriyor
Basit duyuru tarzı:
90'lar usulü sade duyuru tarzı tercih ediliyor
Mistral'ın model özellikleri:
Mixture of Experts yapısına sahip params.json dosyası paylaşıldı
Mistral ve Google'ın duyuru tarzlarının karşılaştırılması:
Google'ın Gemini duyurusuna tezat oluşturan Mistral model duyuru biçimi
Mistral'ın Stanford'un Megablocks'u temel alınarak eğitilmiş olduğu görülüyor
Mistral'ın pazarlama stratejisi:
Diğer şirketler landing page ve tanıtım videolarına ağırlık verirken, Mistral modeli sade biçimde yayımlıyor
Mistral'ın açıkladığı bilgiler:
Mixture of Experts mimarisi kullanıyor
7B parametreli 8 uzman var
Toplam 96GB ağırlıkla, tipik ev tipi GPU'larda çalıştırılamaz
1 yorum
Hacker News görüşü
Andrej Karpathy'nin görüşü:
params.jsondosyasındaki dikkat çekici ayarlar:hidden_dim / dim = 14336/4096=> MLP genişlemesi 3,5 katn_heads / n_kv_heads = 32/8=> 4 kat multi-query"moe"=> Mixture of Experts ile 8 içinden en iyi 2 uzmanDiğer LLM haberleri:
Mistral'ın yaklaşımı:
Basit duyuru tarzı:
Mistral'ın model özellikleri:
params.jsondosyası paylaşıldıMistral ve Google'ın duyuru tarzlarının karşılaştırılması:
Mistral'ın pazarlama stratejisi:
Mistral'ın açıkladığı bilgiler: