- "High-quality Sparse Mixture of Experts Model (SMoE, yüksek kaliteli seyrek uzman karışımı modeli)"
- Çoğu benchmark'ta Llama 2 70B'yi geride bırakıyor ve 6 kat daha hızlı çıkarım sunuyor
- Çoğu standart benchmark'ta GPT 3.5 ile benzer veya daha iyi performans gösteriyor
- İzin verici lisansa sahip en güçlü açık ağırlıklı model ve maliyet/performans açısından en iyi model
- 32k token context desteği
- İngilizce/Fransızca/İtalyanca/Almanca/İspanyolca işleme
- Kod üretiminde güçlü performans gösteriyor
- MT-Bench'te 8.3 puan alan, instruction-following için ince ayar yapılabilen bir model
- MMLU %70,6 (Llama 2 70B %69,9, GPT 3.5 %70,0)
Seyrek mimariyle açık modellerin sınırlarını genişletmek
- Mixtral, bir seyrek uzman ağı olan, yalnızca decoder kullanan bir modeldir
- Feedforward blokları 8 farklı parametre grubundan seçim yapar; her katmanda, her token için router ağı iki uzman grubunu seçer ve çıktıları birleştirir
- Bu teknik, modelin parametre sayısını artırırken maliyet ve gecikmeyi kontrol altında tutmayı sağlar; Mixtral toplam 46.7B parametreye sahiptir, ancak token başına yalnızca 12.9B parametre kullanır
Performans
- Mixtral, Llama 2 modelleri ve GPT3.5 temel modeliyle karşılaştırıldığında çoğu benchmark'ta eşdeğer veya daha iyi performans gösteriyor.
- Mixtral, Llama 2 70B modeliyle karşılaştırıldığında daha doğru cevaplar veriyor (TruthfulQA benchmark'ında %73,9'a karşı %50,2) ve BBQ benchmark'ında daha az önyargı sergiliyor.
- Mixtral; Fransızca, Almanca, İspanyolca, İtalyanca ve İngilizceyi yetkin biçimde işliyor.
Komutları izleyen model
- Mixtral 8x7B Instruct, komutlara uyum performansını optimize etmek için denetimli ince ayar ve doğrudan tercih optimizasyonu (DPO) süreçlerinden geçti.
- MT-Bench'te 8.30 puan alarak, GPT3.5'e benzer performansa sahip en iyi açık kaynak model oldu.
Mixtral'in açık kaynak dağıtım yığınıyla dağıtım
- Topluluğun Mixtral'i tamamen açık kaynak bir yığınla çalıştırabilmesi için vLLM projesine değişiklikler gönderildi.
- Şu anda Mistral AI, Mixtral 8x7B'yi mistral-small endpoint'inin arkasında kullanıyor ve beta sürümünde erişime açık
- Tüm generation ve embedding endpoint'leri için erken erişim başvurusu yapılabiliyor
2 yorum
Aşağıdaki yorumda da belirtildiği gibi, ilk başta 8x7B'yi görünce toplam parametre sayısı 56B mi acaba diye düşünmüştüm.
Hacker News görüşleri
Andrej Karpathy'nin görüşleri:
Modelin Huggingface'te kullanılabilir olması:
Yazılım mühendisleri için açıklama talebi:
Mixtral 8x7B'nin boyutuna verilen tepki:
Yapay zekanın geleceğine dair beklenti:
MoE'nin çalışma mantığı ile artıları ve eksileri hakkında soru:
Model parametreleriyle ilgili kafa karışıklığı:
Mistral'ın yaklaşımına dair açıklama:
Mixtral 8x7B'nin dil yetenekleri:
Model ve ağırlıklarla ilgili bilgi talebi:
Pazardaki rekabet gücüne dair soru: