Mistral AI, Llama 2 70B modelinden daha iyi olan Mixtral 8x7B modelini tanıttı

(mistral.ai)

12 puan yazan GN⁺ 2023-12-12 | 2 yorum | WhatsApp'ta paylaş

"High-quality Sparse Mixture of Experts Model (SMoE, yüksek kaliteli seyrek uzman karışımı modeli)"
Çoğu benchmark'ta Llama 2 70B'yi geride bırakıyor ve 6 kat daha hızlı çıkarım sunuyor
Çoğu standart benchmark'ta GPT 3.5 ile benzer veya daha iyi performans gösteriyor
İzin verici lisansa sahip en güçlü açık ağırlıklı model ve maliyet/performans açısından en iyi model
32k token context desteği
İngilizce/Fransızca/İtalyanca/Almanca/İspanyolca işleme
Kod üretiminde güçlü performans gösteriyor
MT-Bench'te 8.3 puan alan, instruction-following için ince ayar yapılabilen bir model
MMLU %70,6 (Llama 2 70B %69,9, GPT 3.5 %70,0)

Seyrek mimariyle açık modellerin sınırlarını genişletmek

Mixtral, bir seyrek uzman ağı olan, yalnızca decoder kullanan bir modeldir
Feedforward blokları 8 farklı parametre grubundan seçim yapar; her katmanda, her token için router ağı iki uzman grubunu seçer ve çıktıları birleştirir
Bu teknik, modelin parametre sayısını artırırken maliyet ve gecikmeyi kontrol altında tutmayı sağlar; Mixtral toplam 46.7B parametreye sahiptir, ancak token başına yalnızca 12.9B parametre kullanır

Performans

Mixtral, Llama 2 modelleri ve GPT3.5 temel modeliyle karşılaştırıldığında çoğu benchmark'ta eşdeğer veya daha iyi performans gösteriyor.
Mixtral, Llama 2 70B modeliyle karşılaştırıldığında daha doğru cevaplar veriyor (TruthfulQA benchmark'ında %73,9'a karşı %50,2) ve BBQ benchmark'ında daha az önyargı sergiliyor.
Mixtral; Fransızca, Almanca, İspanyolca, İtalyanca ve İngilizceyi yetkin biçimde işliyor.

Komutları izleyen model

Mixtral 8x7B Instruct, komutlara uyum performansını optimize etmek için denetimli ince ayar ve doğrudan tercih optimizasyonu (DPO) süreçlerinden geçti.
MT-Bench'te 8.30 puan alarak, GPT3.5'e benzer performansa sahip en iyi açık kaynak model oldu.

Mixtral'in açık kaynak dağıtım yığınıyla dağıtım

Topluluğun Mixtral'i tamamen açık kaynak bir yığınla çalıştırabilmesi için vLLM projesine değişiklikler gönderildi.
Şu anda Mistral AI, Mixtral 8x7B'yi mistral-small endpoint'inin arkasında kullanıyor ve beta sürümünde erişime açık
Tüm generation ve embedding endpoint'leri için erken erişim başvurusu yapılabiliyor

2 yorum

cosine20 2023-12-12

Aşağıdaki yorumda da belirtildiği gibi, ilk başta 8x7B'yi görünce toplam parametre sayısı 56B mi acaba diye düşünmüştüm.

GN⁺ 2023-12-12

Hacker News görüşleri

Andrej Karpathy'nin görüşleri:
- Mixtral 8x7B hakkındaki resmî gönderi ve vLLM'in çıkarım kodu yayımlandı
- HuggingFace'in MoE(Mixture of Experts) açıklaması faydalı
- 70B model performansına, 12.9B yoğun modelin çıkarım hızıyla ulaşılıyor
- "open weights" teriminin kullanımına olumlu tepki
- "8x7B" adının yanıltıcı olabileceğine dikkat çekiyor
- Her token ve katmanın, 8 uzman arasından 2'sini seçmesi biçimiyle ilgili kafa karışıklığından bahsediyor
- Mistral-medium modeli tanıtılıyor
Modelin Huggingface'te kullanılabilir olması:
- Mixtral modeli Mistralai ve TheBloke üzerinden kullanılabiliyor
Yazılım mühendisleri için açıklama talebi:
- Uzman karışımının nasıl çalıştığını anlamaya ihtiyaç var
Mixtral 8x7B'nin boyutuna verilen tepki:
- 4.5 milyar parametreyi "small" model olarak görmenin ilginç olduğu ifade ediliyor
Yapay zekanın geleceğine dair beklenti:
- MoE'nin yapay zekanın geleceği olacağına dair olumlu bir beklenti var
MoE'nin çalışma mantığı ile artıları ve eksileri hakkında soru:
- Mevcut modellere kıyasla MoE'nin ne tür avantajlar sunduğuna dair açıklamaya ihtiyaç var
Model parametreleriyle ilgili kafa karışıklığı:
- "8x7B" adı, gerçek parametre sayısı ve token üretiminde kullanılan parametreler konusunda kafa karışıklığı dile getiriliyor
Mistral'ın yaklaşımına dair açıklama:
- CEO, Mistral'ın modeli sansürlemeden daha özgür erişim peşinde olduğunu söylüyor
Mixtral 8x7B'nin dil yetenekleri:
- Fransızca, Almanca, İspanyolca, İtalyanca ve İngilizceyi yetkin şekilde kullanıyor
Model ve ağırlıklarla ilgili bilgi talebi:
- Model ve ağırlıklar için bağlantı isteniyor
Pazardaki rekabet gücüne dair soru:
- GPT 3.5'i geride bırakan bir modele sahip olsa da, OpenAI/Google ile rekabette ne tür bir fırsatı olduğu ve geleceğe dair görünüm soruluyor