12 puan yazan GN⁺ 2023-12-12 | 2 yorum | WhatsApp'ta paylaş
  • "High-quality Sparse Mixture of Experts Model (SMoE, yüksek kaliteli seyrek uzman karışımı modeli)"
  • Çoğu benchmark'ta Llama 2 70B'yi geride bırakıyor ve 6 kat daha hızlı çıkarım sunuyor
  • Çoğu standart benchmark'ta GPT 3.5 ile benzer veya daha iyi performans gösteriyor
  • İzin verici lisansa sahip en güçlü açık ağırlıklı model ve maliyet/performans açısından en iyi model
  • 32k token context desteği
  • İngilizce/Fransızca/İtalyanca/Almanca/İspanyolca işleme
  • Kod üretiminde güçlü performans gösteriyor
  • MT-Bench'te 8.3 puan alan, instruction-following için ince ayar yapılabilen bir model
  • MMLU %70,6 (Llama 2 70B %69,9, GPT 3.5 %70,0)

Seyrek mimariyle açık modellerin sınırlarını genişletmek

  • Mixtral, bir seyrek uzman ağı olan, yalnızca decoder kullanan bir modeldir
  • Feedforward blokları 8 farklı parametre grubundan seçim yapar; her katmanda, her token için router ağı iki uzman grubunu seçer ve çıktıları birleştirir
  • Bu teknik, modelin parametre sayısını artırırken maliyet ve gecikmeyi kontrol altında tutmayı sağlar; Mixtral toplam 46.7B parametreye sahiptir, ancak token başına yalnızca 12.9B parametre kullanır

Performans

  • Mixtral, Llama 2 modelleri ve GPT3.5 temel modeliyle karşılaştırıldığında çoğu benchmark'ta eşdeğer veya daha iyi performans gösteriyor.
  • Mixtral, Llama 2 70B modeliyle karşılaştırıldığında daha doğru cevaplar veriyor (TruthfulQA benchmark'ında %73,9'a karşı %50,2) ve BBQ benchmark'ında daha az önyargı sergiliyor.
  • Mixtral; Fransızca, Almanca, İspanyolca, İtalyanca ve İngilizceyi yetkin biçimde işliyor.

Komutları izleyen model

  • Mixtral 8x7B Instruct, komutlara uyum performansını optimize etmek için denetimli ince ayar ve doğrudan tercih optimizasyonu (DPO) süreçlerinden geçti.
  • MT-Bench'te 8.30 puan alarak, GPT3.5'e benzer performansa sahip en iyi açık kaynak model oldu.

Mixtral'in açık kaynak dağıtım yığınıyla dağıtım

  • Topluluğun Mixtral'i tamamen açık kaynak bir yığınla çalıştırabilmesi için vLLM projesine değişiklikler gönderildi.
  • Şu anda Mistral AI, Mixtral 8x7B'yi mistral-small endpoint'inin arkasında kullanıyor ve beta sürümünde erişime açık
  • Tüm generation ve embedding endpoint'leri için erken erişim başvurusu yapılabiliyor

2 yorum

 
cosine20 2023-12-12

Aşağıdaki yorumda da belirtildiği gibi, ilk başta 8x7B'yi görünce toplam parametre sayısı 56B mi acaba diye düşünmüştüm.

 
GN⁺ 2023-12-12
Hacker News görüşleri
  • Andrej Karpathy'nin görüşleri:

    • Mixtral 8x7B hakkındaki resmî gönderi ve vLLM'in çıkarım kodu yayımlandı
    • HuggingFace'in MoE(Mixture of Experts) açıklaması faydalı
    • 70B model performansına, 12.9B yoğun modelin çıkarım hızıyla ulaşılıyor
    • "open weights" teriminin kullanımına olumlu tepki
    • "8x7B" adının yanıltıcı olabileceğine dikkat çekiyor
    • Her token ve katmanın, 8 uzman arasından 2'sini seçmesi biçimiyle ilgili kafa karışıklığından bahsediyor
    • Mistral-medium modeli tanıtılıyor
  • Modelin Huggingface'te kullanılabilir olması:

    • Mixtral modeli Mistralai ve TheBloke üzerinden kullanılabiliyor
  • Yazılım mühendisleri için açıklama talebi:

    • Uzman karışımının nasıl çalıştığını anlamaya ihtiyaç var
  • Mixtral 8x7B'nin boyutuna verilen tepki:

    • 4.5 milyar parametreyi "small" model olarak görmenin ilginç olduğu ifade ediliyor
  • Yapay zekanın geleceğine dair beklenti:

    • MoE'nin yapay zekanın geleceği olacağına dair olumlu bir beklenti var
  • MoE'nin çalışma mantığı ile artıları ve eksileri hakkında soru:

    • Mevcut modellere kıyasla MoE'nin ne tür avantajlar sunduğuna dair açıklamaya ihtiyaç var
  • Model parametreleriyle ilgili kafa karışıklığı:

    • "8x7B" adı, gerçek parametre sayısı ve token üretiminde kullanılan parametreler konusunda kafa karışıklığı dile getiriliyor
  • Mistral'ın yaklaşımına dair açıklama:

    • CEO, Mistral'ın modeli sansürlemeden daha özgür erişim peşinde olduğunu söylüyor
  • Mixtral 8x7B'nin dil yetenekleri:

    • Fransızca, Almanca, İspanyolca, İtalyanca ve İngilizceyi yetkin şekilde kullanıyor
  • Model ve ağırlıklarla ilgili bilgi talebi:

    • Model ve ağırlıklar için bağlantı isteniyor
  • Pazardaki rekabet gücüne dair soru:

    • GPT 3.5'i geride bırakan bir modele sahip olsa da, OpenAI/Google ile rekabette ne tür bir fırsatı olduğu ve geleceğe dair görünüm soruluyor