- "Daha ucuz, daha iyi, daha hızlı ve daha güçlü"
- Toplam 141B parametrenin yalnızca 39B aktif parametresini kullanan bir Sparse Mixture-of-Experts(SMoE) modeli; bu sayede model boyutuna kıyasla son derece yüksek maliyet verimliliği sunuyor
Mixtral 8x22B'nin başlıca özellikleri
- İngilizce, Fransızca, İtalyanca, Almanca ve İspanyolca dillerinde akıcı
- Matematik ve kodlama yetenekleri güçlü
- Fonksiyon çağırma yerleşik olarak destekleniyor ve la Plateforme üzerinde uygulanan sınırlı çıktı modu ile birlikte büyük ölçekli uygulama geliştirme ve teknoloji yığınının modernizasyonunu mümkün kılıyor
- 64K token context window sayesinde büyük belge yığınlarından doğru bilgi geri çağırma yapabiliyor
Gerçek anlamda açık bir model
- Mistral AI, yapay zekada inovasyon ve iş birliğini teşvik etmek için açıklığın ve geniş dağıtımın gücüne inanıyor
- Mixtral 8x22B, en izin verici açık kaynak lisanslarından biri olan Apache 2.0 ile dağıtılıyor; böylece herkes modeli herhangi bir kısıtlama olmadan kullanabiliyor
En yüksek verimlilik
- Mistral AI, her model boyutunda maliyete karşı en iyi performansı sunan modeller geliştirerek topluluğun sunduğu modeller arasında performans/maliyet oranında en iyi sonuçları veriyor
- Mixtral 8x22B, Mistral AI'nin açık model ailesinin doğal bir uzantısı konumunda. Sparse etkinleştirme deseni sayesinde Dense 70B modellerden daha hızlı ve izin verici ya da kısıtlayıcı lisanslarla dağıtılan diğer açık ağırlıklı modellere göre daha fazla yetenek sunuyor. Temel modelin erişilebilir olması da onu fine-tuning kullanım senaryoları için çok uygun bir temel haline getiriyor
Rakipsiz açık performans
Akıl yürütme ve bilgi
- Mixtral 8x22B, akıl yürütme için optimize edilmiş durumda
- Sağduyu, akıl yürütme ve bilgi benchmark'larında (MMLU, HellaSwag, Wino Grande, Arc Challenge, TriviaQA, NaturalQS) en üst düzey açık LLM modelleri arasında en iyi performansı gösteriyor
Çok dilli yetenekler
- Mixtral 8x22B, yerleşik çok dilli yeteneklere sahip
- Fransızca, Almanca, İspanyolca ve İtalyanca HellaSwag, Arc Challenge ve MMLU benchmark'larında LLaMA 2 70B'yi açık ara geride bırakıyor
Matematik ve kodlama
- Mixtral 8x22B, diğer açık modellere kıyasla kodlama ve matematik görevlerinde en üstün performansı gösteriyor
- Kodlama ve matematik benchmark'larında (HumanEval pass@1, MBPP pass@1, GSM8K maj@1/8, Math maj@4) önde gelen açık modeller arasında en iyi performansı sergiliyor
- Bugün duyurulan Mixtral 8x22B'nin Instructed sürümü matematikte daha da iyi sonuç vererek GSM8K maj@8'de %90,8 ve Math maj@4'te %44,6 puan aldı
GN⁺ görüşü
- Mixtral 8x22B, Mistral'ın açık modelleri arasında en büyük ölçeğe sahip olmasına rağmen Sparsity'den yararlanarak maliyet açısından son derece verimli bir model. Bu, açık kaynak LLM modellerinin gelişim yönlerinden biri olarak dikkat çekiyor
- Model boyutuna kıyasla güçlü çok dilli performansı ile matematik/kodlama yetenekleri, Mixtral 8x22B'nin öne çıkan farklılaştırıcı noktaları gibi görünüyor. Ancak İngilizce dışındaki dillerde desteklenen dil yelpazesi dar ve GPT-4 gibi güncel LLM'lerle karşılaştırıldığında kodlama ve matematik yetenekleri de geride kalıyor
- Apache 2.0 lisansı sayesinde herkesin özgürce kullanabilmesi bir avantaj, ancak kötüye kullanım ihtimali de yüksek görünüyor. Açık kaynak yapay zeka modellerinin sorumlu geliştirilmesi ve kullanımı için topluluğun daha fazla çaba göstermesi gerektiği anlaşılıyor
- Mixtral modelini kullanarak uygulama geliştirme ve teknoloji yığınını modernize etme imkanı cazip olsa da, büyük ölçekli hizmetlerde uygulanması açısından hâlâ teknik ve maliyet kaynaklı sınırlamalar var gibi görünüyor. Yine de açık kaynak temelli inovasyon örneklerinin artması bekleniyor
- Kore'de KakaoBrain, NAVER ve LG AI Research gibi şirketler de kendi LLM'lerini geliştiriyor. Korece işleme performansı gibi Kore pazarına özgü açılardan bu modellerin rekabet gücüne sahip olması bekleniyor
6 yorum
Mixtral 8x22B temel model: https://huggingface.co/mistralai/Mixtral-8x22B-v0.1
Mixtral 8x22B Instruct modeli: https://huggingface.co/mistralai/Mixtral-8x22B-Instruct-v0.1
Azure AI Studio'da şimdiden kullanılabilir olarak listelenmiş görünüyor. (
mistralai-Mixtral-8x7B-v01,mistral-community-Mixtral-8x22B-v0-1)Polyglot, Kakao Brain tarafından değil TUNiB AI ve EleutherAI tarafından geliştirildi. Halüsinasyon belirtileri var gibi, hüzünlü.
Ah, doğru. Düzelttim. Teşekkürler.
Claude Opus'tan görüş belirtmesini istediğinizde, bazen böyle yerel konuları da ekliyor. İlginç doğrusu heh
Hacker News görüşleri
Özet:
ChatGPT'ye girildiğinde kompozisyon yazma hizmeti reklamı çıktığı söyleniyorMixture-of-Expertskavramı için kolay bir açıklama isteniyorGPT-4 Turbo'nun 128K'sine yetişememesi ileride alay konusu olabilirMacBook ProüzerindeLLMçalıştırmanın en iyi yolu soruluyorLMStudioarayüz olarak beğenilmiyor,Ollamaise CLI kullanımında rahatsız edici bulunuyorOpenAIbenzeri şekilde ayarların ayrıntılı yapılabildiği ve prompt düzenlemenin kolay olduğu bir çözüm tercih ediliyorMistralserisiyle performans karşılaştırması sonuçlarınon-instructedsürüm birLLM'nininstructedsürümünün yönlendirmesiz hali mi diye soruluyorLLM'ler nedeniyle RAM'in önemi yeniden öne çıkıyorMacBook Pro'ya ek 32GB RAM taktırmamış olmaktan pişmanlık duyulduğu söyleniyorMacBook Pro'da çalışabilecek 3 bitlik bir model umuluyor