Mistral AI, yeni açık modeli Mixtral 8x22B'yi tanıttı

(mistral.ai)

9 puan yazan GN⁺ 2024-04-18 | 6 yorum | WhatsApp'ta paylaş

"Daha ucuz, daha iyi, daha hızlı ve daha güçlü"
Toplam 141B parametrenin yalnızca 39B aktif parametresini kullanan bir Sparse Mixture-of-Experts(SMoE) modeli; bu sayede model boyutuna kıyasla son derece yüksek maliyet verimliliği sunuyor

Mixtral 8x22B'nin başlıca özellikleri

İngilizce, Fransızca, İtalyanca, Almanca ve İspanyolca dillerinde akıcı
Matematik ve kodlama yetenekleri güçlü
Fonksiyon çağırma yerleşik olarak destekleniyor ve la Plateforme üzerinde uygulanan sınırlı çıktı modu ile birlikte büyük ölçekli uygulama geliştirme ve teknoloji yığınının modernizasyonunu mümkün kılıyor
64K token context window sayesinde büyük belge yığınlarından doğru bilgi geri çağırma yapabiliyor

Mistral AI, yapay zekada inovasyon ve iş birliğini teşvik etmek için açıklığın ve geniş dağıtımın gücüne inanıyor
Mixtral 8x22B, en izin verici açık kaynak lisanslarından biri olan Apache 2.0 ile dağıtılıyor; böylece herkes modeli herhangi bir kısıtlama olmadan kullanabiliyor

Mistral AI, her model boyutunda maliyete karşı en iyi performansı sunan modeller geliştirerek topluluğun sunduğu modeller arasında performans/maliyet oranında en iyi sonuçları veriyor
Mixtral 8x22B, Mistral AI'nin açık model ailesinin doğal bir uzantısı konumunda. Sparse etkinleştirme deseni sayesinde Dense 70B modellerden daha hızlı ve izin verici ya da kısıtlayıcı lisanslarla dağıtılan diğer açık ağırlıklı modellere göre daha fazla yetenek sunuyor. Temel modelin erişilebilir olması da onu fine-tuning kullanım senaryoları için çok uygun bir temel haline getiriyor

Mixtral 8x22B, akıl yürütme için optimize edilmiş durumda
Sağduyu, akıl yürütme ve bilgi benchmark'larında (MMLU, HellaSwag, Wino Grande, Arc Challenge, TriviaQA, NaturalQS) en üst düzey açık LLM modelleri arasında en iyi performansı gösteriyor

Mixtral 8x22B, yerleşik çok dilli yeteneklere sahip
Fransızca, Almanca, İspanyolca ve İtalyanca HellaSwag, Arc Challenge ve MMLU benchmark'larında LLaMA 2 70B'yi açık ara geride bırakıyor

Mixtral 8x22B, diğer açık modellere kıyasla kodlama ve matematik görevlerinde en üstün performansı gösteriyor
Kodlama ve matematik benchmark'larında (HumanEval pass@1, MBPP pass@1, GSM8K maj@1/8, Math maj@4) önde gelen açık modeller arasında en iyi performansı sergiliyor
Bugün duyurulan Mixtral 8x22B'nin Instructed sürümü matematikte daha da iyi sonuç vererek GSM8K maj@8'de %90,8 ve Math maj@4'te %44,6 puan aldı

Mixtral 8x22B, Mistral'ın açık modelleri arasında en büyük ölçeğe sahip olmasına rağmen Sparsity'den yararlanarak maliyet açısından son derece verimli bir model. Bu, açık kaynak LLM modellerinin gelişim yönlerinden biri olarak dikkat çekiyor
Model boyutuna kıyasla güçlü çok dilli performansı ile matematik/kodlama yetenekleri, Mixtral 8x22B'nin öne çıkan farklılaştırıcı noktaları gibi görünüyor. Ancak İngilizce dışındaki dillerde desteklenen dil yelpazesi dar ve GPT-4 gibi güncel LLM'lerle karşılaştırıldığında kodlama ve matematik yetenekleri de geride kalıyor
Apache 2.0 lisansı sayesinde herkesin özgürce kullanabilmesi bir avantaj, ancak kötüye kullanım ihtimali de yüksek görünüyor. Açık kaynak yapay zeka modellerinin sorumlu geliştirilmesi ve kullanımı için topluluğun daha fazla çaba göstermesi gerektiği anlaşılıyor
Mixtral modelini kullanarak uygulama geliştirme ve teknoloji yığınını modernize etme imkanı cazip olsa da, büyük ölçekli hizmetlerde uygulanması açısından hâlâ teknik ve maliyet kaynaklı sınırlamalar var gibi görünüyor. Yine de açık kaynak temelli inovasyon örneklerinin artması bekleniyor
Kore'de KakaoBrain, NAVER ve LG AI Research gibi şirketler de kendi LLM'lerini geliştiriyor. Korece işleme performansı gibi Kore pazarına özgü açılardan bu modellerin rekabet gücüne sahip olması bekleniyor

ninebow 2024-04-19

dormis 2024-04-19

Azure AI Studio'da şimdiden kullanılabilir olarak listelenmiş görünüyor. (mistralai-Mixtral-8x7B-v01, mistral-community-Mixtral-8x22B-v0-1)

vkehfdl1 2024-04-18

Polyglot, Kakao Brain tarafından değil TUNiB AI ve EleutherAI tarafından geliştirildi. Halüsinasyon belirtileri var gibi, hüzünlü.

xguru 2024-04-19

Ah, doğru. Düzelttim. Teşekkürler.

xguru 2024-04-18

Claude Opus'tan görüş belirtmesini istediğinizde, bazen böyle yerel konuları da ekliyor. İlginç doğrusu heh

GN⁺ 2024-04-18

Özet:

Vergiyle ilgili bir soru ChatGPT'ye girildiğinde kompozisyon yazma hizmeti reklamı çıktığı söyleniyor
Mixture-of-Experts kavramı için kolay bir açıklama isteniyor
- Alt uzmanlar olduğu fikri anlaşılıyor, ancak eğitim sırasında her uzmanlık alanının nasıl belirlendiği merak ediliyor
64K token bağlam penceresi boyutuyla ilgili hayal kırıklığı
- GPT-4 Turbo'nun 128K'sine yetişememesi ileride alay konusu olabilir
- Gelecekte bunun 1 trilyon token seviyesine çıkmasının beklendiği söyleniyor
MacBook Pro üzerinde LLM çalıştırmanın en iyi yolu soruluyor
- LMStudio arayüz olarak beğenilmiyor, Ollama ise CLI kullanımında rahatsız edici bulunuyor
- OpenAI benzeri şekilde ayarların ayrıntılı yapılabildiği ve prompt düzenlemenin kolay olduğu bir çözüm tercih ediliyor
Açık model sınırları
- Eğitim verisine erişim olmadan modelin kopyalanamayacağı belirtiliyor
Mistral serisiyle performans karşılaştırması sonuçları
Yapay zeka girişimi işletmenin avantajı
- Her yeni büyük model çıktığında ürünün otomatik olarak iyileştiği söyleniyor
non-instructed sürüm bir LLM'nin instructed sürümünün yönlendirmesiz hali mi diye soruluyor
LLM'ler nedeniyle RAM'in önemi yeniden öne çıkıyor
- MacBook Pro'ya ek 32GB RAM taktırmamış olmaktan pişmanlık duyulduğu söyleniyor
Nicemlenmiş modellere yönelik beklenti
- 64GB MacBook Pro'da çalışabilecek 3 bitlik bir model umuluyor