9 puan yazan GN⁺ 2024-04-18 | 6 yorum | WhatsApp'ta paylaş
  • "Daha ucuz, daha iyi, daha hızlı ve daha güçlü"
  • Toplam 141B parametrenin yalnızca 39B aktif parametresini kullanan bir Sparse Mixture-of-Experts(SMoE) modeli; bu sayede model boyutuna kıyasla son derece yüksek maliyet verimliliği sunuyor

Mixtral 8x22B'nin başlıca özellikleri

  • İngilizce, Fransızca, İtalyanca, Almanca ve İspanyolca dillerinde akıcı
  • Matematik ve kodlama yetenekleri güçlü
  • Fonksiyon çağırma yerleşik olarak destekleniyor ve la Plateforme üzerinde uygulanan sınırlı çıktı modu ile birlikte büyük ölçekli uygulama geliştirme ve teknoloji yığınının modernizasyonunu mümkün kılıyor
  • 64K token context window sayesinde büyük belge yığınlarından doğru bilgi geri çağırma yapabiliyor

Gerçek anlamda açık bir model

  • Mistral AI, yapay zekada inovasyon ve iş birliğini teşvik etmek için açıklığın ve geniş dağıtımın gücüne inanıyor
  • Mixtral 8x22B, en izin verici açık kaynak lisanslarından biri olan Apache 2.0 ile dağıtılıyor; böylece herkes modeli herhangi bir kısıtlama olmadan kullanabiliyor

En yüksek verimlilik

  • Mistral AI, her model boyutunda maliyete karşı en iyi performansı sunan modeller geliştirerek topluluğun sunduğu modeller arasında performans/maliyet oranında en iyi sonuçları veriyor
  • Mixtral 8x22B, Mistral AI'nin açık model ailesinin doğal bir uzantısı konumunda. Sparse etkinleştirme deseni sayesinde Dense 70B modellerden daha hızlı ve izin verici ya da kısıtlayıcı lisanslarla dağıtılan diğer açık ağırlıklı modellere göre daha fazla yetenek sunuyor. Temel modelin erişilebilir olması da onu fine-tuning kullanım senaryoları için çok uygun bir temel haline getiriyor

Rakipsiz açık performans

Akıl yürütme ve bilgi

  • Mixtral 8x22B, akıl yürütme için optimize edilmiş durumda
  • Sağduyu, akıl yürütme ve bilgi benchmark'larında (MMLU, HellaSwag, Wino Grande, Arc Challenge, TriviaQA, NaturalQS) en üst düzey açık LLM modelleri arasında en iyi performansı gösteriyor

Çok dilli yetenekler

  • Mixtral 8x22B, yerleşik çok dilli yeteneklere sahip
  • Fransızca, Almanca, İspanyolca ve İtalyanca HellaSwag, Arc Challenge ve MMLU benchmark'larında LLaMA 2 70B'yi açık ara geride bırakıyor

Matematik ve kodlama

  • Mixtral 8x22B, diğer açık modellere kıyasla kodlama ve matematik görevlerinde en üstün performansı gösteriyor
  • Kodlama ve matematik benchmark'larında (HumanEval pass@1, MBPP pass@1, GSM8K maj@1/8, Math maj@4) önde gelen açık modeller arasında en iyi performansı sergiliyor
  • Bugün duyurulan Mixtral 8x22B'nin Instructed sürümü matematikte daha da iyi sonuç vererek GSM8K maj@8'de %90,8 ve Math maj@4'te %44,6 puan aldı

GN⁺ görüşü

  • Mixtral 8x22B, Mistral'ın açık modelleri arasında en büyük ölçeğe sahip olmasına rağmen Sparsity'den yararlanarak maliyet açısından son derece verimli bir model. Bu, açık kaynak LLM modellerinin gelişim yönlerinden biri olarak dikkat çekiyor
  • Model boyutuna kıyasla güçlü çok dilli performansı ile matematik/kodlama yetenekleri, Mixtral 8x22B'nin öne çıkan farklılaştırıcı noktaları gibi görünüyor. Ancak İngilizce dışındaki dillerde desteklenen dil yelpazesi dar ve GPT-4 gibi güncel LLM'lerle karşılaştırıldığında kodlama ve matematik yetenekleri de geride kalıyor
  • Apache 2.0 lisansı sayesinde herkesin özgürce kullanabilmesi bir avantaj, ancak kötüye kullanım ihtimali de yüksek görünüyor. Açık kaynak yapay zeka modellerinin sorumlu geliştirilmesi ve kullanımı için topluluğun daha fazla çaba göstermesi gerektiği anlaşılıyor
  • Mixtral modelini kullanarak uygulama geliştirme ve teknoloji yığınını modernize etme imkanı cazip olsa da, büyük ölçekli hizmetlerde uygulanması açısından hâlâ teknik ve maliyet kaynaklı sınırlamalar var gibi görünüyor. Yine de açık kaynak temelli inovasyon örneklerinin artması bekleniyor
  • Kore'de KakaoBrain, NAVER ve LG AI Research gibi şirketler de kendi LLM'lerini geliştiriyor. Korece işleme performansı gibi Kore pazarına özgü açılardan bu modellerin rekabet gücüne sahip olması bekleniyor

6 yorum

 
dormis 2024-04-19

Azure AI Studio'da şimdiden kullanılabilir olarak listelenmiş görünüyor. (mistralai-Mixtral-8x7B-v01, mistral-community-Mixtral-8x22B-v0-1)

 
vkehfdl1 2024-04-18

Polyglot, Kakao Brain tarafından değil TUNiB AI ve EleutherAI tarafından geliştirildi. Halüsinasyon belirtileri var gibi, hüzünlü.

 
xguru 2024-04-19

Ah, doğru. Düzelttim. Teşekkürler.

 
xguru 2024-04-18

Claude Opus'tan görüş belirtmesini istediğinizde, bazen böyle yerel konuları da ekliyor. İlginç doğrusu heh

 
GN⁺ 2024-04-18
Hacker News görüşleri

Özet:

  • Vergiyle ilgili bir soru ChatGPT'ye girildiğinde kompozisyon yazma hizmeti reklamı çıktığı söyleniyor
  • Mixture-of-Experts kavramı için kolay bir açıklama isteniyor
    • Alt uzmanlar olduğu fikri anlaşılıyor, ancak eğitim sırasında her uzmanlık alanının nasıl belirlendiği merak ediliyor
  • 64K token bağlam penceresi boyutuyla ilgili hayal kırıklığı
    • GPT-4 Turbo'nun 128K'sine yetişememesi ileride alay konusu olabilir
    • Gelecekte bunun 1 trilyon token seviyesine çıkmasının beklendiği söyleniyor
  • MacBook Pro üzerinde LLM çalıştırmanın en iyi yolu soruluyor
    • LMStudio arayüz olarak beğenilmiyor, Ollama ise CLI kullanımında rahatsız edici bulunuyor
    • OpenAI benzeri şekilde ayarların ayrıntılı yapılabildiği ve prompt düzenlemenin kolay olduğu bir çözüm tercih ediliyor
  • Açık model sınırları
    • Eğitim verisine erişim olmadan modelin kopyalanamayacağı belirtiliyor
  • Mistral serisiyle performans karşılaştırması sonuçları
  • Yapay zeka girişimi işletmenin avantajı
    • Her yeni büyük model çıktığında ürünün otomatik olarak iyileştiği söyleniyor
  • non-instructed sürüm bir LLM'nin instructed sürümünün yönlendirmesiz hali mi diye soruluyor
  • LLM'ler nedeniyle RAM'in önemi yeniden öne çıkıyor
    • MacBook Pro'ya ek 32GB RAM taktırmamış olmaktan pişmanlık duyulduğu söyleniyor
  • Nicemlenmiş modellere yönelik beklenti
    • 64GB MacBook Pro'da çalışabilecek 3 bitlik bir model umuluyor