1 puan yazan GN⁺ 2024-01-10 | 1 yorum | WhatsApp'ta paylaş

Mixtral of Experts'e Giriş

  • Mixtral 8x7B, Sparse Mixture of Experts (SMoE) dil modelidir.
  • Mixtral, Mistral 7B ile aynı mimariye sahiptir; ancak her katman 8 adet feed-forward bloktan (uzman) oluşur.
  • Her token için yönlendirici ağ, mevcut durumu işleyecek iki uzmanı seçer ve onların çıktılarını birleştirir.

Performans ve benchmark'lar

  • Her token 47B parametreye erişebilir, ancak çıkarım sırasında yalnızca 13B aktif parametre kullanılır.
  • Mixtral, 32k token bağlam boyutuyla eğitildi ve değerlendirilen tüm benchmark'larda Llama 2 70B ile GPT-3.5'i geçti veya onlarla aynı düzeye ulaştı.
  • Özellikle matematik, kod üretimi ve çok dilli benchmark'larda Llama 2 70B'yi açık ara geride bıraktı.

Model fine-tuning'i ve lisans

  • Yönergeleri takip edecek şekilde fine-tuning yapılan model Mixtral 8x7B - Instruct, insan benchmark'larında GPT-3.5 Turbo, Claude-2.1, Gemini Pro ve Llama 2 70B - chat modellerini geride bıraktı.
  • Hem temel model hem de instruct model Apache 2.0 lisansı altında yayımlandı.

GN⁺ görüşü

  • Mixtral 8x7B'nin mevcut dil modelleriyle karşılaştırıldığında üstün performans gösterdiği değerlendiriliyor. Bu, yapay zeka dil işleme alanındaki ilerlemeyi gösteren önemli bir işaret.
  • Özellikle farklı diller ve kod üretimindeki performans artışı, makine çevirisi ve otomatik programlama gibi çeşitli uygulama alanlarında olumlu etki yaratabilir.
  • Apache 2.0 lisansı altında yayımlanması, araştırmacıların ve geliştiricilerin bu modeli özgürce kullanıp geliştirmesine olanak tanıyarak açık kaynak yapay zeka topluluğunun büyümesine katkı sağlayacaktır.

1 yorum

 
GN⁺ 2024-01-10
Hacker News görüşleri
  • Mixtral 8x7B modeli hakkında tartışma

    • Mixtral 8x7B modeli yaklaşık bir aydır kullanılıyor ve 13B boyutunda çok iyi performans gösteriyor.
    • Rakip modellere kıyasla üst sıralarda yer alıyor ve günlük Mac kullanımında sohbet, kod girişi gibi işler için çok kullanışlı.
    • Mistral 7B'den başlayan 8 uzmanın her birinin farklı yönlerde gelişmiş olabileceği öne sürülüyor.
    • Mistral için 8x7B ağını eğitmenin, 8 adet 7B ağı eğitmek kadar çaba gerektirmediği anlaşılıyor.
    • LLM alanında hâlâ hızlı yenilikler yaşanıyor; Calm gibi yeni araştırmalar ve Goliath-120b gibi deneysel modeller ortaya çıkıyor.
    • 2024'ün ilk yarısında tüketici donanımında iyi performans veren modellerin ortaya çıkması bekleniyor.
  • Modelin performansı ve kullanılabilirliği

    • Bu model, 13B parametre kullanarak 3090 üzerinde yüksek kalitede akıcı biçimde çalışıyor, humaneval'da GPT-3.5'i geçiyor ve 32k bağlamı destekliyor.
    • 3090, oyuncular arasında yaygın olarak kullanılan tüketici sınıfı bir donanım.
    • Oyun geliştiricilerin oyun içinde Mixtral kullanmaya başlaması bekleniyor.
  • Modelin nasıl kullanılacağı

    • Mixtral modeli Mozilla/jart tarafından Llamafile olarak yayımlandı; kullanıcılar bu dosyayı indirip çalıştırabiliyor.
  • Mac Silicon'da kullanım

    • Mac Silicon kullanıcıları Mixtral'ı ollama.ai üzerinden indirebilir ve ollama-webui ile bir web arayüzü kurabilir.
  • İlgili haberler ve tartışmalar

    • Mixtral modeliyle ilgili yakın tarihli haber ve tartışma bağlantıları sunuluyor.
  • Modelin benchmark performansı

    • Mixtral, matematik, kod üretimi ve çok dilli benchmark'larda Llama 2 70B modelini açık farkla geride bırakıyor.
    • Matematik alanındaki performansa ilgi var; bu alanın henüz etkili biçimde çözülmediği düşünülüyor.
  • Makale hakkındaki eleştirel görüşler

    • LLM hakkındaki makalelerin ayrıntı bakımından yetersiz olduğuna dair eleştiriler var.
    • Uzmanların nasıl eğitildiği ve hangi veri kümelerinin kullanıldığına dair açıklamaların eksik olduğu belirtiliyor.
  • Mistral kurucusunun röportaj içeriği

    • Mistral'ın kurucusu, A16Z podcast röportajında chatGPT ile GPT4 seviyesi arasında birçok dahili modele sahip olduklarını söylemişti.
    • Şimdiye kadarki yüksek kaliteli yayınlara bakarak açık kaynak LLM'ler için beklenti dile getiriliyor.
  • Her uzman modelin açıklaması

    • 8 modelden birinin çok dilli çeviride, bir diğerinin ise kodlamada uzmanlaşıp uzmanlaşmadığına dair makalede bir açıklama yok.
  • Multimodal modelin yayımlanmasına dair beklenti

    • Yalnızca metin işleyen modellerdeki ilerleme şaşırtıcı olsa da GPT-4'ün "ortaya çıkan" davranışlarının multimodal eğitimden kaynaklanıp kaynaklanmadığı merak ediliyor.
    • Multimodal içeren küçük modellerin benzer sıçramalar gösterip göstermeyeceğine ilgi var.