Mistral AI, yeni 8x22B MoE modelini tanıttı

(twitter.com/MistralAI)

1 puan yazan GN⁺ 2024-04-12 | 1 yorum | WhatsApp'ta paylaş

1 yorum

GN⁺ 2024-04-12

Hacker News yorumları

Ağırlıklar ve donanım mevcutken bu modeli çalıştırmanın en kolay yolunu merak ediyorum
Modelin yarısını RAM'e offload etsem bile hangi araçla yüklemem gerektiğini; Ollama mı, Llama.cpp mi, yoksa bir Python kütüphanesiyle içe aktarmanın yeterli olup olmadığını bilmek istiyorum
Ayrıca başka bir modelle karşılaştırmak için benchmark nasıl yapılmalı, hazır kullanılabilir bir araç var mı onu da merak ediyorum
- llamafile yöntemi en iyisi gibi görünüyor
  Binary komut satırında çalışıyor ya da küçük bir web sunucusu ayağa kaldırıyor
  llamafile, Mixtral-8x7B-Instruct build'i sağlıyor; bu model de muhtemelen paketlenebilir ve nicemleme formatında olabilir
  Ekosistemi daha iyi bilen birinden doğrulamak gerekir ama yeni modelin de olduğu gibi llamafile'da çalışabileceğini düşünüyorum
  https://github.com/Mozilla-Ocho/llamafile
- En kolay yöntem vllm(https://github.com/vllm-project/vllm) ile yaklaşık iki A100 üzerinde çalıştırmak; benchmark için de lm-evaluation-harness(https://github.com/EleutherAI/lm-evaluation-harness) kullanılabilir
- MacBook'ta LLM test etmek için LM Studio harika: https://lmstudio.ai/
  Uygulama içinde Hugging Face'teki yeni modelleri arayıp hemen test etmek çok kolay
- Hugging Face'te The Bloke adlı bir kullanıcı var; tam boyutlu model çıktıktan kısa süre sonra önceden nicemlenmiş modelleri yüklüyor
  O sayfayı takip edip 4 bit modelin GPU'ya sığmasını dilemek yeterli
  Muhtemelen şimdiden üzerinde çalışıyordur
- Together'da buradan deneyebilirsiniz:
  https://api.together.xyz/playground/language/mistralai/Mixtral-8x22B
Yinelenen gönderi burada: https://news.ycombinator.com/item?id=39986047
Profil yerine tweet bağlantısı içeren gönderi:
https://twitter.com/MistralAI/status/1777869263778291896
8x22B ha; bu Mixtral 8x7B kadar iyiyse gerçekten ilginç zamanlar olacak
- Command R'ın benchmarklarda GPT-4'ü geçen ilk açık kaynak model olduğunu duydum
- Zaten 8x7B varken başka bir 8x7B istemek için sebep yok; demek ki daha iyi, değil mi?
Konudan biraz sapıyor ama artık insanların sihir gibi dediği dönemlerdeki ChatGPT 4 performansına yeniden ulaşıp ulaşmadığımızı merak ediyorum
Politik olarak daha doğru hale getirilirken performansı ciddi biçimde düşmeden önceki ölçütten bahsediyorum
- MacBook'ta çeşitli LLM'ler test ettim; GPT-4'ün hangi dönemiyle karşılaştırırsam karşılaştırayım, bence hâlâ hepsi epey geride
  Bununla birlikte GPT-3 seviyesinde çok model var ve belirli işlere göre ince ayarlanmış modeller de epey mevcut
  Açık modellerde büyük ölçüde eksik kalan kısım dil desteği
  Norveççe kullanılabilir sonuç veren yalnızca bir model gördüm; GPT-4'te ise bu hiçbir zaman sorun olmamıştı
- Açık modeller açısından en azından ChatGPT 4'ün ilk sürüm performansına ulaşıldığını düşünüyorum
Llama 3 çıkmadan önce herkesin en iyi küçük modelini çıkarma yarışı mı bu?
- 262GB için pek küçük denemez
  Yine de herkes, Llama 3'ten daha kötü sonuçlar çıkarsa sonradan yayımlamak mahcup edici olabilir diye şimdi piyasaya sürüyor gibi görünüyor
- Llama 3'ün önümüzdeki 2 hafta içinde çıkacağı söylentilerine bakınca oldukça makul
Mixtral 8x7B kullanması keyifliydi; bu modeli de denemeyi dört gözle bekliyorum
Resmi olmayan benchmark burada:
https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1/discussions/4
- Keşke burada GPT-4 de olsaydı
  Hâlâ aşılması gereken model o
4 bit nicemleme muhtemelen 85GB VRAM gerektirir; yani 24GB'lık tüketici GPU'larından 4 tanesine rahatça sığar ve KV cache optimizasyonu için de biraz pay kalır
- 4 bit ise bundan daha az kullanabilir
  Çünkü uzman modeller arasında paylaşılan epey parametre var
  Ancak batch boyutu 1 ile çalıştırmıyorsanız 8 GPU'lu kurulumdan daha sancılı olabilir
  Batch içinde uzmanların çoğunun veya tamamının etkinleşme olasılığı neredeyse kesin
- Mixtral 8x7B'nin 2 bit nicemlemesi 8GB GPU'da bile bazı kullanım amaçları için fena değildi
  Bu yeni modelin 8-16GB sınıfı ucuz GPU kurulumlarında nasıl çalışacağını merak ediyorum
Bunun bir temel model olduğu, talimat modeli olmadığı çok önemli
Sohbet için yararlı olan, talimatlarla ince ayarlanmış modeldir
- Güçlü bir temel modeli doğrudan kullanmak nasıl bir his, merak ediyorum
  Sadece prompt metnini devam ettirir gibi tamamlama mı yapıyor?
Llama 3'ün yayımlanacağı zamana tam denk geldi
- Aynı gün Google Gemini Pro neredeyse tamamen açık uzun bağlamlı multimodal erişim sundu, OpenAI da GPT-4-Turbo'yu yükseltti; haberlerin yağdığı büyük bir gündü

Mistral AI, yeni 8x22B MoE modelini tanıttı

İlgili okumalar

1 yorum

Hacker News yorumları