Modeli çalıştırmak için Ollama, Llama.cpp veya Python kütüphanesi gibi araçlar kullanılabilir. Modelin yaklaşık yarısını RAM'e yüklemek de mümkündür.
Model performansını karşılaştırmak için Hugging Face'in sunduğu resmî olmayan benchmark'lar kullanılabilir. Ancak bunun base model için olduğunu ve gerçek sohbette kullanılan instruct fine-tuned modelden farklı olduğunu unutmamak gerekir.
Mixtral-8x22B-v0.1 modeli, önceki Mixtral 8x7b modeli kadar iyi performans gösterirse oldukça heyecan verici bir model olacaktır.
ChatGPT 4'ün ilk zamanlarda "sihir gibi çalışıyor" diye değerlendirilen performans düzeyine geri dönüp dönemeyeceğine dair ilgi var. Politik doğruculuk uğruna performansın düşürülmüş olmasına dair bir hayal kırıklığı da bulunuyor.
Llama3 çıkmadan önce herkesin en iyi küçük modeli ortaya koymak için yarıştığı bir ortam var gibi görünüyor.
4-bit quantization ile 85 GB VRAM gerekiyor; bu nedenle 4 adet 24G tüketici GPU'su modeli çalıştırmak için yeterli olabilir. KV cache optimizasyonu için de biraz boş alan kalır.
Model ağırlıkları yayımlanalı bir günden fazla olmuş olmasına rağmen Mistral'in resmî bir duyuru ya da model kartı paylaşmamış olması ve modelin Mistral'in kendi platformunda da kullanılamaması garip görünüyor.
1 yorum
Hacker News görüşleri