1 puan yazan GN⁺ 2024-04-12 | 1 yorum | WhatsApp'ta paylaş

1 yorum

 
GN⁺ 2024-04-12
Hacker News görüşleri
  • Modeli çalıştırmak için Ollama, Llama.cpp veya Python kütüphanesi gibi araçlar kullanılabilir. Modelin yaklaşık yarısını RAM'e yüklemek de mümkündür.
  • Model performansını karşılaştırmak için Hugging Face'in sunduğu resmî olmayan benchmark'lar kullanılabilir. Ancak bunun base model için olduğunu ve gerçek sohbette kullanılan instruct fine-tuned modelden farklı olduğunu unutmamak gerekir.
  • Mixtral-8x22B-v0.1 modeli, önceki Mixtral 8x7b modeli kadar iyi performans gösterirse oldukça heyecan verici bir model olacaktır.
  • ChatGPT 4'ün ilk zamanlarda "sihir gibi çalışıyor" diye değerlendirilen performans düzeyine geri dönüp dönemeyeceğine dair ilgi var. Politik doğruculuk uğruna performansın düşürülmüş olmasına dair bir hayal kırıklığı da bulunuyor.
  • Llama3 çıkmadan önce herkesin en iyi küçük modeli ortaya koymak için yarıştığı bir ortam var gibi görünüyor.
  • 4-bit quantization ile 85 GB VRAM gerekiyor; bu nedenle 4 adet 24G tüketici GPU'su modeli çalıştırmak için yeterli olabilir. KV cache optimizasyonu için de biraz boş alan kalır.
  • Model ağırlıkları yayımlanalı bir günden fazla olmuş olmasına rağmen Mistral'in resmî bir duyuru ya da model kartı paylaşmamış olması ve modelin Mistral'in kendi platformunda da kullanılamaması garip görünüyor.