Mistral, "Mixtral" 8x7B 32k modelini yayımladı [mıknatıs]

(twitter.com/MistralAI)

2 puan yazan GN⁺ 2023-12-09 | 1 yorum | WhatsApp'ta paylaş

1 yorum

GN⁺ 2023-12-09

Hacker News yorumları

Diğer LLM haberleri arasında, henüz belgelenmemiş neural alignment adlı yeni bir teknikle eğitilen Mistral/Yi fine-tune modelleri Hugging Face liderlik tablosunda diğer modellerin ciddi ölçüde önüne geçiyor
7B, çoğu 70B modeli “yeniyor”; test aşamasındaki 34B de çok iyi görünüyor
https://huggingface.co/fblgit/una-xaberius-34b-v1beta
https://huggingface.co/fblgit/una-cybertron-7b-v2-bf16
Teorik olarak bu teknik Mistral MoE’ye de uygulanabilir; normal Mistral 7B’deki kadar bir sıçrama görülürse ve Mistral MoE’nin kendisi de iyiyse, ortaya çıkan model epey ürkütücü olabilir
Masaüstünde çalıştırılabilen açık kaynak modellerin GPT-4’ün gerçekten dibine kadar yaklaşmaya başladığı kırılma noktası bu olabilir
- 7B sürümünü denedim; daha önce kullandıklarımdan kesinlikle farklı hissettirdi
  Bir Docker Compose dosyasını açıklayabildi ve basit bir Vue uygulaması bileşeni de oluşturdu
  Örnek üzerinden biraz daha soru sorunca, tüm sohbet boyunca tuhaf derecede tutarlı ve odaklıydı; bağlamı temizlemeden yeni bir konuya mı geçtiğimi yoksa önceki içeriğe mi atıf yaptığımı iyi ayırt etti
  Özellikle “What does following mean [docker compose içeriği]” diye sorduğumda cybertron-7b, “verilen YAML yapılandırmasında ‘following’ bağımlılık belirtimini ifade eder” gibi, benim ifademi aynen tırnak içine alarak yanıtladı; konuşmada bu şekilde tam ifadeyi alıntılayan bir modeli ilk kez gördüm
- Merak edip en küçük varyant için TheBloke’un GGUF sürümünü[1] temel alan bir ollama modelfile hazırladım; bu kadar küçük bir model için gerçekten GPT-4’e benzeyen hissi epey koruyor
  Daha önce yerel LLM olarak çoğunlukla kullandığım openhermes2.5-mistral’dan daha tutarlı hissettiriyor
  ollama kuruluysa ollama run nollama/una-cybertron-7b-v2 ile çalıştırmayı deneyebilirsiniz
  [1]: https://huggingface.co/TheBloke/una-cybertron-7B-v2-GGUF
- Evet. UNA, MoE’yi birden fazla katmana, uzmana, neredeyse sinir ağının herhangi bir bölümüne hizalayabiliyor gibi görünüyor
  Xaberius 34B v1 “BETA” kral; ama kelimenin tam anlamıyla hâlâ sadece beta
  Şimdi Mixtral’e odaklanacağım; bu kadar modüler olması Noel hediyesi gibi. Laboratuvarı açtığı için @mistral’a teşekkürler
- Artık LLM benchmark’ları en iyi ihtimalle anlamsız, kötü ihtimalle de yalana yakın değil mi?
- Evet. Mistral, ‘güvenlik eğitimi’ ile modeli hadım edercesine zayıflatmaya pek önem vermiyor
  Bu yüzden Anthropic/Google/OpenAI’ye göre parametre başına performansı çok daha iyi olabilirken, yönlendirilebilirliği de daha yüksek olabilir
Andrej Karpathy’nin yorumu:
@MistralAI’nin yeni açık ağırlıklı LLM’i
params.json’a göre hidden_dim / dim = 14336/4096 => 3.5X MLP genişlemesi, n_heads / n_kv_heads = 32/8 => 4X multiquery, "moe" => uzmanlar karışımı 8X top 2
İlgili kod gibi görünen şey:
https://github.com/mistralai/megablocks-public
Garip şekilde “AI devrimi”nden bahseden aşırı prova edilmiş profesyonel bir lansman videosu yok
Şu sıralar AI tarafında neden bu kadar çok hareketlilik olduğunu merak ediyorsanız, en büyük derin öğrenme konferansı NeurIPS önümüzdeki hafta olduğu için
https://twitter.com/karpathy/status/1733181701361451130
- NeurIPS önümüzdeki haftaysa, çeşitli şirketlerden yeni mimariler veya modeller gibi büyük duyurular beklemeli miyiz? Araştırma konferansı kültürüne aşina olmadığım için merak ediyorum
- hidden_dim / dim = 14336/4096 => 3.5X MLP genişlemesi ve n_heads / n_kv_heads = 32/8 => 4X ikisi de mevcut Mistral-7B ile birebir aynı
- EMNLP 2023 de şu anda yapılıyor, bu yüzden duyurular birikiyor
Mistral açıklama kısmına pek emek harcamıyor gibi görünse de, bu yaklaşım ürüne Google’ın pürüzsüz, kurumsal ve ruhsuz Gemini duyurusundan çok daha fazla güven veriyor
- Belgelerden ziyade ağırlıkların yayımlanması daha iyi
  Bir Google çalışanının Gemini’nin ağırlıklarını, hem de yalnızca küçük mobil Gemini’yi yayımladıklarını, sanki bunun diğer şirketlerden daha cömert bir hamle olduğunu söyleyerek övündüğünü hatırlıyorum
Gösterişli bir duyuru şart mı? 90’lar usulü yapmak yeter: https://twitter.com/erhartford/status/1733159666417545641/ph...
- Açıkça manipüle edilmiş ve gerçek dışı pazarlama sayfaları ya da videolar yayımlamaktan çok daha cesur ve özgüvenli bir yöntem gibi görünüyor
Uzmanlar karışımı (MoE) gibi görünüyor ve params.json şöyle
{ "dim": 4096, "n_layers": 32, "head_dim": 128, "hidden_dim": 14336, "n_heads": 32, "n_kv_heads": 8, "norm_eps": 1e-05, "vocab_size": 32000, "moe": { "num_experts_per_tok": 2, "num_experts": 8 } }
- Bu bağlamda uzman tam olarak ne anlama geliyor?
- Orada kod görünmüyor; hangi runtime bu ağırlıkları yükleyebilir?
Hedefleri tam olarak benzer şirketler olmasalar da, bu model duyurusunu iki gün önce Google’ın Gemini duyurusuyla karşılaştırınca epey komik oluyor
Bu, haftanın başında Google’ın “sadece demo var, model yok” yaklaşımıyla keskin bir tezat oluşturuyor
Stanford’un Megablocks’u ile eğitilmiş gibi görünüyor: https://github.com/mistralai/megablocks-public
Tartışmalı olabilir ama Mistral 7B’nin gerçek LLM son teknolojisi olduğunu düşünüyorum
ChatGPT 4’ün etkileyici olduğu doğru ve ilk günden beri aboneyim; ama devasa, uzaktaki sunucu çiftliklerinde çalışıyor ve neredeyse bir kara kutu
Mistral küçük; boyutuna göre hem genel sorularda hem de kodda şaşırtıcı derecede tutarlı ve kullanışlı, sansürsüz ve bir yılda mümkün olacağına inanması zor bir sıçrama
MacBook Air’de 12 tok/s ile çalıştırılabiliyor; masaüstünde denemeyi dört gözle bekliyorum
- MacBook Air’de çalıştırılabilir modeller arasında son teknoloji, ama genel olarak LLM’lerin ya da açık kaynağın tamamında son teknoloji değil
  Yi 34B ve Llama2 70B hâlâ daha iyi
- İnternette tüketilen bilginin %50’si son 24 saat içinde üretiliyorsa, küçük modeller büyük modellere göre epey büyük bir avantaja sahip olabilir
  LLM’leri ya da SmallLM’leri güncel bilgileri yansıtacak şekilde haftalık veya günlük olarak sürekli yeniden eğitmek ya da fine-tune etmek mümkün olursa, 1-2 yıl önce eğitilmiş eski bir modelin buna yetişmesi zor
  Lisansı bilmiyorum ama OpenAI, Mistral7B gibi küçük bir modeli GPT yığınına koyup her hafta sıfırdan yeniden eğiterek GPT-4 ile aynı fiyatı isteyebilir
  Performansı daha zayıf olsa da güncelliği olan bir modeli tercih edecek kullanıcılar kesinlikle olacaktır
- Katılıyorum. Mistral 7B gerçekten şaşırtıcı derecede iyi
  Intel sürümü veya Berkeley Starling gibi fine-tune edilmiş modeller, sadece 7B olmalarına rağmen gpt3.5T’ye oldukça yakın hissettiriyor
  13B Mistral’ı gerçekten bekliyordum; bu MoE’nin 24GB 3090’da çalışıp çalışmayacağını bilmiyorum
  Kuantizasyon, offloading ve ileride gelecek tekniklerle çalıştırılabilir hâle gelmesini umuyorum
- MacBook Air’de 12 tok/s biraz düşük görünüyor
  llama.cpp’de Metal GPU hızlandırması kullanıyor musun? MacBook’um yok ama llama.cpp benchmark’larına bakınca GPU hızlandırmasıyla neredeyse 30 tok/s’ye kadar çıkılabiliyor gibi görünüyordu
- Gerçekten öyle. En azından llama2 13b ile aynı seviyede gibi hissettiriyor
  mistral 70b var olsaydı ve 7b boyutunda llama2’ye kıyasla gösterdiği iyileşme kadar llama2 70b’den daha iyi olsaydı, kesinlikle gpt3.5’e benzer bir seviyede olurdu
Artık deneysel olarak çalışan bir Hugging Face sürümü var: https://huggingface.co/DiscoResearch/mixtral-7b-8expert
Google sahte demo yaptı, Mistral ise işi tek bir magnet link ile bitirdi

Mistral, "Mixtral" 8x7B 32k modelini yayımladı [mıknatıs]

İlgili okumalar

1 yorum

Hacker News yorumları