Diğer LLM haberleri arasında, henüz belgelenmemiş neural alignment adlı yeni bir teknikle eğitilen Mistral/Yi fine-tune modelleri Hugging Face liderlik tablosunda diğer modellerin ciddi ölçüde önüne geçiyor
7B, çoğu 70B modeli “yeniyor”; test aşamasındaki 34B de çok iyi görünüyor https://huggingface.co/fblgit/una-xaberius-34b-v1beta https://huggingface.co/fblgit/una-cybertron-7b-v2-bf16
Teorik olarak bu teknik Mistral MoE’ye de uygulanabilir; normal Mistral 7B’deki kadar bir sıçrama görülürse ve Mistral MoE’nin kendisi de iyiyse, ortaya çıkan model epey ürkütücü olabilir
Masaüstünde çalıştırılabilen açık kaynak modellerin GPT-4’ün gerçekten dibine kadar yaklaşmaya başladığı kırılma noktası bu olabilir
7B sürümünü denedim; daha önce kullandıklarımdan kesinlikle farklı hissettirdi
Bir Docker Compose dosyasını açıklayabildi ve basit bir Vue uygulaması bileşeni de oluşturdu
Örnek üzerinden biraz daha soru sorunca, tüm sohbet boyunca tuhaf derecede tutarlı ve odaklıydı; bağlamı temizlemeden yeni bir konuya mı geçtiğimi yoksa önceki içeriğe mi atıf yaptığımı iyi ayırt etti
Özellikle “What does following mean [docker compose içeriği]” diye sorduğumda cybertron-7b, “verilen YAML yapılandırmasında ‘following’ bağımlılık belirtimini ifade eder” gibi, benim ifademi aynen tırnak içine alarak yanıtladı; konuşmada bu şekilde tam ifadeyi alıntılayan bir modeli ilk kez gördüm
Merak edip en küçük varyant için TheBloke’un GGUF sürümünü[1] temel alan bir ollama modelfile hazırladım; bu kadar küçük bir model için gerçekten GPT-4’e benzeyen hissi epey koruyor
Daha önce yerel LLM olarak çoğunlukla kullandığım openhermes2.5-mistral’dan daha tutarlı hissettiriyor
ollama kuruluysa ollama run nollama/una-cybertron-7b-v2 ile çalıştırmayı deneyebilirsiniz
[1]: https://huggingface.co/TheBloke/una-cybertron-7B-v2-GGUF
Evet. UNA, MoE’yi birden fazla katmana, uzmana, neredeyse sinir ağının herhangi bir bölümüne hizalayabiliyor gibi görünüyor
Xaberius 34B v1 “BETA” kral; ama kelimenin tam anlamıyla hâlâ sadece beta
Şimdi Mixtral’e odaklanacağım; bu kadar modüler olması Noel hediyesi gibi. Laboratuvarı açtığı için @mistral’a teşekkürler
Artık LLM benchmark’ları en iyi ihtimalle anlamsız, kötü ihtimalle de yalana yakın değil mi?
Evet. Mistral, ‘güvenlik eğitimi’ ile modeli hadım edercesine zayıflatmaya pek önem vermiyor
Bu yüzden Anthropic/Google/OpenAI’ye göre parametre başına performansı çok daha iyi olabilirken, yönlendirilebilirliği de daha yüksek olabilir
Andrej Karpathy’nin yorumu:
@MistralAI’nin yeni açık ağırlıklı LLM’i
params.json’a göre hidden_dim / dim = 14336/4096 => 3.5X MLP genişlemesi, n_heads / n_kv_heads = 32/8 => 4X multiquery, "moe" => uzmanlar karışımı 8X top 2
İlgili kod gibi görünen şey: https://github.com/mistralai/megablocks-public
Garip şekilde “AI devrimi”nden bahseden aşırı prova edilmiş profesyonel bir lansman videosu yok
Şu sıralar AI tarafında neden bu kadar çok hareketlilik olduğunu merak ediyorsanız, en büyük derin öğrenme konferansı NeurIPS önümüzdeki hafta olduğu için https://twitter.com/karpathy/status/1733181701361451130
NeurIPS önümüzdeki haftaysa, çeşitli şirketlerden yeni mimariler veya modeller gibi büyük duyurular beklemeli miyiz? Araştırma konferansı kültürüne aşina olmadığım için merak ediyorum
hidden_dim / dim = 14336/4096 => 3.5X MLP genişlemesi ve n_heads / n_kv_heads = 32/8 => 4X ikisi de mevcut Mistral-7B ile birebir aynı
EMNLP 2023 de şu anda yapılıyor, bu yüzden duyurular birikiyor
Mistral açıklama kısmına pek emek harcamıyor gibi görünse de, bu yaklaşım ürüne Google’ın pürüzsüz, kurumsal ve ruhsuz Gemini duyurusundan çok daha fazla güven veriyor
Belgelerden ziyade ağırlıkların yayımlanması daha iyi
Bir Google çalışanının Gemini’nin ağırlıklarını, hem de yalnızca küçük mobil Gemini’yi yayımladıklarını, sanki bunun diğer şirketlerden daha cömert bir hamle olduğunu söyleyerek övündüğünü hatırlıyorum
Orada kod görünmüyor; hangi runtime bu ağırlıkları yükleyebilir?
Hedefleri tam olarak benzer şirketler olmasalar da, bu model duyurusunu iki gün önce Google’ın Gemini duyurusuyla karşılaştırınca epey komik oluyor
Bu, haftanın başında Google’ın “sadece demo var, model yok” yaklaşımıyla keskin bir tezat oluşturuyor
Stanford’un Megablocks’u ile eğitilmiş gibi görünüyor: https://github.com/mistralai/megablocks-public
Tartışmalı olabilir ama Mistral 7B’nin gerçek LLM son teknolojisi olduğunu düşünüyorum
ChatGPT 4’ün etkileyici olduğu doğru ve ilk günden beri aboneyim; ama devasa, uzaktaki sunucu çiftliklerinde çalışıyor ve neredeyse bir kara kutu
Mistral küçük; boyutuna göre hem genel sorularda hem de kodda şaşırtıcı derecede tutarlı ve kullanışlı, sansürsüz ve bir yılda mümkün olacağına inanması zor bir sıçrama
MacBook Air’de 12 tok/s ile çalıştırılabiliyor; masaüstünde denemeyi dört gözle bekliyorum
MacBook Air’de çalıştırılabilir modeller arasında son teknoloji, ama genel olarak LLM’lerin ya da açık kaynağın tamamında son teknoloji değil Yi 34B ve Llama2 70B hâlâ daha iyi
İnternette tüketilen bilginin %50’si son 24 saat içinde üretiliyorsa, küçük modeller büyük modellere göre epey büyük bir avantaja sahip olabilir
LLM’leri ya da SmallLM’leri güncel bilgileri yansıtacak şekilde haftalık veya günlük olarak sürekli yeniden eğitmek ya da fine-tune etmek mümkün olursa, 1-2 yıl önce eğitilmiş eski bir modelin buna yetişmesi zor
Lisansı bilmiyorum ama OpenAI, Mistral7B gibi küçük bir modeli GPT yığınına koyup her hafta sıfırdan yeniden eğiterek GPT-4 ile aynı fiyatı isteyebilir
Performansı daha zayıf olsa da güncelliği olan bir modeli tercih edecek kullanıcılar kesinlikle olacaktır
Katılıyorum. Mistral 7B gerçekten şaşırtıcı derecede iyi
Intel sürümü veya Berkeley Starling gibi fine-tune edilmiş modeller, sadece 7B olmalarına rağmen gpt3.5T’ye oldukça yakın hissettiriyor
13B Mistral’ı gerçekten bekliyordum; bu MoE’nin 24GB 3090’da çalışıp çalışmayacağını bilmiyorum
Kuantizasyon, offloading ve ileride gelecek tekniklerle çalıştırılabilir hâle gelmesini umuyorum
MacBook Air’de 12 tok/s biraz düşük görünüyor
llama.cpp’de Metal GPU hızlandırması kullanıyor musun? MacBook’um yok ama llama.cpp benchmark’larına bakınca GPU hızlandırmasıyla neredeyse 30 tok/s’ye kadar çıkılabiliyor gibi görünüyordu
Gerçekten öyle. En azından llama2 13b ile aynı seviyede gibi hissettiriyor
mistral 70b var olsaydı ve 7b boyutunda llama2’ye kıyasla gösterdiği iyileşme kadar llama2 70b’den daha iyi olsaydı, kesinlikle gpt3.5’e benzer bir seviyede olurdu
1 yorum
Hacker News yorumları
Diğer LLM haberleri arasında, henüz belgelenmemiş neural alignment adlı yeni bir teknikle eğitilen Mistral/Yi fine-tune modelleri Hugging Face liderlik tablosunda diğer modellerin ciddi ölçüde önüne geçiyor
7B, çoğu 70B modeli “yeniyor”; test aşamasındaki 34B de çok iyi görünüyor
https://huggingface.co/fblgit/una-xaberius-34b-v1beta
https://huggingface.co/fblgit/una-cybertron-7b-v2-bf16
Teorik olarak bu teknik Mistral MoE’ye de uygulanabilir; normal Mistral 7B’deki kadar bir sıçrama görülürse ve Mistral MoE’nin kendisi de iyiyse, ortaya çıkan model epey ürkütücü olabilir
Masaüstünde çalıştırılabilen açık kaynak modellerin GPT-4’ün gerçekten dibine kadar yaklaşmaya başladığı kırılma noktası bu olabilir
Bir Docker Compose dosyasını açıklayabildi ve basit bir Vue uygulaması bileşeni de oluşturdu
Örnek üzerinden biraz daha soru sorunca, tüm sohbet boyunca tuhaf derecede tutarlı ve odaklıydı; bağlamı temizlemeden yeni bir konuya mı geçtiğimi yoksa önceki içeriğe mi atıf yaptığımı iyi ayırt etti
Özellikle “What does following mean [docker compose içeriği]” diye sorduğumda cybertron-7b, “verilen YAML yapılandırmasında ‘following’ bağımlılık belirtimini ifade eder” gibi, benim ifademi aynen tırnak içine alarak yanıtladı; konuşmada bu şekilde tam ifadeyi alıntılayan bir modeli ilk kez gördüm
Daha önce yerel LLM olarak çoğunlukla kullandığım openhermes2.5-mistral’dan daha tutarlı hissettiriyor
ollama kuruluysa
ollama run nollama/una-cybertron-7b-v2ile çalıştırmayı deneyebilirsiniz[1]: https://huggingface.co/TheBloke/una-cybertron-7B-v2-GGUF
Xaberius 34B v1 “BETA” kral; ama kelimenin tam anlamıyla hâlâ sadece beta
Şimdi Mixtral’e odaklanacağım; bu kadar modüler olması Noel hediyesi gibi. Laboratuvarı açtığı için @mistral’a teşekkürler
Bu yüzden Anthropic/Google/OpenAI’ye göre parametre başına performansı çok daha iyi olabilirken, yönlendirilebilirliği de daha yüksek olabilir
Andrej Karpathy’nin yorumu:
@MistralAI’nin yeni açık ağırlıklı LLM’i
params.json’a göre
hidden_dim / dim = 14336/4096 => 3.5X MLP genişlemesi,n_heads / n_kv_heads = 32/8 => 4X multiquery,"moe" => uzmanlar karışımı 8X top 2İlgili kod gibi görünen şey:
https://github.com/mistralai/megablocks-public
Garip şekilde “AI devrimi”nden bahseden aşırı prova edilmiş profesyonel bir lansman videosu yok
Şu sıralar AI tarafında neden bu kadar çok hareketlilik olduğunu merak ediyorsanız, en büyük derin öğrenme konferansı NeurIPS önümüzdeki hafta olduğu için
https://twitter.com/karpathy/status/1733181701361451130
hidden_dim / dim = 14336/4096 => 3.5X MLP genişlemesiven_heads / n_kv_heads = 32/8 => 4Xikisi de mevcut Mistral-7B ile birebir aynıMistral açıklama kısmına pek emek harcamıyor gibi görünse de, bu yaklaşım ürüne Google’ın pürüzsüz, kurumsal ve ruhsuz Gemini duyurusundan çok daha fazla güven veriyor
Bir Google çalışanının Gemini’nin ağırlıklarını, hem de yalnızca küçük mobil Gemini’yi yayımladıklarını, sanki bunun diğer şirketlerden daha cömert bir hamle olduğunu söyleyerek övündüğünü hatırlıyorum
Gösterişli bir duyuru şart mı? 90’lar usulü yapmak yeter: https://twitter.com/erhartford/status/1733159666417545641/ph...
Uzmanlar karışımı (MoE) gibi görünüyor ve
params.jsonşöyle{ "dim": 4096, "n_layers": 32, "head_dim": 128, "hidden_dim": 14336, "n_heads": 32, "n_kv_heads": 8, "norm_eps": 1e-05, "vocab_size": 32000, "moe": { "num_experts_per_tok": 2, "num_experts": 8 } }Hedefleri tam olarak benzer şirketler olmasalar da, bu model duyurusunu iki gün önce Google’ın Gemini duyurusuyla karşılaştırınca epey komik oluyor
Bu, haftanın başında Google’ın “sadece demo var, model yok” yaklaşımıyla keskin bir tezat oluşturuyor
Stanford’un Megablocks’u ile eğitilmiş gibi görünüyor: https://github.com/mistralai/megablocks-public
Tartışmalı olabilir ama Mistral 7B’nin gerçek LLM son teknolojisi olduğunu düşünüyorum
ChatGPT 4’ün etkileyici olduğu doğru ve ilk günden beri aboneyim; ama devasa, uzaktaki sunucu çiftliklerinde çalışıyor ve neredeyse bir kara kutu
Mistral küçük; boyutuna göre hem genel sorularda hem de kodda şaşırtıcı derecede tutarlı ve kullanışlı, sansürsüz ve bir yılda mümkün olacağına inanması zor bir sıçrama
MacBook Air’de 12 tok/s ile çalıştırılabiliyor; masaüstünde denemeyi dört gözle bekliyorum
Yi 34B ve Llama2 70B hâlâ daha iyi
LLM’leri ya da SmallLM’leri güncel bilgileri yansıtacak şekilde haftalık veya günlük olarak sürekli yeniden eğitmek ya da fine-tune etmek mümkün olursa, 1-2 yıl önce eğitilmiş eski bir modelin buna yetişmesi zor
Lisansı bilmiyorum ama OpenAI, Mistral7B gibi küçük bir modeli GPT yığınına koyup her hafta sıfırdan yeniden eğiterek GPT-4 ile aynı fiyatı isteyebilir
Performansı daha zayıf olsa da güncelliği olan bir modeli tercih edecek kullanıcılar kesinlikle olacaktır
Intel sürümü veya Berkeley Starling gibi fine-tune edilmiş modeller, sadece 7B olmalarına rağmen gpt3.5T’ye oldukça yakın hissettiriyor
13B Mistral’ı gerçekten bekliyordum; bu MoE’nin 24GB 3090’da çalışıp çalışmayacağını bilmiyorum
Kuantizasyon, offloading ve ileride gelecek tekniklerle çalıştırılabilir hâle gelmesini umuyorum
llama.cpp’de Metal GPU hızlandırması kullanıyor musun? MacBook’um yok ama llama.cpp benchmark’larına bakınca GPU hızlandırmasıyla neredeyse 30 tok/s’ye kadar çıkılabiliyor gibi görünüyordu
mistral 70b var olsaydı ve 7b boyutunda llama2’ye kıyasla gösterdiği iyileşme kadar llama2 70b’den daha iyi olsaydı, kesinlikle gpt3.5’e benzer bir seviyede olurdu
Artık deneysel olarak çalışan bir Hugging Face sürümü var: https://huggingface.co/DiscoResearch/mixtral-7b-8expert
Google sahte demo yaptı, Mistral ise işi tek bir magnet link ile bitirdi