Ağırlıklar ve donanım mevcutken bu modeli çalıştırmanın en kolay yolunu merak ediyorum
Modelin yarısını RAM'e offload etsem bile hangi araçla yüklemem gerektiğini; Ollama mı, Llama.cpp mi, yoksa bir Python kütüphanesiyle içe aktarmanın yeterli olup olmadığını bilmek istiyorum
Ayrıca başka bir modelle karşılaştırmak için benchmark nasıl yapılmalı, hazır kullanılabilir bir araç var mı onu da merak ediyorum
llamafile yöntemi en iyisi gibi görünüyor
Binary komut satırında çalışıyor ya da küçük bir web sunucusu ayağa kaldırıyor
llamafile, Mixtral-8x7B-Instruct build'i sağlıyor; bu model de muhtemelen paketlenebilir ve nicemleme formatında olabilir
Ekosistemi daha iyi bilen birinden doğrulamak gerekir ama yeni modelin de olduğu gibi llamafile'da çalışabileceğini düşünüyorum https://github.com/Mozilla-Ocho/llamafile
MacBook'ta LLM test etmek için LM Studio harika: https://lmstudio.ai/
Uygulama içinde Hugging Face'teki yeni modelleri arayıp hemen test etmek çok kolay
Hugging Face'te The Bloke adlı bir kullanıcı var; tam boyutlu model çıktıktan kısa süre sonra önceden nicemlenmiş modelleri yüklüyor
O sayfayı takip edip 4 bit modelin GPU'ya sığmasını dilemek yeterli
Muhtemelen şimdiden üzerinde çalışıyordur
8x22B ha; bu Mixtral 8x7B kadar iyiyse gerçekten ilginç zamanlar olacak
Command R'ın benchmarklarda GPT-4'ü geçen ilk açık kaynak model olduğunu duydum
Zaten 8x7B varken başka bir 8x7B istemek için sebep yok; demek ki daha iyi, değil mi?
Konudan biraz sapıyor ama artık insanların sihir gibi dediği dönemlerdeki ChatGPT 4 performansına yeniden ulaşıp ulaşmadığımızı merak ediyorum
Politik olarak daha doğru hale getirilirken performansı ciddi biçimde düşmeden önceki ölçütten bahsediyorum
MacBook'ta çeşitli LLM'ler test ettim; GPT-4'ün hangi dönemiyle karşılaştırırsam karşılaştırayım, bence hâlâ hepsi epey geride
Bununla birlikte GPT-3 seviyesinde çok model var ve belirli işlere göre ince ayarlanmış modeller de epey mevcut
Açık modellerde büyük ölçüde eksik kalan kısım dil desteği
Norveççe kullanılabilir sonuç veren yalnızca bir model gördüm; GPT-4'te ise bu hiçbir zaman sorun olmamıştı
Açık modeller açısından en azından ChatGPT 4'ün ilk sürüm performansına ulaşıldığını düşünüyorum
Llama 3 çıkmadan önce herkesin en iyi küçük modelini çıkarma yarışı mı bu?
262GB için pek küçük denemez
Yine de herkes, Llama 3'ten daha kötü sonuçlar çıkarsa sonradan yayımlamak mahcup edici olabilir diye şimdi piyasaya sürüyor gibi görünüyor
Llama 3'ün önümüzdeki 2 hafta içinde çıkacağı söylentilerine bakınca oldukça makul
Mixtral 8x7B kullanması keyifliydi; bu modeli de denemeyi dört gözle bekliyorum
Keşke burada GPT-4 de olsaydı
Hâlâ aşılması gereken model o
4 bit nicemleme muhtemelen 85GB VRAM gerektirir; yani 24GB'lık tüketici GPU'larından 4 tanesine rahatça sığar ve KV cache optimizasyonu için de biraz pay kalır
4 bit ise bundan daha az kullanabilir
Çünkü uzman modeller arasında paylaşılan epey parametre var
Ancak batch boyutu 1 ile çalıştırmıyorsanız 8 GPU'lu kurulumdan daha sancılı olabilir
Batch içinde uzmanların çoğunun veya tamamının etkinleşme olasılığı neredeyse kesin
Mixtral 8x7B'nin 2 bit nicemlemesi 8GB GPU'da bile bazı kullanım amaçları için fena değildi
Bu yeni modelin 8-16GB sınıfı ucuz GPU kurulumlarında nasıl çalışacağını merak ediyorum
Bunun bir temel model olduğu, talimat modeli olmadığı çok önemli
Sohbet için yararlı olan, talimatlarla ince ayarlanmış modeldir
Güçlü bir temel modeli doğrudan kullanmak nasıl bir his, merak ediyorum
Sadece prompt metnini devam ettirir gibi tamamlama mı yapıyor?
Llama 3'ün yayımlanacağı zamana tam denk geldi
Aynı gün Google Gemini Pro neredeyse tamamen açık uzun bağlamlı multimodal erişim sundu, OpenAI da GPT-4-Turbo'yu yükseltti; haberlerin yağdığı büyük bir gündü
1 yorum
Hacker News yorumları
Modelin yarısını RAM'e offload etsem bile hangi araçla yüklemem gerektiğini; Ollama mı, Llama.cpp mi, yoksa bir Python kütüphanesiyle içe aktarmanın yeterli olup olmadığını bilmek istiyorum
Ayrıca başka bir modelle karşılaştırmak için benchmark nasıl yapılmalı, hazır kullanılabilir bir araç var mı onu da merak ediyorum
Binary komut satırında çalışıyor ya da küçük bir web sunucusu ayağa kaldırıyor
llamafile, Mixtral-8x7B-Instruct build'i sağlıyor; bu model de muhtemelen paketlenebilir ve nicemleme formatında olabilir
Ekosistemi daha iyi bilen birinden doğrulamak gerekir ama yeni modelin de olduğu gibi llamafile'da çalışabileceğini düşünüyorum
https://github.com/Mozilla-Ocho/llamafile
Uygulama içinde Hugging Face'teki yeni modelleri arayıp hemen test etmek çok kolay
O sayfayı takip edip 4 bit modelin GPU'ya sığmasını dilemek yeterli
Muhtemelen şimdiden üzerinde çalışıyordur
https://api.together.xyz/playground/language/mistralai/Mixtral-8x22B
Profil yerine tweet bağlantısı içeren gönderi:
https://twitter.com/MistralAI/status/1777869263778291896
Politik olarak daha doğru hale getirilirken performansı ciddi biçimde düşmeden önceki ölçütten bahsediyorum
Bununla birlikte GPT-3 seviyesinde çok model var ve belirli işlere göre ince ayarlanmış modeller de epey mevcut
Açık modellerde büyük ölçüde eksik kalan kısım dil desteği
Norveççe kullanılabilir sonuç veren yalnızca bir model gördüm; GPT-4'te ise bu hiçbir zaman sorun olmamıştı
Yine de herkes, Llama 3'ten daha kötü sonuçlar çıkarsa sonradan yayımlamak mahcup edici olabilir diye şimdi piyasaya sürüyor gibi görünüyor
https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1/discussions/4
Hâlâ aşılması gereken model o
Çünkü uzman modeller arasında paylaşılan epey parametre var
Ancak batch boyutu 1 ile çalıştırmıyorsanız 8 GPU'lu kurulumdan daha sancılı olabilir
Batch içinde uzmanların çoğunun veya tamamının etkinleşme olasılığı neredeyse kesin
Bu yeni modelin 8-16GB sınıfı ucuz GPU kurulumlarında nasıl çalışacağını merak ediyorum
Sohbet için yararlı olan, talimatlarla ince ayarlanmış modeldir
Sadece prompt metnini devam ettirir gibi tamamlama mı yapıyor?