1 puan yazan GN⁺ 2024-04-12 | 1 yorum | WhatsApp'ta paylaş

1 yorum

 
GN⁺ 2024-04-12
Hacker News yorumları
  • Ağırlıklar ve donanım mevcutken bu modeli çalıştırmanın en kolay yolunu merak ediyorum
    Modelin yarısını RAM'e offload etsem bile hangi araçla yüklemem gerektiğini; Ollama mı, Llama.cpp mi, yoksa bir Python kütüphanesiyle içe aktarmanın yeterli olup olmadığını bilmek istiyorum
    Ayrıca başka bir modelle karşılaştırmak için benchmark nasıl yapılmalı, hazır kullanılabilir bir araç var mı onu da merak ediyorum
    • llamafile yöntemi en iyisi gibi görünüyor
      Binary komut satırında çalışıyor ya da küçük bir web sunucusu ayağa kaldırıyor
      llamafile, Mixtral-8x7B-Instruct build'i sağlıyor; bu model de muhtemelen paketlenebilir ve nicemleme formatında olabilir
      Ekosistemi daha iyi bilen birinden doğrulamak gerekir ama yeni modelin de olduğu gibi llamafile'da çalışabileceğini düşünüyorum
      https://github.com/Mozilla-Ocho/llamafile
    • En kolay yöntem vllm(https://github.com/vllm-project/vllm) ile yaklaşık iki A100 üzerinde çalıştırmak; benchmark için de lm-evaluation-harness(https://github.com/EleutherAI/lm-evaluation-harness) kullanılabilir
    • MacBook'ta LLM test etmek için LM Studio harika: https://lmstudio.ai/
      Uygulama içinde Hugging Face'teki yeni modelleri arayıp hemen test etmek çok kolay
    • Hugging Face'te The Bloke adlı bir kullanıcı var; tam boyutlu model çıktıktan kısa süre sonra önceden nicemlenmiş modelleri yüklüyor
      O sayfayı takip edip 4 bit modelin GPU'ya sığmasını dilemek yeterli
      Muhtemelen şimdiden üzerinde çalışıyordur
    • Together'da buradan deneyebilirsiniz:
      https://api.together.xyz/playground/language/mistralai/Mixtral-8x22B
  • Yinelenen gönderi burada: https://news.ycombinator.com/item?id=39986047
    Profil yerine tweet bağlantısı içeren gönderi:
    https://twitter.com/MistralAI/status/1777869263778291896
  • 8x22B ha; bu Mixtral 8x7B kadar iyiyse gerçekten ilginç zamanlar olacak
    • Command R'ın benchmarklarda GPT-4'ü geçen ilk açık kaynak model olduğunu duydum
    • Zaten 8x7B varken başka bir 8x7B istemek için sebep yok; demek ki daha iyi, değil mi?
  • Konudan biraz sapıyor ama artık insanların sihir gibi dediği dönemlerdeki ChatGPT 4 performansına yeniden ulaşıp ulaşmadığımızı merak ediyorum
    Politik olarak daha doğru hale getirilirken performansı ciddi biçimde düşmeden önceki ölçütten bahsediyorum
    • MacBook'ta çeşitli LLM'ler test ettim; GPT-4'ün hangi dönemiyle karşılaştırırsam karşılaştırayım, bence hâlâ hepsi epey geride
      Bununla birlikte GPT-3 seviyesinde çok model var ve belirli işlere göre ince ayarlanmış modeller de epey mevcut
      Açık modellerde büyük ölçüde eksik kalan kısım dil desteği
      Norveççe kullanılabilir sonuç veren yalnızca bir model gördüm; GPT-4'te ise bu hiçbir zaman sorun olmamıştı
    • Açık modeller açısından en azından ChatGPT 4'ün ilk sürüm performansına ulaşıldığını düşünüyorum
  • Llama 3 çıkmadan önce herkesin en iyi küçük modelini çıkarma yarışı mı bu?
    • 262GB için pek küçük denemez
      Yine de herkes, Llama 3'ten daha kötü sonuçlar çıkarsa sonradan yayımlamak mahcup edici olabilir diye şimdi piyasaya sürüyor gibi görünüyor
    • Llama 3'ün önümüzdeki 2 hafta içinde çıkacağı söylentilerine bakınca oldukça makul
  • Mixtral 8x7B kullanması keyifliydi; bu modeli de denemeyi dört gözle bekliyorum
  • Resmi olmayan benchmark burada:
    https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1/discussions/4
    • Keşke burada GPT-4 de olsaydı
      Hâlâ aşılması gereken model o
  • 4 bit nicemleme muhtemelen 85GB VRAM gerektirir; yani 24GB'lık tüketici GPU'larından 4 tanesine rahatça sığar ve KV cache optimizasyonu için de biraz pay kalır
    • 4 bit ise bundan daha az kullanabilir
      Çünkü uzman modeller arasında paylaşılan epey parametre var
      Ancak batch boyutu 1 ile çalıştırmıyorsanız 8 GPU'lu kurulumdan daha sancılı olabilir
      Batch içinde uzmanların çoğunun veya tamamının etkinleşme olasılığı neredeyse kesin
    • Mixtral 8x7B'nin 2 bit nicemlemesi 8GB GPU'da bile bazı kullanım amaçları için fena değildi
      Bu yeni modelin 8-16GB sınıfı ucuz GPU kurulumlarında nasıl çalışacağını merak ediyorum
  • Bunun bir temel model olduğu, talimat modeli olmadığı çok önemli
    Sohbet için yararlı olan, talimatlarla ince ayarlanmış modeldir
    • Güçlü bir temel modeli doğrudan kullanmak nasıl bir his, merak ediyorum
      Sadece prompt metnini devam ettirir gibi tamamlama mı yapıyor?
  • Llama 3'ün yayımlanacağı zamana tam denk geldi
    • Aynı gün Google Gemini Pro neredeyse tamamen açık uzun bağlamlı multimodal erişim sundu, OpenAI da GPT-4-Turbo'yu yükseltti; haberlerin yağdığı büyük bir gündü