2 puan yazan GN⁺ 2023-12-09 | 1 yorum | WhatsApp'ta paylaş

1 yorum

 
GN⁺ 2023-12-09
Hacker News yorumları
  • Diğer LLM haberleri arasında, henüz belgelenmemiş neural alignment adlı yeni bir teknikle eğitilen Mistral/Yi fine-tune modelleri Hugging Face liderlik tablosunda diğer modellerin ciddi ölçüde önüne geçiyor
    7B, çoğu 70B modeli “yeniyor”; test aşamasındaki 34B de çok iyi görünüyor
    https://huggingface.co/fblgit/una-xaberius-34b-v1beta
    https://huggingface.co/fblgit/una-cybertron-7b-v2-bf16
    Teorik olarak bu teknik Mistral MoE’ye de uygulanabilir; normal Mistral 7B’deki kadar bir sıçrama görülürse ve Mistral MoE’nin kendisi de iyiyse, ortaya çıkan model epey ürkütücü olabilir
    Masaüstünde çalıştırılabilen açık kaynak modellerin GPT-4’ün gerçekten dibine kadar yaklaşmaya başladığı kırılma noktası bu olabilir

    • 7B sürümünü denedim; daha önce kullandıklarımdan kesinlikle farklı hissettirdi
      Bir Docker Compose dosyasını açıklayabildi ve basit bir Vue uygulaması bileşeni de oluşturdu
      Örnek üzerinden biraz daha soru sorunca, tüm sohbet boyunca tuhaf derecede tutarlı ve odaklıydı; bağlamı temizlemeden yeni bir konuya mı geçtiğimi yoksa önceki içeriğe mi atıf yaptığımı iyi ayırt etti
      Özellikle “What does following mean [docker compose içeriği]” diye sorduğumda cybertron-7b, “verilen YAML yapılandırmasında ‘following’ bağımlılık belirtimini ifade eder” gibi, benim ifademi aynen tırnak içine alarak yanıtladı; konuşmada bu şekilde tam ifadeyi alıntılayan bir modeli ilk kez gördüm
    • Merak edip en küçük varyant için TheBloke’un GGUF sürümünü[1] temel alan bir ollama modelfile hazırladım; bu kadar küçük bir model için gerçekten GPT-4’e benzeyen hissi epey koruyor
      Daha önce yerel LLM olarak çoğunlukla kullandığım openhermes2.5-mistral’dan daha tutarlı hissettiriyor
      ollama kuruluysa ollama run nollama/una-cybertron-7b-v2 ile çalıştırmayı deneyebilirsiniz
      [1]: https://huggingface.co/TheBloke/una-cybertron-7B-v2-GGUF
    • Evet. UNA, MoE’yi birden fazla katmana, uzmana, neredeyse sinir ağının herhangi bir bölümüne hizalayabiliyor gibi görünüyor
      Xaberius 34B v1 “BETA” kral; ama kelimenin tam anlamıyla hâlâ sadece beta
      Şimdi Mixtral’e odaklanacağım; bu kadar modüler olması Noel hediyesi gibi. Laboratuvarı açtığı için @mistral’a teşekkürler
    • Artık LLM benchmark’ları en iyi ihtimalle anlamsız, kötü ihtimalle de yalana yakın değil mi?
    • Evet. Mistral, ‘güvenlik eğitimi’ ile modeli hadım edercesine zayıflatmaya pek önem vermiyor
      Bu yüzden Anthropic/Google/OpenAI’ye göre parametre başına performansı çok daha iyi olabilirken, yönlendirilebilirliği de daha yüksek olabilir
  • Andrej Karpathy’nin yorumu:
    @MistralAI’nin yeni açık ağırlıklı LLM’i
    params.json’a göre hidden_dim / dim = 14336/4096 => 3.5X MLP genişlemesi, n_heads / n_kv_heads = 32/8 => 4X multiquery, "moe" => uzmanlar karışımı 8X top 2
    İlgili kod gibi görünen şey:
    https://github.com/mistralai/megablocks-public
    Garip şekilde “AI devrimi”nden bahseden aşırı prova edilmiş profesyonel bir lansman videosu yok
    Şu sıralar AI tarafında neden bu kadar çok hareketlilik olduğunu merak ediyorsanız, en büyük derin öğrenme konferansı NeurIPS önümüzdeki hafta olduğu için
    https://twitter.com/karpathy/status/1733181701361451130

    • NeurIPS önümüzdeki haftaysa, çeşitli şirketlerden yeni mimariler veya modeller gibi büyük duyurular beklemeli miyiz? Araştırma konferansı kültürüne aşina olmadığım için merak ediyorum
    • hidden_dim / dim = 14336/4096 => 3.5X MLP genişlemesi ve n_heads / n_kv_heads = 32/8 => 4X ikisi de mevcut Mistral-7B ile birebir aynı
    • EMNLP 2023 de şu anda yapılıyor, bu yüzden duyurular birikiyor
  • Mistral açıklama kısmına pek emek harcamıyor gibi görünse de, bu yaklaşım ürüne Google’ın pürüzsüz, kurumsal ve ruhsuz Gemini duyurusundan çok daha fazla güven veriyor

    • Belgelerden ziyade ağırlıkların yayımlanması daha iyi
      Bir Google çalışanının Gemini’nin ağırlıklarını, hem de yalnızca küçük mobil Gemini’yi yayımladıklarını, sanki bunun diğer şirketlerden daha cömert bir hamle olduğunu söyleyerek övündüğünü hatırlıyorum
  • Gösterişli bir duyuru şart mı? 90’lar usulü yapmak yeter: https://twitter.com/erhartford/status/1733159666417545641/ph...

    • Açıkça manipüle edilmiş ve gerçek dışı pazarlama sayfaları ya da videolar yayımlamaktan çok daha cesur ve özgüvenli bir yöntem gibi görünüyor
  • Uzmanlar karışımı (MoE) gibi görünüyor ve params.json şöyle
    { "dim": 4096, "n_layers": 32, "head_dim": 128, "hidden_dim": 14336, "n_heads": 32, "n_kv_heads": 8, "norm_eps": 1e-05, "vocab_size": 32000, "moe": { "num_experts_per_tok": 2, "num_experts": 8 } }

    • Bu bağlamda uzman tam olarak ne anlama geliyor?
    • Orada kod görünmüyor; hangi runtime bu ağırlıkları yükleyebilir?
  • Hedefleri tam olarak benzer şirketler olmasalar da, bu model duyurusunu iki gün önce Google’ın Gemini duyurusuyla karşılaştırınca epey komik oluyor

  • Bu, haftanın başında Google’ın “sadece demo var, model yok” yaklaşımıyla keskin bir tezat oluşturuyor
    Stanford’un Megablocks’u ile eğitilmiş gibi görünüyor: https://github.com/mistralai/megablocks-public

  • Tartışmalı olabilir ama Mistral 7B’nin gerçek LLM son teknolojisi olduğunu düşünüyorum
    ChatGPT 4’ün etkileyici olduğu doğru ve ilk günden beri aboneyim; ama devasa, uzaktaki sunucu çiftliklerinde çalışıyor ve neredeyse bir kara kutu
    Mistral küçük; boyutuna göre hem genel sorularda hem de kodda şaşırtıcı derecede tutarlı ve kullanışlı, sansürsüz ve bir yılda mümkün olacağına inanması zor bir sıçrama
    MacBook Air’de 12 tok/s ile çalıştırılabiliyor; masaüstünde denemeyi dört gözle bekliyorum

    • MacBook Air’de çalıştırılabilir modeller arasında son teknoloji, ama genel olarak LLM’lerin ya da açık kaynağın tamamında son teknoloji değil
      Yi 34B ve Llama2 70B hâlâ daha iyi
    • İnternette tüketilen bilginin %50’si son 24 saat içinde üretiliyorsa, küçük modeller büyük modellere göre epey büyük bir avantaja sahip olabilir
      LLM’leri ya da SmallLM’leri güncel bilgileri yansıtacak şekilde haftalık veya günlük olarak sürekli yeniden eğitmek ya da fine-tune etmek mümkün olursa, 1-2 yıl önce eğitilmiş eski bir modelin buna yetişmesi zor
      Lisansı bilmiyorum ama OpenAI, Mistral7B gibi küçük bir modeli GPT yığınına koyup her hafta sıfırdan yeniden eğiterek GPT-4 ile aynı fiyatı isteyebilir
      Performansı daha zayıf olsa da güncelliği olan bir modeli tercih edecek kullanıcılar kesinlikle olacaktır
    • Katılıyorum. Mistral 7B gerçekten şaşırtıcı derecede iyi
      Intel sürümü veya Berkeley Starling gibi fine-tune edilmiş modeller, sadece 7B olmalarına rağmen gpt3.5T’ye oldukça yakın hissettiriyor
      13B Mistral’ı gerçekten bekliyordum; bu MoE’nin 24GB 3090’da çalışıp çalışmayacağını bilmiyorum
      Kuantizasyon, offloading ve ileride gelecek tekniklerle çalıştırılabilir hâle gelmesini umuyorum
    • MacBook Air’de 12 tok/s biraz düşük görünüyor
      llama.cpp’de Metal GPU hızlandırması kullanıyor musun? MacBook’um yok ama llama.cpp benchmark’larına bakınca GPU hızlandırmasıyla neredeyse 30 tok/s’ye kadar çıkılabiliyor gibi görünüyordu
    • Gerçekten öyle. En azından llama2 13b ile aynı seviyede gibi hissettiriyor
      mistral 70b var olsaydı ve 7b boyutunda llama2’ye kıyasla gösterdiği iyileşme kadar llama2 70b’den daha iyi olsaydı, kesinlikle gpt3.5’e benzer bir seviyede olurdu
  • Artık deneysel olarak çalışan bir Hugging Face sürümü var: https://huggingface.co/DiscoResearch/mixtral-7b-8expert

  • Google sahte demo yaptı, Mistral ise işi tek bir magnet link ile bitirdi