2 puan yazan GN⁺ 2023-12-09 | 1 yorum | WhatsApp'ta paylaş

1 yorum

 
GN⁺ 2023-12-09
Hacker News görüşü
  • Andrej Karpathy'nin görüşü:

    • MistralAI'nin yeni açık kaynak LLM'sine (Large Language Model) giriş
    • params.json dosyasındaki dikkat çekici ayarlar:
      • hidden_dim / dim = 14336/4096 => MLP genişlemesi 3,5 kat
      • n_heads / n_kv_heads = 32/8 => 4 kat multi-query
      • "moe" => Mixture of Experts ile 8 içinden en iyi 2 uzman
    • İlgili kod GitHub'da görülebilir
    • Yapay zeka devrimi hakkında abartılı tanıtım videosu yok
    • Büyük bir derin öğrenme konferansı olan NeurIPS yaklaştığı için yapay zeka tarafında çok fazla hareketlilik var
  • Diğer LLM haberleri:

    • Mistral/Yi, 'neural alignment' adlı yeni bir teknikle ince ayar yapılmış modeller kullanarak Hugging Face liderlik tablosunda diğer modelleri geride bırakıyor
    • 7B model, çoğu 70B modeli 'yeniyor'
    • Test edilen 34B model oldukça iyi görünüyor
    • Bu teknik Mistral Moe'ye uygulanırsa son derece güçlü bir model olabilir
    • Masaüstünde çalışabilen OSS'nin GPT-4'e meydan okuması açısından önemli bir dönüm noktası olabilir
  • Mistral'ın yaklaşımı:

    • Mistral açıklamaya çok önem vermiyor, ancak bu tarz Google'ın cilalanmış kurumsal duyurularından daha güven verici hissettiriyor
  • Basit duyuru tarzı:

    • 90'lar usulü sade duyuru tarzı tercih ediliyor
  • Mistral'ın model özellikleri:

    • Mixture of Experts yapısına sahip params.json dosyası paylaşıldı
  • Mistral ve Google'ın duyuru tarzlarının karşılaştırılması:

    • Google'ın Gemini duyurusuna tezat oluşturan Mistral model duyuru biçimi
    • Mistral'ın Stanford'un Megablocks'u temel alınarak eğitilmiş olduğu görülüyor
  • Mistral'ın pazarlama stratejisi:

    • Diğer şirketler landing page ve tanıtım videolarına ağırlık verirken, Mistral modeli sade biçimde yayımlıyor
  • Mistral'ın açıkladığı bilgiler:

    • Mixture of Experts mimarisi kullanıyor
    • 7B parametreli 8 uzman var
    • Toplam 96GB ağırlıkla, tipik ev tipi GPU'larda çalıştırılamaz