6 puan yazan GN⁺ 2024-03-18 | 1 yorum | WhatsApp'ta paylaş
  • 314B (314 milyar) parametreli Mixture-of-Experts modelinin ağırlıkları ve mimarisi yayımlandı
  • Ekim 2023’te ön eğitimi tamamlanan Grok-1’in ham temel modeli
    • Bu, modelin diyalog gibi belirli görevler için ince ayar yapılmadığı anlamına gelir
  • Model ayrıntıları
    • Belirli bir göreve göre ince ayar yapılmamış, büyük miktarda metin verisiyle eğitilmiş bir temel model
    • Verilen bir token için ağırlıkların %25’inin etkinleştirildiği 314B parametreli bir uzman karışımı modeli
    • Ekim 2023’te JAX ve Rust üzerinde özel bir eğitim yığını kullanılarak xAI tarafından sıfırdan eğitildi

Grok-1 deposunun kullanımı

  • JAX örnek kodunu içeren Grok-1 deposu, Grok-1 açık ağırlıklı modelini yüklemek ve çalıştırmak için kullanılır.
  • Checkpoint’i indirip checkpoint dizini içine ckpt-0 dizinini yerleştirdikten sonra, kodu test etmek için pip install -r requirements.txt ve python run.py komutlarını çalıştırın.
  • Betik, checkpoint’i yükler ve test girdisi için modelden örnekler üretir.
  • Model çok büyük olduğundan (314B parametre), yeterli GPU belleğine sahip bir makine gereklidir.
  • Bu deponun MoE (Mixture of Experts) katmanı uygulaması verimli değildir; modelin doğruluğunu doğrulamak için özel kernel’lerden kaçınmak amacıyla bu tercih edilmiştir.

Ağırlıkları indirme

  • Ağırlıkları, bir torrent istemcisi ve şu bağlantı kullanılarak indirebilirsiniz: magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

Lisans

  • Bu sürümde yer alan kod ve Grok-1 ağırlıkları Apache 2.0 lisansı altında lisanslanmıştır.
  • Lisans yalnızca bu deponun kaynak dosyaları ve Grok-1 modelinin ağırlıkları için geçerlidir.

GN⁺ görüşü

  • Grok-1, çok büyük parametreli bir model olarak, makine öğrenimi araştırmacıları ve mühendislerine yüksek performanslı bilişim kaynaklarıyla deney yapma fırsatı sunuyor.
  • Açık kaynak lisansı Apache 2.0 sayesinde topluluk modeli serbestçe kullanabilir, değiştirebilir ve dağıtabilir; bu da iş birliği ve yeniliği teşvik edebilir.
  • Modelin boyutu çok büyük olduğundan, onunla fiilen deney yapmak ciddi hesaplama kaynakları gerektirir; bu da erişilebilirliği sınırlayabilir.
  • MoE katmanının verimsiz uygulanması araştırma amaçları için yararlı olabilir, ancak gerçek ürün veya hizmetlerde kullanım için optimize edilmiş bir uygulama bulunması gerekecektir.
  • Benzer işlevler sunan diğer açık kaynak projeler arasında Google’ın TensorFlow’u ve Facebook’un PyTorch’u da bulunur; bunlar da büyük ölçekli modellerle deney yapmak için kullanılabilir.

1 yorum

 
GN⁺ 2024-03-18
Hacker News görüşleri
  • 8x86B model şu ana kadarki en büyük açık model gibi görünüyor. Bu modelin kaç token ile eğitildiğini öğrenmek ilginç olurdu.

    • Bu, büyük ölçekli metin verileriyle eğitilmiş bir temel model ve belirli görevler için ince ayar yapılmamış.
    • Twitter'da önceden gösterilen sürümün, ham ağırlıklardan farklı davranan bir talimat ince ayarlı model olduğu tahmin ediliyor.
  • Bu modeli Mistral gibi açık kaynak alternatifler yerine kullanmak istemenin sebebi ne?

  • Bu model, native FP8'i destekleyen ilk büyük model mi? Donanım desteklediğinde bunun büyük bir avantaj olacağını düşünüyorum; insanlar neden şimdiye kadar bunu yapmadı merak ediyorum.

  • Bu model hangi dilleri destekliyor?

  • Blog yazısı: Grok-OS

    • 314B parametrenin 86B'si aktif.
    • 8 uzmandan oluşan mixture of experts yapısında 2 uzman aktif.
    • Ağırlıklar ve mimari Apache 2.0 lisansı altında.
  • Geçen yıl yayımlanan blog yazısı: Grok

    • Claude 2, GPT-3.5, GPT-4 ile karşılaştırmalı benchmark'lar içeriyor.
    • GPT-3.5, Mixtral, Qwen-1.5-72B ile benzer yeteneklere sahip, ancak açık ağırlıklı modellerden çok daha büyük.
  • Parametre sayısı ve mixture of experts açısından üst sınıra ya da azalan getiri noktasına ne zaman ulaşıyoruz?

  • Bir yerde model kartı var mı? Bu modelin neyle eğitildiğini bilmek istiyorum.

  • İnce bir nokta: Musk "açık kaynak" dedi ama bunun yerine "açık ağırlık" elde ettik (yine de hiç olmamasındansa çok daha iyi olduğu için buna fazlasıyla minnettarım).

  • Diğer depo sadece Qdrant'in bir fork'u.