- 314B (314 milyar) parametreli Mixture-of-Experts modelinin ağırlıkları ve mimarisi yayımlandı
- Ekim 2023’te ön eğitimi tamamlanan Grok-1’in ham temel modeli
- Bu, modelin diyalog gibi belirli görevler için ince ayar yapılmadığı anlamına gelir
- Model ayrıntıları
- Belirli bir göreve göre ince ayar yapılmamış, büyük miktarda metin verisiyle eğitilmiş bir temel model
- Verilen bir token için ağırlıkların %25’inin etkinleştirildiği 314B parametreli bir uzman karışımı modeli
- Ekim 2023’te JAX ve Rust üzerinde özel bir eğitim yığını kullanılarak xAI tarafından sıfırdan eğitildi
Grok-1 deposunun kullanımı
- JAX örnek kodunu içeren Grok-1 deposu, Grok-1 açık ağırlıklı modelini yüklemek ve çalıştırmak için kullanılır.
- Checkpoint’i indirip
checkpoint dizini içine ckpt-0 dizinini yerleştirdikten sonra, kodu test etmek için pip install -r requirements.txt ve python run.py komutlarını çalıştırın.
- Betik, checkpoint’i yükler ve test girdisi için modelden örnekler üretir.
- Model çok büyük olduğundan (314B parametre), yeterli GPU belleğine sahip bir makine gereklidir.
- Bu deponun MoE (Mixture of Experts) katmanı uygulaması verimli değildir; modelin doğruluğunu doğrulamak için özel kernel’lerden kaçınmak amacıyla bu tercih edilmiştir.
Ağırlıkları indirme
- Ağırlıkları, bir torrent istemcisi ve şu bağlantı kullanılarak indirebilirsiniz:
magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce
Lisans
- Bu sürümde yer alan kod ve Grok-1 ağırlıkları Apache 2.0 lisansı altında lisanslanmıştır.
- Lisans yalnızca bu deponun kaynak dosyaları ve Grok-1 modelinin ağırlıkları için geçerlidir.
GN⁺ görüşü
- Grok-1, çok büyük parametreli bir model olarak, makine öğrenimi araştırmacıları ve mühendislerine yüksek performanslı bilişim kaynaklarıyla deney yapma fırsatı sunuyor.
- Açık kaynak lisansı Apache 2.0 sayesinde topluluk modeli serbestçe kullanabilir, değiştirebilir ve dağıtabilir; bu da iş birliği ve yeniliği teşvik edebilir.
- Modelin boyutu çok büyük olduğundan, onunla fiilen deney yapmak ciddi hesaplama kaynakları gerektirir; bu da erişilebilirliği sınırlayabilir.
- MoE katmanının verimsiz uygulanması araştırma amaçları için yararlı olabilir, ancak gerçek ürün veya hizmetlerde kullanım için optimize edilmiş bir uygulama bulunması gerekecektir.
- Benzer işlevler sunan diğer açık kaynak projeler arasında Google’ın TensorFlow’u ve Facebook’un PyTorch’u da bulunur; bunlar da büyük ölçekli modellerle deney yapmak için kullanılabilir.
1 yorum
Hacker News görüşleri
8x86B model şu ana kadarki en büyük açık model gibi görünüyor. Bu modelin kaç token ile eğitildiğini öğrenmek ilginç olurdu.
Bu modeli Mistral gibi açık kaynak alternatifler yerine kullanmak istemenin sebebi ne?
Bu model, native FP8'i destekleyen ilk büyük model mi? Donanım desteklediğinde bunun büyük bir avantaj olacağını düşünüyorum; insanlar neden şimdiye kadar bunu yapmadı merak ediyorum.
Bu model hangi dilleri destekliyor?
Blog yazısı: Grok-OS
Geçen yıl yayımlanan blog yazısı: Grok
Parametre sayısı ve mixture of experts açısından üst sınıra ya da azalan getiri noktasına ne zaman ulaşıyoruz?
Bir yerde model kartı var mı? Bu modelin neyle eğitildiğini bilmek istiyorum.
İnce bir nokta: Musk "açık kaynak" dedi ama bunun yerine "açık ağırlık" elde ettik (yine de hiç olmamasındansa çok daha iyi olduğu için buna fazlasıyla minnettarım).
Diğer depo sadece Qdrant'in bir fork'u.