xAI, Grok-1 LLM’in temel model ağırlıklarını ve ağ mimarisini yayımladı

(github.com/xai-org)

6 puan yazan GN⁺ 2024-03-18 | 1 yorum | WhatsApp'ta paylaş

314B (314 milyar) parametreli Mixture-of-Experts modelinin ağırlıkları ve mimarisi yayımlandı
Ekim 2023’te ön eğitimi tamamlanan Grok-1’in ham temel modeli
- Bu, modelin diyalog gibi belirli görevler için ince ayar yapılmadığı anlamına gelir
Model ayrıntıları
- Belirli bir göreve göre ince ayar yapılmamış, büyük miktarda metin verisiyle eğitilmiş bir temel model
- Verilen bir token için ağırlıkların %25’inin etkinleştirildiği 314B parametreli bir uzman karışımı modeli
- Ekim 2023’te JAX ve Rust üzerinde özel bir eğitim yığını kullanılarak xAI tarafından sıfırdan eğitildi

Grok-1 deposunun kullanımı

JAX örnek kodunu içeren Grok-1 deposu, Grok-1 açık ağırlıklı modelini yüklemek ve çalıştırmak için kullanılır.
Checkpoint’i indirip checkpoint dizini içine ckpt-0 dizinini yerleştirdikten sonra, kodu test etmek için pip install -r requirements.txt ve python run.py komutlarını çalıştırın.
Betik, checkpoint’i yükler ve test girdisi için modelden örnekler üretir.
Model çok büyük olduğundan (314B parametre), yeterli GPU belleğine sahip bir makine gereklidir.
Bu deponun MoE (Mixture of Experts) katmanı uygulaması verimli değildir; modelin doğruluğunu doğrulamak için özel kernel’lerden kaçınmak amacıyla bu tercih edilmiştir.

Ağırlıkları indirme

Ağırlıkları, bir torrent istemcisi ve şu bağlantı kullanılarak indirebilirsiniz: magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

Lisans

Bu sürümde yer alan kod ve Grok-1 ağırlıkları Apache 2.0 lisansı altında lisanslanmıştır.
Lisans yalnızca bu deponun kaynak dosyaları ve Grok-1 modelinin ağırlıkları için geçerlidir.

GN⁺ görüşü

Grok-1, çok büyük parametreli bir model olarak, makine öğrenimi araştırmacıları ve mühendislerine yüksek performanslı bilişim kaynaklarıyla deney yapma fırsatı sunuyor.
Açık kaynak lisansı Apache 2.0 sayesinde topluluk modeli serbestçe kullanabilir, değiştirebilir ve dağıtabilir; bu da iş birliği ve yeniliği teşvik edebilir.
Modelin boyutu çok büyük olduğundan, onunla fiilen deney yapmak ciddi hesaplama kaynakları gerektirir; bu da erişilebilirliği sınırlayabilir.
MoE katmanının verimsiz uygulanması araştırma amaçları için yararlı olabilir, ancak gerçek ürün veya hizmetlerde kullanım için optimize edilmiş bir uygulama bulunması gerekecektir.
Benzer işlevler sunan diğer açık kaynak projeler arasında Google’ın TensorFlow’u ve Facebook’un PyTorch’u da bulunur; bunlar da büyük ölçekli modellerle deney yapmak için kullanılabilir.

1 yorum

GN⁺ 2024-03-18

Hacker News görüşleri

8x86B model şu ana kadarki en büyük açık model gibi görünüyor. Bu modelin kaç token ile eğitildiğini öğrenmek ilginç olurdu.
- Bu, büyük ölçekli metin verileriyle eğitilmiş bir temel model ve belirli görevler için ince ayar yapılmamış.
- Twitter'da önceden gösterilen sürümün, ham ağırlıklardan farklı davranan bir talimat ince ayarlı model olduğu tahmin ediliyor.
Bu modeli Mistral gibi açık kaynak alternatifler yerine kullanmak istemenin sebebi ne?
Bu model, native FP8'i destekleyen ilk büyük model mi? Donanım desteklediğinde bunun büyük bir avantaj olacağını düşünüyorum; insanlar neden şimdiye kadar bunu yapmadı merak ediyorum.
Bu model hangi dilleri destekliyor?
Blog yazısı: Grok-OS
- 314B parametrenin 86B'si aktif.
- 8 uzmandan oluşan mixture of experts yapısında 2 uzman aktif.
- Ağırlıklar ve mimari Apache 2.0 lisansı altında.
Geçen yıl yayımlanan blog yazısı: Grok
- Claude 2, GPT-3.5, GPT-4 ile karşılaştırmalı benchmark'lar içeriyor.
- GPT-3.5, Mixtral, Qwen-1.5-72B ile benzer yeteneklere sahip, ancak açık ağırlıklı modellerden çok daha büyük.
Parametre sayısı ve mixture of experts açısından üst sınıra ya da azalan getiri noktasına ne zaman ulaşıyoruz?
Bir yerde model kartı var mı? Bu modelin neyle eğitildiğini bilmek istiyorum.
İnce bir nokta: Musk "açık kaynak" dedi ama bunun yerine "açık ağırlık" elde ettik (yine de hiç olmamasındansa çok daha iyi olduğu için buna fazlasıyla minnettarım).
Diğer depo sadece Qdrant'in bir fork'u.

xAI, Grok-1 LLM’in temel model ağırlıklarını ve ağ mimarisini yayımladı

Grok-1 deposunun kullanımı

Ağırlıkları indirme

Lisans

GN⁺ görüşü

İlgili okumalar

1 yorum

Hacker News görüşleri