- 1 trilyon tokenlık RedPajama-1T'ye kıyasla çok daha büyük bir ölçek
- 84 CommonCrawl dökümünden, 100 trilyondan fazla ham token içeren 100 milyardan fazla metin belgesi
- Tekilleştirilmiş 30 trilyon tokenlık alt küme için önceden hesaplanmış, en yaygın kullanılan 40'tan fazla kalite açıklaması içeriyor
- 5 dil: İngilizce, Fransızca, İspanyolca, Almanca, İtalyanca
- Tüm veri işleme betikleri açık kaynak ve GitHub'da mevcut; tüm veriler ise HuggingFace üzerinde erişilebilir
1 yorum
RedPajama - LLaMA veri setini yeniden oluşturan açık kaynak proje
RedPajama 3B, 7B modelleri yayımlandı
RedPajama, HELM benchmark'ta açıklanan diğer 7B LLM modellerinden daha iyi performans gösteren 7B modelini yayımladı