5 puan yazan xguru 2023-11-09 | 1 yorum | WhatsApp'ta paylaş
  • 1 trilyon tokenlık RedPajama-1T'ye kıyasla çok daha büyük bir ölçek
  • 84 CommonCrawl dökümünden, 100 trilyondan fazla ham token içeren 100 milyardan fazla metin belgesi
  • Tekilleştirilmiş 30 trilyon tokenlık alt küme için önceden hesaplanmış, en yaygın kullanılan 40'tan fazla kalite açıklaması içeriyor
  • 5 dil: İngilizce, Fransızca, İspanyolca, Almanca, İtalyanca
  • Tüm veri işleme betikleri açık kaynak ve GitHub'da mevcut; tüm veriler ise HuggingFace üzerinde erişilebilir