AI2 Dolma: Dil modelleri için 3T token'lık açık corpus
(blog.allenai.org)- Allen Institute for AI tarafından oluşturulan bir veri kümesi
- Web içeriği, akademik yayınlar, kod, kitaplar ve ansiklopedi materyallerinin karışımı
- 3 trilyon token ile şu ana kadar kamuya açılmış olanlar arasında en büyük ölçekli veri kümesi
- HuggingFace Hub üzerinden indirilebilir
- AI2 ImpACT lisansı (artifact riskine göre Low/Medium/High olarak ayrılıyor)
Henüz yorum yok.