TabLib - 867B Tabular Token veri kümesi
(approximatelabs.com)- LLM eğitimi için 627M (6,27 yüz milyon) tablo ve 867B (867 milyar) token içeren veri kümesi
- Web sayfaları, Excel, CSV, SQLite vb. kaynaklardan çıkarılmış tabloları içerir
- Dosya adları, kaynak URL'leri ve her tablonun çevresindeki metinler gibi zengin bağlamsal veriler
- Tablo biçimli veri görevlerine yönelik daha iyi anlayış ve teknikler geliştirmeye yardımcı olması amaçlanıyor
- 650 milyar satır ve en fazla 8 milyar sütun
- En büyük tablo 32 milyon satır içeriyor
- En geniş tablo 3 milyon sütuna sahip
Henüz yorum yok.