Yapay zeka eğitimi için metin veri koleksiyonu
(the-eye.eu)OpenAI'nin GPT-3'te kullandığı verilere benzer kaynaklar
-
books3.tar.gz : 37GB, yaklaşık 197.000 kitabın txt olarak çıkarılmış hali
-
github.tar.gz : 106G, GitHub'daki çeşitli repoların derlenmiş hali
-
stackexchange_dataset.tar : 34G, Stack Exchange'in soru-cevap verileri
Bunların dışında da çok sayıda farklı kaynak var
2 yorum
Biraz alakasız gelebilir ama, böyle eğitim amaçlı arşivleri ve arşivleri görünce dijital dünyada unutulma özgürlüğünün olmadığını yeniden fark ediyor insan.
Bu materyalle ilgili açıklama için aşağıdaki Twitter zincirine bakın
https://threadreaderapp.com/thread/1320282149329784833.html