- Ücretsiz olarak açık yayımlananlar arasında dünyadaki en büyük görüntü veri kümesi
→ 2014~2021 arasındaki web sayfası tarama verilerinin dökümü
- Tüm görüntü/metinler OpenAI'nin CLIP'i ile filtrelendi
→ Görüntü/metin benzerliği 0.3'ün altında olanlar elendikten sonra manuel doğrulama yapıldı
- Veri kümesi yapısı
→ 50GB URL+altyazı metadata Parquet dosyaları
→ 10TB tam sürüm web dataset; 256x256 görüntü/altyazı/metadata ile doğrudan eğitimde kullanılabilir
→ 1TB, 400M metin/görüntü CLIP embedding'i. KNN indices yeniden oluşturma için faydalı
→ Veri kümesinde aramayı kolaylaştıran 2 adet 4GB KNN indices
SAMPLE_ID | URL | TEXT | LICENSE | NSFW | similarity | WIDTH | HEIGHT
Henüz yorum yok.