12 puan yazan xguru 2021-09-15 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Ücretsiz olarak açık yayımlananlar arasında dünyadaki en büyük görüntü veri kümesi

→ 2014~2021 arasındaki web sayfası tarama verilerinin dökümü

  • Tüm görüntü/metinler OpenAI'nin CLIP'i ile filtrelendi

→ Görüntü/metin benzerliği 0.3'ün altında olanlar elendikten sonra manuel doğrulama yapıldı

  • Veri kümesi yapısı

→ 50GB URL+altyazı metadata Parquet dosyaları

→ 10TB tam sürüm web dataset; 256x256 görüntü/altyazı/metadata ile doğrudan eğitimde kullanılabilir

→ 1TB, 400M metin/görüntü CLIP embedding'i. KNN indices yeniden oluşturma için faydalı

→ Veri kümesinde aramayı kolaylaştıran 2 adet 4GB KNN indices

SAMPLE_ID | URL | TEXT | LICENSE | NSFW | similarity | WIDTH | HEIGHT

Henüz yorum yok.

Henüz yorum yok.