- Piksellerin kendisini karşılaştırmak yerine, görüntülerin soyut temsillerini karşılaştıran bir iç model oluşturarak öğreniyor
- Bilgisayarlı görü görevlerinde güçlü performans sunuyor ve çok daha verimli. Kapsamlı fine-tuning olmadan da farklı alanlarda kullanılabiliyor
- Yalnızca 16 adet A100 GPU ile 72 saat içinde 632M parametreli bir görsel transformer modeli eğitilebiliyor
- Sınıf başına yalnızca 12 etiketli örnekle ImageNet low-shot sınıflandırmada SOTA performans gösteriyor
- Makale CVPR 2023’te sunulacak ve eğitim kodu ile model checkpoint’leri de açık kaynak olarak yayımlanacak
- Image Joint Embedding Predictive Architecture
1 yorum
Yazım hatası nedeniyle
광범위kelimesi doğru yazılmamış gibi görünüyor