- "ConvNets Match Vision Transformers at Scale"
- ConvNet'lerin orta ve küçük ölçekli veri setlerinde iyi performans gösterdiği, ancak çok büyük veri setlerinde transformer'ların, özellikle de Vision Transformer'ların (ViT), gerisinde kaldığı yönünde yaygın bir kanı var
- DeepMind'ın son araştırması bu görüşe meydan okuyor
- Transformer'ların ölçeklenebilirliğinin ConvNet'lerin ölçeklenebilirliğini aştığı düşünülüyordu, ancak bunu destekleyen kanıtlar yetersiz
- Yazarlar, ağın genişliğini/derinliğini kademeli olarak artırmak için NFNet (Normalizer-Free ResNets) ailesini kullandı
- JFT-4B üzerinde ön eğitim yapıp, ImageNet'te ince ayar için SAM (Sharpness-Aware Minimization) kullandılar
- Sonuç olarak ViT modelleriyle eşdeğer performans gösterdiler
- Tüm modeller, ek hesaplama gücü verildikçe sürekli olarak iyileşti
Henüz yorum yok.