Vision Transformer'larda Registers Gerekliliği Gündemde
(openreview.net)Vision Transformer'larda register'lara ihtiyaç var
- Yazarlar: Timothée Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski
- ICLR 2024 sözlü sunumu
- 16 Ocak 2024'te yayımlandı, 12 Nisan 2024'te son kez güncellendi
Özet
- Gözetimli öğrenme ve özdenetimli öğrenme ile eğitilmiş Vision Transformer (ViT) modellerinin özellik haritalarında artifaktlar keşfediliyor ve karakterize ediliyor
- Çıkarım sırasında, çoğunlukla bilgi içeriği düşük arka plan bölgelerinde görülen yüksek normlu token'ların iç hesaplamalar için yeniden kullanılmasıyla ilişkili bir artifakt
- ViT girdi dizisine ek token'lar ("register" olarak adlandırılıyor) ekleyen basit ama etkili bir çözüm öneriliyor
- Hem gözetimli hem özdenetimli modellerde bu sorunu tamamen çözüyor, yoğun görsel kestirim görevlerinde özdenetimli görsel modeller için yeni bir SOTA belirliyor, daha büyük modellerle nesne algılama yöntemlerini mümkün kılıyor ve en önemlisi, aşağı akış görsel işleme için daha pürüzsüz özellik haritaları ve attention haritaları sağlıyor
Deneyler ve analiz
- Artifaktlara yönelik inceleme oldukça özgün ve kapsamlı. Grafikler ve açıklamalar çok içgörülü, deneyler de kapsamlı
- Önerilen register token'larının eklenmesi çok basit ve zarif; ayrıca daha yorumlanabilir attention maskeleri sağlıyor
- Sınırlamalara ilişkin ifadeler takdir ediliyor
- Makalenin takibi kolay ve görselleştirmeler sezgi kazandırmaya yardımcı oluyor
İyileştirme noktaları
- Register token'ları eklenerek aykırı token davranışının ortadan kalktığını gösteren deneyler yetersiz. Önerilen modelde bilginin görüntü/register token'larına aktarılıp aktarılmadığını doğrulamak ilginç olurdu
- Gözetimsiz nesne algılama için model performansına dair tartışma sınırlı ve sonuçlarla uyumlu değil
- DINOv2+reg'in kazancı etkileyici olsa da bunun neden DINO ile örtüşmediğine dair daha fazla tartışma veya nitel örnek gerekiyor
- Tüm modellerde register'ların gözetimsiz nesne algılama performansını artırdığı söyleniyor, ancak OpenCLIP performansı tersine düşüyor
GN⁺ Görüşü
-
Sınırlı patch-level tekrarını azaltmak için register'ların dışında başka yöntemler de olabilir. MAE gibi, patch-level yeniden yapılandırmanın temsil tekrarını azaltması beklenen diğer özdenetimli modellerde benzer bir etkinin gözlenip gözlenmediği merak uyandırıyor
-
OpenCLIP performansındaki düşüş için ek açıklama gerekiyor gibi görünüyor. Ayrıca DINO'nun LOST performansının neden DINOv2'den daha iyi olduğuna dair açıklama da yetersiz
-
DINOv2'nin yoğun maske-görüntü modelleme amaç fonksiyonu kullanmasına rağmen böyle bir davranış göstermesi şaşırtıcı. Maskelenmiş görüntü amacı patch özelliklerinde bilginin korunmasını gerektirdiği halde bunun neden bu davranışı engelleyemediği merak konusu
-
Veri kümesinin kendi önyargısı ile etiket önyargısını ayırmak gerekiyor gibi görünüyor. SSL, etiket önyargısından daha az etkilenebilir; ancak Instagram ve iNaturalist gibi veri kaynaklarından doğan önyargılar yine de var olabilir
-
Daha büyük modellerde aykırı token'ların ortaya çıktığı öne sürülüyor, ancak CLIP/DEIT'in base modellerinde bu görülmüyor. 2.2 bölümünün sonunda buna dair bir yorum faydalı olurdu
-
Register eklenmiş DINO modelinin gözetimsiz nesne algılama performansının, OpenAI'nin CLIP'i veya Google'ın LiT'i gibi benzer işlevli diğer modellerle karşılaştırıldığında nasıl olduğu merak ediliyor
-
ViT tabanlı modellerde gözlenen aykırı token olgusunun CNN tabanlı modellerde de ortaya çıkıp çıkmadığını, yoksa bunun transformer mimarisine özgü olup olmadığını analiz etmek faydalı olurdu
-
Gerçek uygulamalarda register token'ları kullanıldığında ek hesaplama yükünün performans kaybına yol açıp açmayacağı ve en uygun register sayısının nasıl belirleneceğine dair yönergeler yararlı olabilir
Henüz yorum yok.