Vizyon-dil modelleri görsel görevlerde iyi performans göstermiyor
Özet
- Vizyon-dil modelleri (VLM'ler), görüntü-metin işleme uygulamalarında yüksek performans gösterse de insanlar için çok kolay olan 7 görsel görevde başarısız oluyor.
- Bu çalışma, VLM'lerin görsel algı yeteneklerinin sınırlı olduğunu gösteriyor.
Task 1: Çizgi kesişimlerini hesaplama
- Görüntü: Kesişen iki doğru parçası içeren 150 adet 2D çizgi grafiği üretildi
- Soru: "Mavi ve kırmızı çizgiler kaç kez kesişiyor?"
- Sonuç: Modeller kesişim noktalarını doğru şekilde hesaplayamadı
Task 2: İki daire
- Görüntü: Farklı boyut, mesafe ve yönlere sahip iki daire içeren 672 görüntü üretildi
- Soru: "İki daire birbirine temas ediyor mu?" veya "İki daire çakışıyor mu?"
- Sonuç: Modeller kısa mesafelerde tutarlı biçimde başarısız oldu
Task 3: Daire içine alınmış harfler
- Görüntü: Bir kelimedeki her harfi kırmızı bir daireyle çevreleyen görüntüler üretildi
- Soru: "Hangi harf daire içine alınmış?"
- Sonuç: Modeller bitişik harfleri tahmin etme eğilimi gösterdi
Task 4: Üst üste binen şekilleri sayma
- Görüntü: Olimpiyat logosuna benzer şekilde üst üste binen daireler ve beşgenler içeren görüntüler üretildi
- Soru: "Görüntüde kaç şekil var?"
- Sonuç: Modeller şekil sayısını doğru biçimde hesaplayamadı
Task 5: İç içe dikdörtgenleri sayma
- Görüntü: İç içe geçmiş dikdörtgenler içeren görüntüler üretildi
- Soru: "Görüntüde toplam kaç dikdörtgen var?"
- Sonuç: Modeller iç içe dikdörtgenlerin sayısını doğru biçimde hesaplayamadı
Task 6: Izgaradaki satır ve sütunları sayma
- Görüntü: Metin içeren ızgaralar ve boş ızgaralar içeren görüntüler üretildi
- Soru: "Izgarada kaç satır ve sütun var?"
- Sonuç: Metin içeren ızgaralarda performans arttı, ancak boş ızgaralarda başarısız oldular
Task 7: Tek renkli yol izleme
- Görüntü: Metro hat şemaları içeren görüntüler üretildi
- Soru: "A'dan C'ye giden tek renkli kaç yol var?"
- Sonuç: Modeller yol sayısını doğru biçimde hesaplayamadı
GN⁺ özeti
- Bu çalışma, vizyon-dil modellerinin (VLM'ler) görsel algı yeteneklerinin sınırlı olduğunu gösteriyor.
- VLM'ler, insanlar için kolay olan görsel görevlerde tutarlı biçimde başarısız oluyor.
- Bu durum, VLM'lerin görsel algı yeteneklerini geliştirmek için ek araştırmaya ihtiyaç olduğunu gösteriyor.
- Benzer işlevlere sahip diğer projeler arasında OpenAI'nin GPT-4'ü ve Google'ın Gemini-1.5 Pro'su bulunuyor.
1 yorum
Hacker News görüşleri
Sonucun yanlış olduğunu düşünüyorum
Captcha ile ilgili deneyim paylaşımı
VLM'lerin nesne sayma ve mekânsal ilişkileri algılama sorunu
Mevcut SOTA modellerin performansına eleştiri
VLM'lerin görüntü işleme biçimine dair görüş
"Vision language models are blind" başlığının abartılı olduğunu düşünüyorum
Modellerin girdi verisini yorumlama biçimine dair anlayış
GPT-4 seviyesine dair görüş
Yapay zeka, okul takvimi görsellerini okumakta zorlanıyor