2 puan yazan GN⁺ 2024-07-11 | 1 yorum | WhatsApp'ta paylaş

Vizyon-dil modelleri görsel görevlerde iyi performans göstermiyor

Özet

  • Vizyon-dil modelleri (VLM'ler), görüntü-metin işleme uygulamalarında yüksek performans gösterse de insanlar için çok kolay olan 7 görsel görevde başarısız oluyor.
  • Bu çalışma, VLM'lerin görsel algı yeteneklerinin sınırlı olduğunu gösteriyor.

Task 1: Çizgi kesişimlerini hesaplama

  • Görüntü: Kesişen iki doğru parçası içeren 150 adet 2D çizgi grafiği üretildi
  • Soru: "Mavi ve kırmızı çizgiler kaç kez kesişiyor?"
  • Sonuç: Modeller kesişim noktalarını doğru şekilde hesaplayamadı

Task 2: İki daire

  • Görüntü: Farklı boyut, mesafe ve yönlere sahip iki daire içeren 672 görüntü üretildi
  • Soru: "İki daire birbirine temas ediyor mu?" veya "İki daire çakışıyor mu?"
  • Sonuç: Modeller kısa mesafelerde tutarlı biçimde başarısız oldu

Task 3: Daire içine alınmış harfler

  • Görüntü: Bir kelimedeki her harfi kırmızı bir daireyle çevreleyen görüntüler üretildi
  • Soru: "Hangi harf daire içine alınmış?"
  • Sonuç: Modeller bitişik harfleri tahmin etme eğilimi gösterdi

Task 4: Üst üste binen şekilleri sayma

  • Görüntü: Olimpiyat logosuna benzer şekilde üst üste binen daireler ve beşgenler içeren görüntüler üretildi
  • Soru: "Görüntüde kaç şekil var?"
  • Sonuç: Modeller şekil sayısını doğru biçimde hesaplayamadı

Task 5: İç içe dikdörtgenleri sayma

  • Görüntü: İç içe geçmiş dikdörtgenler içeren görüntüler üretildi
  • Soru: "Görüntüde toplam kaç dikdörtgen var?"
  • Sonuç: Modeller iç içe dikdörtgenlerin sayısını doğru biçimde hesaplayamadı

Task 6: Izgaradaki satır ve sütunları sayma

  • Görüntü: Metin içeren ızgaralar ve boş ızgaralar içeren görüntüler üretildi
  • Soru: "Izgarada kaç satır ve sütun var?"
  • Sonuç: Metin içeren ızgaralarda performans arttı, ancak boş ızgaralarda başarısız oldular

Task 7: Tek renkli yol izleme

  • Görüntü: Metro hat şemaları içeren görüntüler üretildi
  • Soru: "A'dan C'ye giden tek renkli kaç yol var?"
  • Sonuç: Modeller yol sayısını doğru biçimde hesaplayamadı

GN⁺ özeti

  • Bu çalışma, vizyon-dil modellerinin (VLM'ler) görsel algı yeteneklerinin sınırlı olduğunu gösteriyor.
  • VLM'ler, insanlar için kolay olan görsel görevlerde tutarlı biçimde başarısız oluyor.
  • Bu durum, VLM'lerin görsel algı yeteneklerini geliştirmek için ek araştırmaya ihtiyaç olduğunu gösteriyor.
  • Benzer işlevlere sahip diğer projeler arasında OpenAI'nin GPT-4'ü ve Google'ın Gemini-1.5 Pro'su bulunuyor.

1 yorum

 
GN⁺ 2024-07-11
Hacker News görüşleri
  • Sonucun yanlış olduğunu düşünüyorum

    • "Miyop bir insanın görüşü" benzetmesi abartılı
    • GPT-4v'nin ayrıntılı görsel görevleri iyi yaptığı örnekler var
    • Büyük GenAI modelleri çok veriyle eğitildiğinde performansları iyi oluyor
    • Yazarların sunduğu kanıtlar yetersiz
  • Captcha ile ilgili deneyim paylaşımı

    • GPT-4o, garaj kapısı sorununu çözmeye yardımcı oldu
    • Fotoğrafta yanlış kurulumu tespit etti ama eksik somunu kaçırdı
  • VLM'lerin nesne sayma ve mekânsal ilişkileri algılama sorunu

    • Microsoft'un Set of Marks yaklaşımı yardımcı olabilir
    • "Söylenebilir" etiketler sağlamak performans artışına katkı sağlıyor
  • Mevcut SOTA modellerin performansına eleştiri

    • İnsanlar için kolay olan görevlerde başarısız oluyorlar
    • Örn: çizgi kesişim sayısını sayma, daire örtüşmesini algılama vb.
  • VLM'lerin görüntü işleme biçimine dair görüş

    • İnsanlar ilgi alanına odaklanabilirken, VLM'ler tüm görüntüyü aynı çözünürlükte işliyor
    • Modelleri etkileşim verisiyle eğitmenin yollarına dair merak
  • "Vision language models are blind" başlığının abartılı olduğunu düşünüyorum

    • VLM'lerin görüntü girdisini işleme biçimi farklı
    • Düşük çözünürlükte ayrıntıları kaçırabiliyorlar
    • Örnek olarak Sonnet 3.5'in yanıtı genel olarak doğruydu ama bazı hatalar vardı
  • Modellerin girdi verisini yorumlama biçimine dair anlayış

    • LLM'ler ve çok modlu modeller somut akıl yürütme becerisinden yoksun
    • Örn: ChatGPT metni iyi özetler ama kelime saymada iyi değildir
    • AGI geliştirmenin temel sorunu, yüksek seviye ve düşük seviye zekâyı birleştirmek
  • GPT-4 seviyesine dair görüş

    • Mira Murati'nin GPT-4'ün lise seviyesinde olduğu yönündeki sözünden alıntı
  • Yapay zeka, okul takvimi görsellerini okumakta zorlanıyor

    • Belirli bir tarih sorulduğunda bazılarını doğru buluyor ama bazılarını kaçırıyor veya yeni tarihler uyduruyor
    • Gürültü kaldırıldığında performans biraz artıyor ama hâlâ güvenilir değil