[Çeviri] VLMs are blind: Görsel-dil modellerinin başarısız olduğu (insanlar için kolay) görsel görevler üzerine araştırma (feat. BlindTest)
(discuss.pytorch.kr)VLMs(Vision-Language Models) are Blind makalesine giriş
Son 8 ayda GPT-4V(ision) gibi görsel-dil modellerinin (VLM) ortaya çıkmasıyla birlikte görüntü-metin işleme uygulamaları hızla arttı. VLM (Vision-Language Model, görsel-dil modeli), bir sahnedeki nesneleri doğru biçimde tanımlayabilir ve buna dayanarak karmaşık görevleri yerine getirebilir. Örneğin sahnenin görüntüsü ve menü görseline bakarak masadaki biranın maliyetini hesaplamak gibi görevler buna dahildir. Ancak VLM’ler belirli görevlerde şaşırtıcı sınırlamalar gösteriyor; bu da görüntüleri insanlar gibi algılayıp algılamadıkları sorusunu gündeme getiriyor. Bu makale, bu sınırlamaları değerlendirmek için 7 görsel görevden oluşan BlindTest adlı bir set öneriyor. BlindTest, insanlar için son derece kolay olan ama en güncel VLM’ler için büyük zorluk yaratan görevlerden oluşuyor.
Bu makalenin ele aldığı temel sorun, VLM’lerin algılanan yetenekleri ile temel görsel görevlerdeki gerçek performansları arasındaki farktır. VLM’ler üst düzey görsel benchmark’larda çok iyi sonuçlar verse de, hassas mekânsal anlayış ve nesne sayımı gerektiren basit görevlerde zorlanıyor. Bu sorunu çözmek, VLM’lerin gerçek yaşam senaryolarındaki pratik kullanımını ilerletmek açısından kritik önem taşıyor.
Yakın dönemde geliştirilen bazı VLM’ler, model mimarisinde görsel ve dili erken aşamada birleştirerek görsel veri ile metin verisi arasında daha akıcı etkileşim sağlıyor. Başka bir yaklaşım ise görsel ve dil bileşenlerini daha sonra bir araya getiriyor; bu da dil anlama konusunda güçlü ama görsel algı tarafında daha zayıf performans gösteriyor. Mevcut benchmark’lar VLM’leri MMMU ve AI2D gibi karmaşık görsel akıl yürütme görevlerinde değerlendiriyor, ancak düşük seviyeli görsel görevleri çoğu zaman göz ardı ediyor.
Bu makale, BlindTest adlı yeni bir benchmark sunarak mevcut görsel-dil modellerinin (VLM) sınırlamalarını inceliyor. BlindTest; iki dairenin çakışıp çakışmadığını kontrol etmek ya da bir görseldeki şekil sayısını saymak gibi insanlar için sezgisel ve kolay görsel görevlerden oluşuyor.
Görsel-dil modeli (VLM, Vision-Language Model)
Yazarlar dört güncel VLM’i test etti: GPT-4o, Gemini-1.5 Pro, Claude-3 Sonnet ve Claude-3.5 Sonnet. Bu modeller son dönemde multimodal görsel benchmark’larda üst sıralarda yer alıyor ve çeşitli konularda yüksek performans gösteriyor. Örneğin MMMU, AI2D, MathVista, ChartQA, DocVQA, ActivityNet-QA ve EgoSchema gibi benchmark’larda güçlü sonuçlar elde ediyorlar. Ancak mevcut benchmark’lar yalnızca VLM’lerin genel performansını ölçüyor; belirli sınırlamaları net biçimde ortaya koyamıyor. Bu nedenle araştırmacılar, VLM’lerin basit görsel görevlerde nasıl tepki verdiğini değerlendirmek için yeni bir benchmark tasarladı. Bu benchmark temel 2D geometrik şekiller içeriyor ve çok az arka plan bilgisi gerektiriyor.
BlindTest benchmark’ı
BlindTest, her biri VLM’lerin temel görsel algıyı nasıl gerçekleştirdiğini ölçen 7 basit görsel görevden oluşuyor.
Task 1. Kesişim noktası sayma 📈📉
Bu görevde, iki adet 2 segmentli doğrusal fonksiyonun 0, 1 veya 2 kesişim noktasına sahip olduğu durumlar test ediliyor. Bunun için 150 adet 2D çizgi grafik görseli üretildi. Her çizgi grafiği, sabit üç x koordinatı ve rastgele seçilmiş y koordinatlarıyla tanımlanıyor ve beyaz bir zemin üzerine çiziliyor. Bu süreçte çizgiler, tam olarak 0, 1 veya 2 kesişim noktası olacak şekilde ayarlanıyor.
Her soru iki farklı ifadeyle soruluyor. İlki, "Mavi ve kırmızı çizgi grafikleri birbirini kaç kez kesiyor?(How many times do the blue and red line plots cross each other?)"; ikincisi ise "Mavi ve kırmızı çizgiler kaç kez kesişiyor?(How many times do the blue and red lines intersect?)" şeklinde. Bunun amacı, VLM’lerin ifade biçimindeki ince farkları algılayıp aynı anlamı çıkarıp çıkaramadığını değerlendirmek. Soruların farklı biçimlerde sunulması, modelin anlama becerisini çok yönlü olarak test etmekte faydalı oluyor.
Dört modelin çizgi kesişim sayısını bulma görevindeki performansı şöyle: GPT-4o %48,67, Gemini-1.5 Pro %69,67, Sonnet-3 %64,00 ve Sonnet-3.5 %77,33 doğruluk gösterdi. Bu da VLM’lerin çizgilerin kesişip kesişmediğini belirlemede zorlandığını ortaya koyuyor. Özellikle modeller arasındaki büyük performans farkı, her modelin görsel işleme yeteneğinin farklı olduğuna işaret ediyor. Bu sonuç, VLM’lerin görsel anlama kapasitesini geliştirmek için ek araştırmaya ihtiyaç olduğunu vurguluyor.
Task 2. İki dairenin durumunu kontrol etme 🔴🔵
Bu görevde, aynı boyuttaki iki dolu dairenin birbirine temas edip etmediği ya da üst üste binip binmediği değerlendiriliyor. Bunun için 672 görsel üretildi. Dairelerin boyutu, aralarındaki mesafe ve yönleri çeşitli biçimlerde ayarlanırken, tuval boyutu 384, 769 ve 1155 piksel olarak belirlendi. Daire çapı, tuval boyutunun 1/4, 1/5, 1/6 ve 1/7’si olarak ayarlandı; dairelerin mesafesi ve yönü ise rastgele belirlendi.
Her soru iki farklı ifadeyle soruluyor. İlki, "İki daire birbirine temas ediyor mu? Evet/Hayır şeklinde yanıtlayın.(Are the two circles touching each other? Answer with Yes/No)"; ikincisi ise "İki daire üst üste biniyor mu? Evet/Hayır şeklinde yanıtlayın.(Are the two circles overlapping? Answer with Yes/No.)" şeklinde. Bunun amacı, modelin ifade biçimindeki ince farkları algılayıp aynı anlamı çıkarıp çıkaramadığını değerlendirmek. Soruların farklı biçimlerde sunulması, modelin anlama becerisini çok yönlü olarak test etmede faydalıdır.
Dört modelin iki dairenin temas durumunu belirleme performansı şöyle: GPT-4o ortalama %72,69, Gemini-1.5 Pro ortalama %92,78, Sonnet-3 ortalama %84,52 ve Sonnet-3.5 ortalama %91,66 doğruluk gösterdi. Bu sonuç, VLM’lerin dairelerin çakışma durumunu belirlemede belli bir performans sergilese de hâlâ geliştirilmesi gerektiğini gösteriyor. Özellikle modeller arasındaki büyük performans farkı, her modelin görsel işleme yeteneğinin farklı olduğuna işaret ediyor.
Task 3. Daire içine alınmış harfi bulma 🔤⭕
Bu görevde, farklı karakter dizilerinde her karakter sırayla daire içine alınmış görseller üretilerek VLM’lerin hangi karakterin daire içine alındığını tanıyıp tanıyamadığı değerlendiriliyor. Seçilen karakter dizileri Acknowledgement, Subdermatoglyphic ve tHyUiKaRbNqWeOpXcZvM; her dizideki her karakter sırayla daire içine alınıyor. Böylece VLM’lerin karakterler arasındaki küçük boşlukları algılayıp algılayamadığı ölçülüyor.
İki farklı prompt kullanılıyor. İlki, "Hangi harf daire içine alınmış?(Which letter is being circled?)"; ikincisi ise "Hangi karakter kırmızı bir oval ile vurgulanmış?(Which character is being highlighted with a red oval?)" şeklinde. Bunun amacı, modelin ifade biçimindeki ince farkları algılayıp aynı anlamı çıkarıp çıkaramadığını değerlendirmek. Soruların farklı biçimlerde sunulması, modelin anlama becerisini çok yönlü olarak test etmede faydalıdır.
Dört modelin daire içine alınmış karakteri tanıma performansı şöyle: GPT-4o ortalama %70,18, Gemini-1.5 Pro ortalama %92,81, Sonnet-3 ortalama %73,34 ve Sonnet-3.5 ortalama %89,22 doğruluk gösterdi. Bu da VLM’lerin daire içine alınmış karakterleri tanımada zorlandığını gösteriyor.
Yani tüm VLM’ler karakterleri doğru biçimde tanımlamakta zorlandı. Özellikle daire karakterin üzerine hafifçe taştığında çok sayıda hata ortaya çıktı. Bu da VLM’lerin ayrıntılı görsel bilgiyi doğru biçimde işleyemediğini gösteriyor. Özellikle modeller arasındaki büyük performans farkı, her modelin görsel işleme yeteneğinin farklı olduğuna işaret ediyor.
Task 4. Üst üste binen şekilleri sayma ∞
Bu görevde, Olimpiyat logosuna benzer şekilde üst üste geçmiş dairelerin sayılması isteniyor. Bunun için 120 görsel üretildi ve hem daireler hem de beşgenler kullanılarak deneyler yapıldı. Her görsel, iki satır halinde düzenlenmiş 5, 6, 7, 8 veya 9 adet üst üste binen şekil içeriyor; şekillerin boyutları ve renkleri ise çeşitli biçimlerde ayarlandı.
Bu görevde iki farklı prompt kullanılıyor. Birincisi, "Görselde kaç tane {şekil} var? Yalnızca sayıyı sayısal biçimde yazın.(How many {shapes} are in the image? Answer with only the number in numerical format)"; ikincisi ise, "Görseldeki {şekil} sayısını sayın. {3} gibi süslü parantez içindeki bir sayı ile yanıtlayın.(Count the {shapes} in the image. Answer with a number in curly brackets e.g. {3}.)" şeklindedir. {şekil}, daire veya beşgen anlamına gelir. Bu, modelin ifade farklılıklarındaki ince nüansları algılayıp aynı anlamı çıkarıp çıkaramadığını değerlendirmek içindir.
Dört modelin iç içe geçmiş şekilleri sayma performansı şu şekildedir. GPT-4o, dairelerde %42.50, beşgenlerde %19.16 doğruluk gösterdi; Gemini-1.5 Pro, dairelerde %20.83, beşgenlerde %9.16 doğruluk gösterdi. Sonnet-3, dairelerde %31.66, beşgenlerde %11.66 doğruluk gösterirken, Sonnet-3.5 dairelerde %44.16 ve beşgenlerde %75.83 doğruluk gösterdi.
Modellerin çoğu bu görevde düşük performans sergiledi. Özellikle 5 daire olduğunda yüksek doğruluk görülürken, bunun üzerindeki sayılarda performans hızla düştü. Bu da VLM'lerin üst üste binen şekilleri doğru biçimde algılayamadığını gösteriyor.
Task 5. İç içe geçmiş kareleri sayma 🔳🔲
Bu görevde, birden fazla katmanlı kare üst üste bindirilerek görseller oluşturuluyor. Her görsel farklı boyutlarda kareler içeriyor ve karelerin boyutu ile konumu rastgele belirleniyor. Her görselde belirli sayıda iç içe geçmiş kare bulunuyor; kare sayısı ise 2, 3, 4 veya 5 oluyor. Bu görev, VLM'lerin iç içe geçmiş şekillerin sayısını doğru biçimde sayıp sayamadığını değerlendirmek için tasarlanmıştır.
Bu görevde, "Görseldeki toplam kare sayısını sayın.(Count the total number of squares in the image)" sorusu yöneltiliyor. Bu da VLM'lerin iç içe geçmiş şekillerin sayısını doğru sayıp sayamadığını değerlendirmek içindir. Ayrıca modelin ifade farklılıklarındaki ince nüansları algılayıp aynı anlamı çıkarıp çıkaramadığını değerlendirmeyi amaçlar.
Dört modelin iç içe geçmiş kareleri sayma performansı şu şekildedir. GPT-4o %48.33, Gemini-1.5 Pro %80.00, Sonnet-3 %55.00 ve Sonnet-3.5 %87.50 doğruluk gösterdi. Bu, VLM'lerin iç içe geçmiş karelerin sayısını saymada zorlandığını gösteriyor.
Sonuçlarda görüldüğü gibi, tüm modeller bu görevde de tutarlı biçimde düşük doğruluk sergiledi. Özellikle kare sayısı arttıkça hata oranı da yükseldi. Bu, VLM'lerin iç içe geçmiş şekilleri doğru algılamakta zorlandığını gösteriyor. Ayrıca modeller arasındaki büyük performans farkı, her modelin görsel işleme yeteneğinin farklı olduğuna işaret ediyor.
Task 6. Grid matrislerini sayma ▦
Bu görevde, farklı boyutlarda ızgara görselleri oluşturularak satır ve sütun sayılarının sayılması isteniyor. Her görsel, belirli sayıda satır ve sütun içeren bir grid yapısından oluşuyor ve bazı görsellerde her hücrede metin bulunuyor. Ayrıca ızgaranın boyutu ve biçimi çeşitlilik gösterecek şekilde ayarlanıyor. Bu, VLM'lerin ızgaradaki satır ve sütun sayısını doğru biçimde sayıp sayamadığını değerlendirmek içindir.
Her soru iki farklı ifadeden oluşuyor. Birincisi, "Satır ve sütun sayısını sayın ve süslü parantez içindeki sayılarla yanıtlayın. Örnek: satırlar={5} sütunlar={6}(Count the number of rows and columns and answer with numbers in curly brackets. For example, rows={5} columns={6})"; ikincisi ise, "Tablodaki satır ve sütun sayısını sayın. Sayılardan oluşan bir çift ile yanıtlayın. Örnek: (5,6)(How many rows and columns are in the table? Answer with only the numbers in a pair (row, column), e.g., (5,6))" şeklindedir. Bu da modelin ifade farklılıklarındaki ince nüansları algılayıp aynı anlamı çıkarıp çıkaramadığını değerlendirmek içindir.
Dört modelin satır ve sütun sayma performansı şu şekildedir. GPT-4o ortalama %39.58, Gemini-1.5 Pro ortalama %35.79, Sonnet-3 ortalama %36.17 ve Sonnet-3.5 ortalama %74.26 doğruluk gösterdi.
Deney sonuçlarına göre, metin içeren grid'lerde performans arttı ancak yine de yüksek doğruluk düzeyine ulaşılamadı. Bu, VLM'lerin ızgaranın ayrıntılı yapısını doğru algılayamadığı için satır ve sütun sayısını saymakta zorlandığını gösteriyor. Özellikle modeller arasındaki büyük performans farkı, her modelin görsel işleme yeteneğinin farklı olduğuna işaret ediyor.
Task 7. Tek renkli yolu takip etme 🔂
Bu görevde, tek renkli bir yolu izleyerek metro haritasını okuma işlemi yapılıyor. Her görsel, sabit 4 istasyon (A, B, C, D) ve bunlar arasındaki bağlantı yollarından oluşuyor. Bu, VLM'lerin tek renkli bir yolu takip edip edemediğini değerlendirmek içindir.
Her soru iki farklı prompt'tan oluşuyor. Birincisi, "A'dan C'ye giden tek renkli yol sayısı kaçtır? Süslü parantez içindeki bir sayı ile yanıtlayın. Örnek: {3}(How many single-colored paths go from A to C? Answer with a number in curly brackets, e.g., {3})"; ikincisi ise, "A'dan C'ye giden tek renkli rotaları sayın. Süslü parantez içindeki bir sayı ile yanıtlayın. Örnek: {3}(Count the one-colored routes that go from A to C. Answer with a number in curly brackets, e.g., {3}.)" şeklindedir. Bu da modelin ifade farklılıklarındaki ince nüansları algılayıp aynı anlamı çıkarıp çıkaramadığını değerlendirmek içindir.
Dört modelin tek renkli yol takibi performansı şu şekildedir. GPT-4o ortalama %45.89, Gemini-1.5 Pro ortalama %40.01, Sonnet-3 ortalama %23.78 ve Sonnet-3.5 ortalama %50.18 doğruluk gösterdi. Yani tüm modeller bu görevde düşük performans sergiledi.
Özellikle yol sayısı arttıkça performans hızla düştü. Bu, VLM'lerin tek renkli yolları takip etmekte zorlandığını gösteriyor. Modeller arasındaki büyük performans farkı da her modelin görsel işleme yeteneğinin farklı olduğuna işaret ediyor.
Deney sonuçları
Tüm VLM'ler, basit görsel görevlerde bile düşük doğruluk gösterdi. Özellikle doğru parçası kesişimlerini sayma, iki dairenin durumunu kontrol etme ve daire içine alınmış karakterleri kontrol etme gibi görevlerde belirgin biçimde düşük performans sergilendi. Bu, VLM'lerin ayrıntılı görsel bilgiyi doğru biçimde algılayamadığını düşündürüyor. Ayrıca üst üste binen şekilleri sayma, iç içe geçmiş kareleri sayma, grid matrislerini sayma ve tek renkli yolu takip etme gibi görevlerde de tutarlı biçimde düşük performans görüldü.
Genel olarak deneyler, VLM'lerin görsel algılama yeteneğinin sınırlı olduğunu ortaya koydu. Bu sonuçlar, VLM'lerin insan seviyesinde görsel algı yeteneğine ulaşabilmesi için daha fazla iyileştirmeye ihtiyaç duyduğunu gösteriyor.
İlgili çalışmalar ve sonuç
Mevcut VLM benchmark'ları çoğunlukla üst düzey görsel anlama yeteneklerini değerlendirmeye odaklanıyor. Buna karşın BlindTest, temel görsel algılama yeteneklerini değerlendiren ilk benchmark olarak, VLM'lerin basit görsel görevlerde hangi sınırlara sahip olduğunu açık biçimde gösteriyor.
Örneğin MMMU, AI2D, MathVista, ChartQA, DocVQA, ActivityNet-QA ve EgoSchema gibi benchmark'lar yalnızca VLM'lerin genel performansını ölçüyor; ancak somut sınırlılıkları net biçimde ortaya koyamıyor. Bu nedenle BlindTest, VLM'lerin görsel algılama yeteneğini daha doğru değerlendirmek için önemli bir araçtır. Ayrıca BlindTest, VLM'lerin görüntüleri insanlar gibi algılayıp algılamadığını değerlendirmede önemli bir ölçüt olacaktır.
BlindTest görevlerindeki zayıf performans, günümüz VLM'lerinin doğru mekânsal kavrayış gerektiren temel görsel algılama görevlerinde hâlâ yeterince yetkin olmadığını gösteriyor. Bu sınırlılık, modellerin dil işleme becerilerine dayanma eğilimi nedeniyle görsel algıya uygun olmayabileceklerini ortaya koyuyor. Bu sonuçlar, VLM'lerin görsel yeteneklerini geliştirmek için ek araştırma ve geliştirme çalışmalarına ihtiyaç olduğunu vurguluyor.
Gelecekteki araştırmalarda, VLM’nin görsel algılama yeteneklerini geliştirmek için yeni yaklaşımlara ihtiyaç var. Örneğin, vision modülünü iyileştirmek için erken birleştirme (early fusion) yaklaşımı kullanılabilir. Ayrıca, VLM’nin basit görsel görevlerde daha iyi performans gösterebilmesi için eğitim verilerini çeşitlendirmek gerekiyor. Bu tür çabalar sayesinde VLM’nin görsel algılama yetenekleri geliştirilebilir.
📜 VLMs are Blind makalesini okuyun
https://arxiv.org/abs/2407.06581
🏠 VLMs are Blind proje ana sayfası
https://vlmsareblind.github.io/
BlindTest GitHub deposu
https://github.com/anguyen8/vision-llms-are-blind
🤗 BlindTest veri kümesi
https://huggingface.co/datasets/XAI/vlmsareblind
Daha fazlasını okuyun
-
Apple, multimodal LLM 'MM1' üzerine araştırma sonuçlarını paylaştı (model yayınlanmadı)
-
VLM (Vision-Language Model) ve görsel tümdengelimsel akıl yürütme üzerine Apple araştırması
Bu yazı, GPT modeliyle derlenmiş bir metne dayanmaktadır; bu nedenle içeriğin bazı kısımları orijinal metnin içeriğinden veya niyetinden farklı şekilde özetlenmiş olabilir. Konu ilginizi çekiyorsa lütfen orijinal metne de göz atın! Okurken tuhaf veya hatalı bir ifade fark ederseniz, bunu yorumlarda bildirmenizi rica ederiz. 🤗
⚠️Reklam⚠️: 🔥PyTorch Kore Kullanıcı Grubu🇰🇷 tarafından derlenen bu yazıyı faydalı buldunuz mu? Üye olursanız önemli yazıları e-posta💌 ile alabilirsiniz! (Varsayılan seçenek Weekly'dir, ancak Daily olarak da değiştirilebilir.)
Henüz yorum yok.