- Blogda kayıtlı 10.000 fotoğrafın yaklaşık 9.000’inde
alt-textbulunmuyordu - Bunun için 12 LLM (büyük dil modeli) test edildi; bunların 10’u yerelde çalıştırıldı, 2’si ise bulut tabanlı modeldi (GPT-4, Claude 3.5 Sonnet)
alt-textyazmak, görme engelli kullanıcılar için erişilebilirliği artıran önemli bir iş, ancak bunu elle hazırlamak oldukça zahmetli- Amaç, AI modellerinin
alt-textüretme doğruluğunu test etmek ve yerel modellerin pratik bir alternatif olup olamayacağını görmek
Test edilen AI modelleri
- Yerel modeller (10 adet)
- 9 model MacBook Pro’da (32GB RAM) çalıştırıldı
- 1 model ise bir arkadaşın yüksek donanımlı cihazında çalıştırıldı
- Bulut modelleri (2 adet)
- GPT-4o (OpenAI)
- Claude 3.5 Sonnet (Anthropic)
Temel performans karşılaştırması
-
Bulut modelleri (GPT-4o, Claude 3.5 Sonnet)
- En doğru
alt-metinleri üretti - Ayrıntı betimlemeleri güçlüydü ve görselin atmosferini de iyi yakaladı
- Değerlendirme notu: A
- En doğru
-
Yerel modeller arasında iyi performans gösterenler
- Llama 3.2 Vision 11B
- Doğru nesne tanıma ve bağlam anlama konusunda başarılı
- Değerlendirme notu: B
- Llama 3.2 Vision 90B
- 11B modelden biraz daha yüksek doğruluk gösterdi, ancak çalıştırmak için daha fazla RAM gerektirdi
- Değerlendirme notu: B
- MiniCPM-V
- Görece hafif bir model olmasına rağmen güçlü performans sergiledi
- Değerlendirme notu: B
- Llama 3.2 Vision 11B
-
Düşük performans gösteren modeller
- VIT-GPT2, GIT, BLIP gibi erken dönem modeller nesne tanımada isabetsizdi ve tekrarlayan ifadeler üretme eğilimi gösterdi
- Değerlendirme notu: D~F
AI modellerinin görsel analiz yöntemi
- Görsel kodlama (Vision Encoding)
- Görseli küçük parçalara ayırıp bunları sayısal veriye (embedding) dönüştürüyor
- Dikkat edilmesi gereken bölümleri (ör. ana nesneler) filtreleyip daha az önemli unsurları (ör. sade arka plan) ayıklıyor
- Dil kodlama (Language Encoding)
- Görsel kodlayıcının sağladığı bilgiye dayanarak doğal dilde metin üretiyor
- Görsel açıklaması yazma veya soruları yanıtlama biçiminde metin oluşturuyor
Test görselleri ve sonuçlar
-
Shibuya kavşağı (Tokyo)
- GPT-4o, Claude: "Neon tabelalar ve kalabalıklarla dolu Shibuya kavşağı" → A notu
- LLaVA 13B: "İnsanların Shibuya kavşağında karşıya geçtiği sahne" → A notu
- Llama 3.2 Vision 11B: "Tokyo’da hareketli bir gece manzarası, reklam panoları ve kalabalıklar" → C notu
- VIT-GPT2: "Yüksek binalar ve trafik ışıkları olan bir şehir gece manzarası" → F notu (isabetsiz)
-
Isabella Stewart Gardner Müzesi (Boston)
- Claude: "Viktorya tarzı bir oda, avize, altın varaklı çerçeveler" → B notu
- Llama 3.2 Vision 11B: "Altın varaklı çerçeveler ve süslü bir arka plan" → A notu
- BLIP-2 OPT: "Duvarda asılı tablolar ve çerçevelerin bulunduğu bir oda" → C notu
- VIT-GPT2: "Aynanın önünde mumlar ve bir vazoyla döşenmiş bir oturma odası" → F notu (isabetsiz)
-
Wakeboard (ABD, Vermont)
- GPT-4o: "Teknedeki iki kişinin wakeboard yapan kişiyi izlediği sahne" → A notu
- Llama 3.2 Vision 90B: "Teknede wakeboard izleyen iki kişi" → A notu
- BLIP-2 FLAN: "Teknede birinin sörf yapan birini izlediği sahne" → C notu
- VIT-GPT2: "Sörf tahtası tutan iki kişinin teknenin üstünde durduğu sahne" → E notu (isabetsiz)
Değerlendirme sonuçları
- Bulut modelleri (GPT-4o, Claude 3.5 Sonnet): A notu
- En doğru açıklamaları sundu, atmosferi de yakaladı
- Yerel modeller içinde üst sıralar (Llama 11B, Llama 90B, MiniCPM-V): B notu
- Doğruluk bulut modellere kıyasla biraz geride kalsa da pratikte kullanılabilir
- Erken dönem modeller (VIT-GPT2, GIT, BLIP vb.): D~F notu
- Tekrarlayan ifadeler ve halüsinasyonlar görüldü
Geleceğe dönük değerlendirmeler
alt-metin mükemmel değilse, hiç olmamasından daha iyi olabilir mi?
Bnotu seviyesindekialt-metinler bile hiç olmamasından daha iyi olabilir- Ancak hatalı bilgiler (ör. var olmayan nesneler eklemek) görme engelli kullanıcılar için kafa karıştırıcı olabilir
Sonraki adım seçenekleri
- AI çıktılarını birleştirmek
- Birden fazla modeli bir araya getirerek en doğru açıklamayı üretmek
- Yükseltmeleri beklemek
- Şimdilik en iyi yerel modeli kullanıp 6~12 ay sonra yeni modellerle güncellemek
- Bulut modellerini kullanmak
- Doğruluk için bulut tabanlı modelleri kullanmak, ancak maliyet ve veri gizliliği sorun oluşturuyor
- Hibrit yaklaşım
- AI tarafından üretilen
alt-metni insanın gözden geçirip tamamlaması (bunu 9.000 görsele uygulamak pratikte zor)
- AI tarafından üretilen
- Şu an için en makul seçenek, yerel modeli kullanıp ileride daha gelişmiş modellerle güncellemek gibi görünüyor
1 yorum
Twitter gibi yerlere gönderdiğim görsellere alt-text ekliyorum; bunu AI'ye devredersem paylaşım yapmam biraz daha kolaylaşmaz mı diye düşündüğüm olmuştu. LLM gerekip gerekmediğinden pek emin değilim, CLIP gibi bir teknoloji yeterli olur gibi geliyordu.
Böyle bir işe girişmememin nedenlerinden biri, bunun zaten ekran okuyucu tarafına yeterince entegre edilebilecek bir özellik olması ve bence insanın sağlayabileceği bağlamı az da olsa eklemenin daha doğru görünmesiydi. Tabii en büyük neden üşenmemdi.