Yerel LLM’lerle görseller için alt-text üretimini karşılaştırma

(dri.es)

3 puan yazan GN⁺ 2025-03-13 | 1 yorum | WhatsApp'ta paylaş

Blogda kayıtlı 10.000 fotoğrafın yaklaşık 9.000’inde alt-text bulunmuyordu
Bunun için 12 LLM (büyük dil modeli) test edildi; bunların 10’u yerelde çalıştırıldı, 2’si ise bulut tabanlı modeldi (GPT-4, Claude 3.5 Sonnet)
alt-text yazmak, görme engelli kullanıcılar için erişilebilirliği artıran önemli bir iş, ancak bunu elle hazırlamak oldukça zahmetli
Amaç, AI modellerinin alt-text üretme doğruluğunu test etmek ve yerel modellerin pratik bir alternatif olup olamayacağını görmek

Test edilen AI modelleri

Yerel modeller (10 adet)
- 9 model MacBook Pro’da (32GB RAM) çalıştırıldı
- 1 model ise bir arkadaşın yüksek donanımlı cihazında çalıştırıldı
Bulut modelleri (2 adet)
- GPT-4o (OpenAI)
- Claude 3.5 Sonnet (Anthropic)

Temel performans karşılaştırması

Bulut modelleri (GPT-4o, Claude 3.5 Sonnet)
- En doğru alt-metinleri üretti
- Ayrıntı betimlemeleri güçlüydü ve görselin atmosferini de iyi yakaladı
- Değerlendirme notu: A
Yerel modeller arasında iyi performans gösterenler
Reklam
- Llama 3.2 Vision 11B
  - Doğru nesne tanıma ve bağlam anlama konusunda başarılı
  - Değerlendirme notu: B
- Llama 3.2 Vision 90B
  - 11B modelden biraz daha yüksek doğruluk gösterdi, ancak çalıştırmak için daha fazla RAM gerektirdi
  - Değerlendirme notu: B
- MiniCPM-V
  - Görece hafif bir model olmasına rağmen güçlü performans sergiledi
  - Değerlendirme notu: B
Düşük performans gösteren modeller
- VIT-GPT2, GIT, BLIP gibi erken dönem modeller nesne tanımada isabetsizdi ve tekrarlayan ifadeler üretme eğilimi gösterdi
- Değerlendirme notu: D~F

AI modellerinin görsel analiz yöntemi

Görsel kodlama (Vision Encoding)
- Görseli küçük parçalara ayırıp bunları sayısal veriye (embedding) dönüştürüyor
- Dikkat edilmesi gereken bölümleri (ör. ana nesneler) filtreleyip daha az önemli unsurları (ör. sade arka plan) ayıklıyor
Dil kodlama (Language Encoding)
- Görsel kodlayıcının sağladığı bilgiye dayanarak doğal dilde metin üretiyor
- Görsel açıklaması yazma veya soruları yanıtlama biçiminde metin oluşturuyor

Test görselleri ve sonuçlar

Shibuya kavşağı (Tokyo)
- GPT-4o, Claude: "Neon tabelalar ve kalabalıklarla dolu Shibuya kavşağı" → A notu
- LLaVA 13B: "İnsanların Shibuya kavşağında karşıya geçtiği sahne" → A notu
- Llama 3.2 Vision 11B: "Tokyo’da hareketli bir gece manzarası, reklam panoları ve kalabalıklar" → C notu
- VIT-GPT2: "Yüksek binalar ve trafik ışıkları olan bir şehir gece manzarası" → F notu (isabetsiz)
Isabella Stewart Gardner Müzesi (Boston)
- Claude: "Viktorya tarzı bir oda, avize, altın varaklı çerçeveler" → B notu
- Llama 3.2 Vision 11B: "Altın varaklı çerçeveler ve süslü bir arka plan" → A notu
- BLIP-2 OPT: "Duvarda asılı tablolar ve çerçevelerin bulunduğu bir oda" → C notu
- VIT-GPT2: "Aynanın önünde mumlar ve bir vazoyla döşenmiş bir oturma odası" → F notu (isabetsiz)
Reklam
Wakeboard (ABD, Vermont)
- GPT-4o: "Teknedeki iki kişinin wakeboard yapan kişiyi izlediği sahne" → A notu
- Llama 3.2 Vision 90B: "Teknede wakeboard izleyen iki kişi" → A notu
- BLIP-2 FLAN: "Teknede birinin sörf yapan birini izlediği sahne" → C notu
- VIT-GPT2: "Sörf tahtası tutan iki kişinin teknenin üstünde durduğu sahne" → E notu (isabetsiz)

Değerlendirme sonuçları

Bulut modelleri (GPT-4o, Claude 3.5 Sonnet): A notu
- En doğru açıklamaları sundu, atmosferi de yakaladı
Yerel modeller içinde üst sıralar (Llama 11B, Llama 90B, MiniCPM-V): B notu
- Doğruluk bulut modellere kıyasla biraz geride kalsa da pratikte kullanılabilir
Erken dönem modeller (VIT-GPT2, GIT, BLIP vb.): D~F notu
- Tekrarlayan ifadeler ve halüsinasyonlar görüldü

Geleceğe dönük değerlendirmeler

`alt`-metin mükemmel değilse, hiç olmamasından daha iyi olabilir mi?

B notu seviyesindeki alt-metinler bile hiç olmamasından daha iyi olabilir
Ancak hatalı bilgiler (ör. var olmayan nesneler eklemek) görme engelli kullanıcılar için kafa karıştırıcı olabilir

Sonraki adım seçenekleri

AI çıktılarını birleştirmek
- Birden fazla modeli bir araya getirerek en doğru açıklamayı üretmek
Yükseltmeleri beklemek
- Şimdilik en iyi yerel modeli kullanıp 6~12 ay sonra yeni modellerle güncellemek
Bulut modellerini kullanmak
- Doğruluk için bulut tabanlı modelleri kullanmak, ancak maliyet ve veri gizliliği sorun oluşturuyor
Hibrit yaklaşım
- AI tarafından üretilen alt-metni insanın gözden geçirip tamamlaması (bunu 9.000 görsele uygulamak pratikte zor)

Şu an için en makul seçenek, yerel modeli kullanıp ileride daha gelişmiş modellerle güncellemek gibi görünüyor

1 yorum

quilt8703 2025-03-14

Twitter gibi yerlere gönderdiğim görsellere alt-text ekliyorum; bunu AI'ye devredersem paylaşım yapmam biraz daha kolaylaşmaz mı diye düşündüğüm olmuştu. LLM gerekip gerekmediğinden pek emin değilim, CLIP gibi bir teknoloji yeterli olur gibi geliyordu.

Böyle bir işe girişmememin nedenlerinden biri, bunun zaten ekran okuyucu tarafına yeterince entegre edilebilecek bir özellik olması ve bence insanın sağlayabileceği bağlamı az da olsa eklemenin daha doğru görünmesiydi. Tabii en büyük neden üşenmemdi.