Dragonfly - Çoklu çözünürlükte yakınlaştırma yapabilen büyük bir görsel-dil modeli

xguru · 2024-06-10T10:10:02+09:00

Yüksek çözünürlüklü görüntüleri birden fazla küçük bölgeye ayırarak analiz eden, ayrıntılı anlama ve akıl yürütme sağlayan bir vision-language mimari modeli Llama-3-8b-Dragonfly-v1 (genel alan), Llama-3-8b-Dragonfly-Med-v1 (tıbbi alan) olmak üzere 2 açık kaynak model yayımlandı Llama-3-8b-Dragonfly-v1, 5,5 milyon görüntü-komut çiftiyle eğitildi; Llama-3-8b-Dragonfly-Med-v1 ise ek olarak 1,4 milyon tıbbi görüntü-komut verisiyle fine-tune edildi Dragonfly, görsel sağduyuya dayalı akıl yürütme, görüntü altyazılama gibi benchmark'larda güçlü performans gösteriyor Dragonfly-Med, tıbbi görüntü anlama alanında Med-Gemini gibi mevcut modelleri geride bırakıyor Dragonfly mimarisi Çoklu çözünürlüklü görsel kodlama (Multi-resolution Visual Encoding): Görüntüyü düşük/orta/yüksek çözünürlükte işler Her görüntüyü çözünürlüğe göre birden fazla alt görüntüye ayırır ve bunları görsel token'lar olarak kodlar Kodlanan token'ları language space'e projection ederek concatenate edilmiş diziyi LLM'e girdi olarak verir Bu sayede büyük boyutlu görüntüler verimli biçimde işlenebilir ve görsel veri işlemenin granularity seviyesi artırılabilir Zoom-in Patch Selection: Yüksek çözünürlüklü görüntülerde önemli görsel ayrıntılara odaklanmak için seçici bir yaklaşım Yalnızca önemi yüksek yüksek çözünürlüklü alt görüntüleri seçerek kullanan yenilikçi bir zoom-in patch selection stratejisi kullanır Orta/yüksek çözünürlüklü alt görüntülerin summary embedding'lerini karşılaştırarak en ilgili patch'leri seçer Böylece tekrarları azaltır ve temel içerik bölgelerine odaklanarak genel model verimliliğini ve ayrıntılı bölge anlama başarısını artırır Bu iki strateji sayesinde görüntü bölgelerinin ince ayrıntılarına daha fazla odaklanır ve sağduyulu akıl yürütme yeteneğini geliştirir. Ayrıntı yakalamaya optimize edilmiş olmasına rağmen VQA, görüntü altyazılama gibi genel görüntü anlama benchmark'larında da iyi zero-shot performans gösterir. Dragonfly model performans değerlendirmesi AI2D, ScienceQA, MMMU, MMVet, POPE dahil 5 vision-language benchmark'ında değerlendirildi AI2D, ScienceQA: bilim alanında görsel sağduyu akıl yürütmesini değerlendirir MMMU, MMVet: vision-language yeteneklerinin kapsamlı değerlendirmesi POPE: nesne düzeyinde hallucination değerlendirmesi Diğer tanınmış vision-language modelleriyle yarışabilecek düzeyde güçlü performans gösteriyor Dragonfly-Med performansı Stanford Medicine ile iş birliği içinde, 1,4 milyon tıbbi görüntü-komut verisiyle Dragonfly'nin ek eğitim aldığı sürüm VQA-RAD, SLAKE, Path-VQA gibi görsel soru-cevap benchmark'larında Med-Gemini gibi mevcut modellerin performansını aşıyor IU X-Ray, Peir Gross, ROCO, MIMIC CXR gibi tıbbi görüntü altyazılama benchmark'larında da SOTA'ya yakın performans gösteriyor Gelecek planları LLaMA3-8B-Instruct'u backbone olarak kullanarak yeni mimariler ve görsel kodlama stratejilerini keşfetmeyi planlıyor Uygulama alanını daha çeşitli bilimsel alanlara genişleterek açık kaynak çok modlu araştırmalara katkı sunmayı hedefliyor

(together.ai)

4 puan yazan xguru 2024-06-10 | Henüz yorum yok. | WhatsApp'ta paylaş

Yüksek çözünürlüklü görüntüleri birden fazla küçük bölgeye ayırarak analiz eden, ayrıntılı anlama ve akıl yürütme sağlayan bir vision-language mimari modeli
Llama-3-8b-Dragonfly-v1 (genel alan), Llama-3-8b-Dragonfly-Med-v1 (tıbbi alan) olmak üzere 2 açık kaynak model yayımlandı
Llama-3-8b-Dragonfly-v1, 5,5 milyon görüntü-komut çiftiyle eğitildi; Llama-3-8b-Dragonfly-Med-v1 ise ek olarak 1,4 milyon tıbbi görüntü-komut verisiyle fine-tune edildi
Dragonfly, görsel sağduyuya dayalı akıl yürütme, görüntü altyazılama gibi benchmark'larda güçlü performans gösteriyor
Dragonfly-Med, tıbbi görüntü anlama alanında Med-Gemini gibi mevcut modelleri geride bırakıyor

Dragonfly mimarisi

Çoklu çözünürlüklü görsel kodlama (Multi-resolution Visual Encoding):
- Görüntüyü düşük/orta/yüksek çözünürlükte işler
- Her görüntüyü çözünürlüğe göre birden fazla alt görüntüye ayırır ve bunları görsel token'lar olarak kodlar
- Kodlanan token'ları language space'e projection ederek concatenate edilmiş diziyi LLM'e girdi olarak verir
- Bu sayede büyük boyutlu görüntüler verimli biçimde işlenebilir ve görsel veri işlemenin granularity seviyesi artırılabilir
Zoom-in Patch Selection:
- Yüksek çözünürlüklü görüntülerde önemli görsel ayrıntılara odaklanmak için seçici bir yaklaşım
- Yalnızca önemi yüksek yüksek çözünürlüklü alt görüntüleri seçerek kullanan yenilikçi bir zoom-in patch selection stratejisi kullanır
- Orta/yüksek çözünürlüklü alt görüntülerin summary embedding'lerini karşılaştırarak en ilgili patch'leri seçer
- Böylece tekrarları azaltır ve temel içerik bölgelerine odaklanarak genel model verimliliğini ve ayrıntılı bölge anlama başarısını artırır
Bu iki strateji sayesinde görüntü bölgelerinin ince ayrıntılarına daha fazla odaklanır ve sağduyulu akıl yürütme yeteneğini geliştirir.
Ayrıntı yakalamaya optimize edilmiş olmasına rağmen VQA, görüntü altyazılama gibi genel görüntü anlama benchmark'larında da iyi zero-shot performans gösterir.

Dragonfly model performans değerlendirmesi

AI2D, ScienceQA, MMMU, MMVet, POPE dahil 5 vision-language benchmark'ında değerlendirildi
- AI2D, ScienceQA: bilim alanında görsel sağduyu akıl yürütmesini değerlendirir
- MMMU, MMVet: vision-language yeteneklerinin kapsamlı değerlendirmesi
- POPE: nesne düzeyinde hallucination değerlendirmesi
Diğer tanınmış vision-language modelleriyle yarışabilecek düzeyde güçlü performans gösteriyor

Dragonfly-Med performansı

Stanford Medicine ile iş birliği içinde, 1,4 milyon tıbbi görüntü-komut verisiyle Dragonfly'nin ek eğitim aldığı sürüm
VQA-RAD, SLAKE, Path-VQA gibi görsel soru-cevap benchmark'larında Med-Gemini gibi mevcut modellerin performansını aşıyor
IU X-Ray, Peir Gross, ROCO, MIMIC CXR gibi tıbbi görüntü altyazılama benchmark'larında da SOTA'ya yakın performans gösteriyor

Gelecek planları

LLaMA3-8B-Instruct'u backbone olarak kullanarak yeni mimariler ve görsel kodlama stratejilerini keşfetmeyi planlıyor
Uygulama alanını daha çeşitli bilimsel alanlara genişleterek açık kaynak çok modlu araştırmalara katkı sunmayı hedefliyor