- Yüksek çözünürlüklü görüntüleri birden fazla küçük bölgeye ayırarak analiz eden, ayrıntılı anlama ve akıl yürütme sağlayan bir vision-language mimari modeli
- Llama-3-8b-Dragonfly-v1 (genel alan), Llama-3-8b-Dragonfly-Med-v1 (tıbbi alan) olmak üzere 2 açık kaynak model yayımlandı
- Llama-3-8b-Dragonfly-v1, 5,5 milyon görüntü-komut çiftiyle eğitildi; Llama-3-8b-Dragonfly-Med-v1 ise ek olarak 1,4 milyon tıbbi görüntü-komut verisiyle fine-tune edildi
- Dragonfly, görsel sağduyuya dayalı akıl yürütme, görüntü altyazılama gibi benchmark'larda güçlü performans gösteriyor
- Dragonfly-Med, tıbbi görüntü anlama alanında Med-Gemini gibi mevcut modelleri geride bırakıyor
Dragonfly mimarisi
-
Çoklu çözünürlüklü görsel kodlama (Multi-resolution Visual Encoding):
- Görüntüyü düşük/orta/yüksek çözünürlükte işler
- Her görüntüyü çözünürlüğe göre birden fazla alt görüntüye ayırır ve bunları görsel token'lar olarak kodlar
- Kodlanan token'ları language space'e projection ederek concatenate edilmiş diziyi LLM'e girdi olarak verir
- Bu sayede büyük boyutlu görüntüler verimli biçimde işlenebilir ve görsel veri işlemenin granularity seviyesi artırılabilir
-
Zoom-in Patch Selection:
- Yüksek çözünürlüklü görüntülerde önemli görsel ayrıntılara odaklanmak için seçici bir yaklaşım
- Yalnızca önemi yüksek yüksek çözünürlüklü alt görüntüleri seçerek kullanan yenilikçi bir zoom-in patch selection stratejisi kullanır
- Orta/yüksek çözünürlüklü alt görüntülerin summary embedding'lerini karşılaştırarak en ilgili patch'leri seçer
- Böylece tekrarları azaltır ve temel içerik bölgelerine odaklanarak genel model verimliliğini ve ayrıntılı bölge anlama başarısını artırır
-
Bu iki strateji sayesinde görüntü bölgelerinin ince ayrıntılarına daha fazla odaklanır ve sağduyulu akıl yürütme yeteneğini geliştirir.
-
Ayrıntı yakalamaya optimize edilmiş olmasına rağmen VQA, görüntü altyazılama gibi genel görüntü anlama benchmark'larında da iyi zero-shot performans gösterir.
Dragonfly model performans değerlendirmesi
- AI2D, ScienceQA, MMMU, MMVet, POPE dahil 5 vision-language benchmark'ında değerlendirildi
- AI2D, ScienceQA: bilim alanında görsel sağduyu akıl yürütmesini değerlendirir
- MMMU, MMVet: vision-language yeteneklerinin kapsamlı değerlendirmesi
- POPE: nesne düzeyinde hallucination değerlendirmesi
- Diğer tanınmış vision-language modelleriyle yarışabilecek düzeyde güçlü performans gösteriyor
Dragonfly-Med performansı
- Stanford Medicine ile iş birliği içinde, 1,4 milyon tıbbi görüntü-komut verisiyle Dragonfly'nin ek eğitim aldığı sürüm
- VQA-RAD, SLAKE, Path-VQA gibi görsel soru-cevap benchmark'larında Med-Gemini gibi mevcut modellerin performansını aşıyor
- IU X-Ray, Peir Gross, ROCO, MIMIC CXR gibi tıbbi görüntü altyazılama benchmark'larında da SOTA'ya yakın performans gösteriyor
Gelecek planları
- LLaMA3-8B-Instruct'u backbone olarak kullanarak yeni mimariler ve görsel kodlama stratejilerini keşfetmeyi planlıyor
- Uygulama alanını daha çeşitli bilimsel alanlara genişleterek açık kaynak çok modlu araştırmalara katkı sunmayı hedefliyor
Henüz yorum yok.