4 puan yazan xguru 2024-06-10 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Yüksek çözünürlüklü görüntüleri birden fazla küçük bölgeye ayırarak analiz eden, ayrıntılı anlama ve akıl yürütme sağlayan bir vision-language mimari modeli
  • Llama-3-8b-Dragonfly-v1 (genel alan), Llama-3-8b-Dragonfly-Med-v1 (tıbbi alan) olmak üzere 2 açık kaynak model yayımlandı
  • Llama-3-8b-Dragonfly-v1, 5,5 milyon görüntü-komut çiftiyle eğitildi; Llama-3-8b-Dragonfly-Med-v1 ise ek olarak 1,4 milyon tıbbi görüntü-komut verisiyle fine-tune edildi
  • Dragonfly, görsel sağduyuya dayalı akıl yürütme, görüntü altyazılama gibi benchmark'larda güçlü performans gösteriyor
  • Dragonfly-Med, tıbbi görüntü anlama alanında Med-Gemini gibi mevcut modelleri geride bırakıyor

Dragonfly mimarisi

  • Çoklu çözünürlüklü görsel kodlama (Multi-resolution Visual Encoding):

    • Görüntüyü düşük/orta/yüksek çözünürlükte işler
    • Her görüntüyü çözünürlüğe göre birden fazla alt görüntüye ayırır ve bunları görsel token'lar olarak kodlar
    • Kodlanan token'ları language space'e projection ederek concatenate edilmiş diziyi LLM'e girdi olarak verir
    • Bu sayede büyük boyutlu görüntüler verimli biçimde işlenebilir ve görsel veri işlemenin granularity seviyesi artırılabilir
  • Zoom-in Patch Selection:

    • Yüksek çözünürlüklü görüntülerde önemli görsel ayrıntılara odaklanmak için seçici bir yaklaşım
    • Yalnızca önemi yüksek yüksek çözünürlüklü alt görüntüleri seçerek kullanan yenilikçi bir zoom-in patch selection stratejisi kullanır
    • Orta/yüksek çözünürlüklü alt görüntülerin summary embedding'lerini karşılaştırarak en ilgili patch'leri seçer
    • Böylece tekrarları azaltır ve temel içerik bölgelerine odaklanarak genel model verimliliğini ve ayrıntılı bölge anlama başarısını artırır
  • Bu iki strateji sayesinde görüntü bölgelerinin ince ayrıntılarına daha fazla odaklanır ve sağduyulu akıl yürütme yeteneğini geliştirir.

  • Ayrıntı yakalamaya optimize edilmiş olmasına rağmen VQA, görüntü altyazılama gibi genel görüntü anlama benchmark'larında da iyi zero-shot performans gösterir.

Dragonfly model performans değerlendirmesi

  • AI2D, ScienceQA, MMMU, MMVet, POPE dahil 5 vision-language benchmark'ında değerlendirildi
    • AI2D, ScienceQA: bilim alanında görsel sağduyu akıl yürütmesini değerlendirir
    • MMMU, MMVet: vision-language yeteneklerinin kapsamlı değerlendirmesi
    • POPE: nesne düzeyinde hallucination değerlendirmesi
  • Diğer tanınmış vision-language modelleriyle yarışabilecek düzeyde güçlü performans gösteriyor

Dragonfly-Med performansı

  • Stanford Medicine ile iş birliği içinde, 1,4 milyon tıbbi görüntü-komut verisiyle Dragonfly'nin ek eğitim aldığı sürüm
  • VQA-RAD, SLAKE, Path-VQA gibi görsel soru-cevap benchmark'larında Med-Gemini gibi mevcut modellerin performansını aşıyor
  • IU X-Ray, Peir Gross, ROCO, MIMIC CXR gibi tıbbi görüntü altyazılama benchmark'larında da SOTA'ya yakın performans gösteriyor

Gelecek planları

  • LLaMA3-8B-Instruct'u backbone olarak kullanarak yeni mimariler ve görsel kodlama stratejilerini keşfetmeyi planlıyor
  • Uygulama alanını daha çeşitli bilimsel alanlara genişleterek açık kaynak çok modlu araştırmalara katkı sunmayı hedefliyor

Henüz yorum yok.

Henüz yorum yok.