LLaVA: Görsel Talimat Ayarlama
(llava-vl.github.io)- "LLaVA : Large Language and Vision Assistant"
- Genel amaçlı görsel ve dil anlayışı için bir vision encoder ile Vicuna'yı birleştiren büyük ölçekli çok modlu model
- Çok modlu GPT-4 düzeyinde yetenekler ve bilimsel soru-cevapta SOTA doğruluğu hedefliyor
- Makale, kod ve demo yayınlandı
Henüz yorum yok.