- Genel kalıpları tanıyan, bağlam içinde öğrenen (few-shot) ve talimatları izleyen (zero-shot) bir Multimodal Large Language Model (MLLM)
- Metin, görsel ve görsel-açıklama çiftleriyle eğitilen model, aşağıdaki görevlerde etkileyici performans sergiliyor
- Dil anlama, üretim ve OCR gerektirmeyen NLP (belge görsellerinden doğrudan tanıma)
- Multimodal diyalog, görsel açıklama üretimi ve görsel soru yanıtlama
- Açıklama içeren görsel tanıma (metin talimatlarıyla sınıflandırma belirtme) gibi vision görevleri
- Çapraz modal aktarım (dilden multimodale, multimodaldan dile bilgi aktarımı) sayesinde MLLM avantaj elde edebiliyor
1 yorum
Repo: https://github.com/microsoft/unilm