Microsoft Kosmos-1: Multimodal LLM (MLLM)

xguru · 2023-03-02T09:56:41+09:00

Genel kalıpları tanıyan, bağlam içinde öğrenen (few-shot) ve talimatları izleyen (zero-shot) bir Multimodal Large Language Model (MLLM) Metin, görsel ve görsel-açıklama çiftleriyle eğitilen model, aşağıdaki görevlerde etkileyici performans sergiliyor Dil anlama, üretim ve OCR gerektirmeyen NLP (belge görsellerinden doğrudan tanıma) Multimodal diyalog, görsel açıklama üretimi ve görsel soru yanıtlama Açıklama içeren görsel tanıma (metin talimatlarıyla sınıflandırma belirtme) gibi vision görevleri Çapraz modal aktarım (dilden multimodale, multimodaldan dile bilgi aktarımı) sayesinde MLLM avantaj elde edebiliyor

(arxiv.org)

9 puan yazan xguru 2023-03-02 | 1 yorum | WhatsApp'ta paylaş

Genel kalıpları tanıyan, bağlam içinde öğrenen (few-shot) ve talimatları izleyen (zero-shot) bir Multimodal Large Language Model (MLLM)
Metin, görsel ve görsel-açıklama çiftleriyle eğitilen model, aşağıdaki görevlerde etkileyici performans sergiliyor
1. Dil anlama, üretim ve OCR gerektirmeyen NLP (belge görsellerinden doğrudan tanıma)
2. Multimodal diyalog, görsel açıklama üretimi ve görsel soru yanıtlama
3. Açıklama içeren görsel tanıma (metin talimatlarıyla sınıflandırma belirtme) gibi vision görevleri
Çapraz modal aktarım (dilden multimodale, multimodaldan dile bilgi aktarımı) sayesinde MLLM avantaj elde edebiliyor

1 yorum

xguru 2023-03-02

Repo: https://github.com/microsoft/unilm

Microsoft Kosmos-1: Multimodal LLM (MLLM)

İlgili okumalar

1 yorum