9 puan yazan xguru 2023-03-02 | 1 yorum | WhatsApp'ta paylaş
  • Genel kalıpları tanıyan, bağlam içinde öğrenen (few-shot) ve talimatları izleyen (zero-shot) bir Multimodal Large Language Model (MLLM)
  • Metin, görsel ve görsel-açıklama çiftleriyle eğitilen model, aşağıdaki görevlerde etkileyici performans sergiliyor
    1. Dil anlama, üretim ve OCR gerektirmeyen NLP (belge görsellerinden doğrudan tanıma)
    2. Multimodal diyalog, görsel açıklama üretimi ve görsel soru yanıtlama
    3. Açıklama içeren görsel tanıma (metin talimatlarıyla sınıflandırma belirtme) gibi vision görevleri
  • Çapraz modal aktarım (dilden multimodale, multimodaldan dile bilgi aktarımı) sayesinde MLLM avantaj elde edebiliyor