6 puan yazan xguru 2023-06-14 | Henüz yorum yok. | WhatsApp'ta paylaş
  • LLM'lerin zero-shot performansının iyi olması için yüksek kaliteli instruction set'leri şart; VLM'ler (görsel-dil modelleri) için de aynı durum geçerli
  • Ancak mevcut vision-language instruction set'leri miktar/çeşitlilik/yaratıcılık açısından oldukça sınırlı
  • MIMIC-IT (MultI-Modal In-Context Instruction Tuning) sunuluyor
  • Görüntü ve videodan alınan 2,2 milyon benzersiz komut ile 2,8 milyon çok modlu komut-yanıt çiftinden oluşan bir veri kümesi
  • MIMIC-IT veri kümesiyle eğitilen büyük ölçekli VLM, Otter
  • 8 dili destekliyor: İngilizce, Çince, Korece, Japonca, Almanca, Fransızca, İspanyolca ve Arapça

Henüz yorum yok.

Henüz yorum yok.