- LLM'lerin zero-shot performansının iyi olması için yüksek kaliteli instruction set'leri şart; VLM'ler (görsel-dil modelleri) için de aynı durum geçerli
- Ancak mevcut vision-language instruction set'leri miktar/çeşitlilik/yaratıcılık açısından oldukça sınırlı
- MIMIC-IT (MultI-Modal In-Context Instruction Tuning) sunuluyor
- Görüntü ve videodan alınan 2,2 milyon benzersiz komut ile 2,8 milyon çok modlu komut-yanıt çiftinden oluşan bir veri kümesi
- MIMIC-IT veri kümesiyle eğitilen büyük ölçekli VLM, Otter
- 8 dili destekliyor: İngilizce, Çince, Korece, Japonca, Almanca, Fransızca, İspanyolca ve Arapça
Henüz yorum yok.