11 puan yazan xguru 2023-05-24 | 1 yorum | WhatsApp'ta paylaş
  • Görüntü, ses ve dil modalitelerinin tümünü kapsayan bir General Representation Model
  • Önceden eğitilmiş modeller olmadan da birleşik görevlerde mükemmel sonuçlar veriyor
  • Güçlü bir Emergent Zero-shot Retrieval sayesinde eğitim verisinde eşleştirilmemiş modaliteler hizalanabiliyor
  • Audio-to-Image, Audio+Text-to-Image, Audio+Image-to-Image

1 yorum

 
dbs0829 2023-05-24

Görünüşe göre birçok görevde SOTA'yı geride bırakmış.