13 puan yazan xguru 2023-12-28 | Henüz yorum yok. | WhatsApp'ta paylaş
  • MLLM (Multimodal Large Language Model)
    • Görüntü içindeki her türlü şekli ve ayrıntılı mekânsal referansları anlar
  • Temel Katkılar
    • Ferret Modeli: hibrit bölge gösterimi + mekânsal farkındalığa sahip görsel örnekleyici
    • GRIT veri kümesi: büyük ölçekli, hiyerarşik, sağlam bir komut ayarlama veri kümesi. 1,1 milyon örnek ve 950 bin hard negative veri içerir
    • Ferret Bench: çok modlu değerlendirme benchmark'ı (Referring/Grounding + Semantics + Knowledge + Reasoning'i birleşik olarak gerektirir)

Henüz yorum yok.

Henüz yorum yok.