Ferret - Apple'ın çok modlu LLM'i
(github.com/apple)- MLLM (Multimodal Large Language Model)
- Görüntü içindeki her türlü şekli ve ayrıntılı mekânsal referansları anlar
- Temel Katkılar
- Ferret Modeli: hibrit bölge gösterimi + mekânsal farkındalığa sahip görsel örnekleyici
- GRIT veri kümesi: büyük ölçekli, hiyerarşik, sağlam bir komut ayarlama veri kümesi. 1,1 milyon örnek ve 950 bin hard negative veri içerir
- Ferret Bench: çok modlu değerlendirme benchmark'ı (Referring/Grounding + Semantics + Knowledge + Reasoning'i birleşik olarak gerektirir)
Henüz yorum yok.