Ferret - Apple'ın çok modlu LLM'i

xguru · 2023-12-28T11:21:02+09:00

MLLM (Multimodal Large Language Model) Görüntü içindeki her türlü şekli ve ayrıntılı mekânsal referansları anlar Temel Katkılar Ferret Modeli: hibrit bölge gösterimi + mekânsal farkındalığa sahip görsel örnekleyici GRIT veri kümesi: büyük ölçekli, hiyerarşik, sağlam bir komut ayarlama veri kümesi. 1,1 milyon örnek ve 950 bin hard negative veri içerir Ferret Bench: çok modlu değerlendirme benchmark'ı (Referring/Grounding + Semantics + Knowledge + Reasoning'i birleşik olarak gerektirir)

(github.com/apple)

13 puan yazan xguru 2023-12-28 | Henüz yorum yok. | WhatsApp'ta paylaş

MLLM (Multimodal Large Language Model)
- Görüntü içindeki her türlü şekli ve ayrıntılı mekânsal referansları anlar
Temel Katkılar
- Ferret Modeli: hibrit bölge gösterimi + mekânsal farkındalığa sahip görsel örnekleyici
- GRIT veri kümesi: büyük ölçekli, hiyerarşik, sağlam bir komut ayarlama veri kümesi. 1,1 milyon örnek ve 950 bin hard negative veri içerir
- Ferret Bench: çok modlu değerlendirme benchmark'ı (Referring/Grounding + Semantics + Knowledge + Reasoning'i birleşik olarak gerektirir)

Ferret - Apple'ın çok modlu LLM'i

İlgili okumalar

Henüz yorum yok.