6 puan yazan ninebow 2024-03-16 | Henüz yorum yok. | WhatsApp'ta paylaş

Apple, MM1 adlı multimodal LLM üzerine araştırma sonuçlarını paylaştı. (Model kodunu veya ağırlıklarını yayımlamadı; muhtemelen bundan sonra da yayımlamayacak gibi görünüyor)

Image Encoder, VL-Connector, ayrıca veri kümesi ve eğitim yöntemleri gibi konularda modeli doğrudan eğiten veya ince ayar yapanlar için en az bir kez göz atmaya değer olabileceğini düşündüğüm bu özeti ChatGPT ile birlikte paylaşıyorum.

Orijinal metne arXiv sitesindeki 'MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training' bağlantısından ulaşabilirsiniz.


Encoder dersi: En büyük etkiyi görüntü çözünürlüğü yapıyor; onu model boyutu ve eğitim verisinin bileşimi izliyor.

Encoder lesson: Image resolution has the highest impact, followed by model size and training data composition.

VL Connector dersi: Görsel token sayısı ve görüntü çözünürlüğü en önemli faktörler; VL connector türünün etkisi ise çok az.

VL Connector Lesson: Number of visual tokens and image resolution matters most, while the type of VL connector has little effect.

Veri dersi 1: Interleaved veri, few-shot ve yalnızca metin performansı için kritik; captioning verisi ise zero-shot performansını artırıyor.

Data lesson 1: interleaved data is instrumental for few-shot and textonly performance, while captioning data lifts zero-shot performance.

Veri dersi 2: Yalnızca metin verisi, few-shot ve yalnızca metin performansına yardımcı oluyor.

Data lesson 2: text-only data helps with few-shot and text-only performance.

Veri dersi 3: Görüntü verisi ile metin verisinin dikkatli biçimde karıştırılması, en iyi multimodal performansı sağlayabilir ve güçlü metin performansını koruyabilir.

Data lesson 3: Careful mixture of image and text data can yield optimal multimodal performance and retain strong text performance.

Veri dersi 4: Sentetik veri, few-shot öğrenmeye yardımcı oluyor.

Data lesson 4: Synthetic data helps with few-shot learning.

Henüz yorum yok.

Henüz yorum yok.