- Llama3-V, Llama3 tabanlı ilk çok modlu modeldir
- Llama3-V, 500 doların altında bir maliyetle eğitildi
- Benchmark'larda Llava'ya göre %10-20 performans artışı gösterdi ve 100 kat daha büyük kapalı modellerle karşılaştırıldığında çoğu ölçütte benzer performans sundu
Model mimarisi
- SigLIP: Görüntü gömme modeli; CLIP'e benzer, ancak sigmoid kaybı kullanır.
- Metin gömme hizalaması: SigLIP sabit tutulur ve bir projeksiyon modülü kullanılarak görüntü gömmeleri metin gömmeleriyle hizalanır.
- Görüntü token'larının eklenmesi: Görüntü gömmeleri, Llama3'e giriş olarak verilmeden önce metin token'larının önüne eklenir.
Çıkarım optimizasyonu
- Caching: SigLIP modelinin görüntü gömmeleri önceden hesaplanarak GPU kullanım oranı artırılır, eğitim/çıkarım süresi kısaltılır.
- MPS/MLX optimizasyonu: SigLIP modeli MPS için optimize edilerek saniyede 32 görüntü işlenir.
Eğitim süreci
- Gömme ön hesaplama: SigLIP kullanılarak görüntü gömmeleri önceden hesaplanır.
- Projeksiyon katmanı eğitimi: Görüntü ve metin gömmeleri, projeksiyon katmanı üzerinden çok modlu gömme uzayında hizalanır.
- Denetimli öğrenme: Ön eğitimden sonra model performansı denetimli öğrenmeyle iyileştirilir.
Özet
- Llama3 8B'ye bir vision encoder eklendi.
- Llava'ya göre %10-20 performans artışı.
- GPT4v, Gemini Ultra, Claude Opus gibi 100 kat daha büyük modellerle benzer performans.
- 500 doların altında maliyetle verimli bir eğitim ve denetimli öğrenme pipeline'ı sunuyor.
GN⁺ görüşü
- İlgi çekici nokta: Llama3-V'nin düşük maliyetle yüksek performanslı çok modlu bir model sunması dikkat çekici.
- Eleştirel bakış: Model boyutunu ve maliyeti düşürürken performansı korumanın ne kadar sürdürülebilir olduğu soru işareti.
- İlgili teknolojiler: Benzer işlev sunan modeller arasında CLIP ve DALL-E bulunuyor.
- Benimseme değerlendirmeleri: Yeni bir teknolojiyi devreye alırken modelin doğruluğu ve maliyet verimliliği dikkate alınmalı.
- Teknoloji seçiminin artıları ve eksileri: Düşük maliyetle yüksek performans elde edilebilir, ancak modelin ölçeklenebilirliği ve bakım maliyetleri de hesaba katılmalı.
Henüz yorum yok.