10 puan yazan GN⁺ 2024-05-29 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Llama3-V, Llama3 tabanlı ilk çok modlu modeldir
  • Llama3-V, 500 doların altında bir maliyetle eğitildi
  • Benchmark'larda Llava'ya göre %10-20 performans artışı gösterdi ve 100 kat daha büyük kapalı modellerle karşılaştırıldığında çoğu ölçütte benzer performans sundu

Model mimarisi

  • SigLIP: Görüntü gömme modeli; CLIP'e benzer, ancak sigmoid kaybı kullanır.
  • Metin gömme hizalaması: SigLIP sabit tutulur ve bir projeksiyon modülü kullanılarak görüntü gömmeleri metin gömmeleriyle hizalanır.
  • Görüntü token'larının eklenmesi: Görüntü gömmeleri, Llama3'e giriş olarak verilmeden önce metin token'larının önüne eklenir.

Çıkarım optimizasyonu

  • Caching: SigLIP modelinin görüntü gömmeleri önceden hesaplanarak GPU kullanım oranı artırılır, eğitim/çıkarım süresi kısaltılır.
  • MPS/MLX optimizasyonu: SigLIP modeli MPS için optimize edilerek saniyede 32 görüntü işlenir.

Eğitim süreci

  • Gömme ön hesaplama: SigLIP kullanılarak görüntü gömmeleri önceden hesaplanır.
  • Projeksiyon katmanı eğitimi: Görüntü ve metin gömmeleri, projeksiyon katmanı üzerinden çok modlu gömme uzayında hizalanır.
  • Denetimli öğrenme: Ön eğitimden sonra model performansı denetimli öğrenmeyle iyileştirilir.

Özet

  • Llama3 8B'ye bir vision encoder eklendi.
  • Llava'ya göre %10-20 performans artışı.
  • GPT4v, Gemini Ultra, Claude Opus gibi 100 kat daha büyük modellerle benzer performans.
  • 500 doların altında maliyetle verimli bir eğitim ve denetimli öğrenme pipeline'ı sunuyor.

GN⁺ görüşü

  • İlgi çekici nokta: Llama3-V'nin düşük maliyetle yüksek performanslı çok modlu bir model sunması dikkat çekici.
  • Eleştirel bakış: Model boyutunu ve maliyeti düşürürken performansı korumanın ne kadar sürdürülebilir olduğu soru işareti.
  • İlgili teknolojiler: Benzer işlev sunan modeller arasında CLIP ve DALL-E bulunuyor.
  • Benimseme değerlendirmeleri: Yeni bir teknolojiyi devreye alırken modelin doğruluğu ve maliyet verimliliği dikkate alınmalı.
  • Teknoloji seçiminin artıları ve eksileri: Düşük maliyetle yüksek performans elde edilebilir, ancak modelin ölçeklenebilirliği ve bakım maliyetleri de hesaba katılmalı.

Henüz yorum yok.

Henüz yorum yok.