2 puan yazan GN⁺ 2023-12-24 | Henüz yorum yok. | WhatsApp'ta paylaş

Ferret modeline genel bakış

  • Ferret modeli, hibrit bölge gösterimi ve mekânsal farkındalığa sahip görsel örnekleyici sayesinde ayrıntılı ve açık uçlu sözcüklerle referans verme ve hassas konum belirleme yapabilir.
  • GRIT veri kümesi (~1.1M), büyük ölçekli, hiyerarşik ve dayanıklı bir komut ayarlama veri kümesidir.
  • Ferret-Bench, aynı anda referans/konum belirleme, semantik, bilgi ve akıl yürütme gerektiren çok modlu bir değerlendirme benchmark'ıdır.

Ferret modelinin yayımlanması

  • [12/14] 7B, 13B checkpoint'leri yayımlandı.
  • [10/30] FERRET modeli ve Ferret-Bench kodu yayımlandı.
  • Veri ve kod yalnızca araştırma amaçlı kullanılabilir ve LLaMA, Vicuna, GPT-4'ün lisans sözleşmelerine tabidir.
  • Veri kümesi CC BY NC 4.0 kapsamındadır (yalnızca ticari olmayan kullanıma izin verilir) ve bu veri kümesiyle eğitilen modeller araştırma amacı dışında kullanılamaz.

Kurulum ve kullanım

  • FERRET deposunu klonlayın, ilgili klasöre geçin ve gerekli paketleri kurun.
  • Ek paket kurulumu, belirli eğitim senaryoları için gereklidir.

Eğitim

  • FERRET, 8 adet A100 GPU'nun (her biri 80GB bellek) üzerinde eğitildi.
  • Daha az sayıda GPU ile eğitim yaparken per_device_train_batch_size azaltılmalı ve gradient_accumulation_steps artırılmalıdır.
  • Vicuna checkpoint'lerinin ve LLaVA'nın projector'ünün hazırlanması gerekir.
  • Eğitim script'i sağlanır.

Değerlendirme

  • Ayrıntılar için belgelere bakın.

Checkpoint'ler

  • Önceden eğitilmiş model ile Vicuna arasındaki delta çıkarılır.
  • Vicuna ağırlıklarını indirdikten sonra, hazırlanmış ağırlık ofsetini indirip uygulayın.

Demo

  • FERRET eğitildikten sonra, checkpoint'i kullanarak demoyu yerelde çalıştırın.
  • Gradio web UI kullanılır.
  • Controller, Gradio web sunucusu ve model worker sırasıyla çalıştırılır.

Atıf

  • Ferret'i faydalı bulursanız, aşağıdaki BibTeX ile atıf yapın.

Teşekkür

  • LLaVA: temel kod tabanı.
  • Vicuna: LLM kod tabanı.

GN⁺ görüşü

  • Yenilikçi teknoloji: Ferret modeli, çeşitli sözcük dağarcıkları kullanarak ayrıntılı referans ve konum belirlemeyi mümkün kılan yenilikçi bir teknoloji sunuyor.
  • Araştırma açısından önemi: Bu model ve veri kümesi, yapay zeka alanında referans ve konum belirleme görevlerine yönelik araştırmaları hızlandırabilecek önemli kaynaklardır.
  • Çeşitli uygulama olanakları: Bu teknoloji, görüntü ve metni birleştiren çeşitli uygulamalarda kullanılabilir; bu da yapay zekanın görsel anlama ve etkileşim yeteneklerini bir üst seviyeye taşıyabilir.

Henüz yorum yok.

Henüz yorum yok.