Ferret modeline genel bakış
- Ferret modeli, hibrit bölge gösterimi ve mekânsal farkındalığa sahip görsel örnekleyici sayesinde ayrıntılı ve açık uçlu sözcüklerle referans verme ve hassas konum belirleme yapabilir.
- GRIT veri kümesi (~1.1M), büyük ölçekli, hiyerarşik ve dayanıklı bir komut ayarlama veri kümesidir.
- Ferret-Bench, aynı anda referans/konum belirleme, semantik, bilgi ve akıl yürütme gerektiren çok modlu bir değerlendirme benchmark'ıdır.
Ferret modelinin yayımlanması
- [12/14] 7B, 13B checkpoint'leri yayımlandı.
- [10/30] FERRET modeli ve Ferret-Bench kodu yayımlandı.
- Veri ve kod yalnızca araştırma amaçlı kullanılabilir ve LLaMA, Vicuna, GPT-4'ün lisans sözleşmelerine tabidir.
- Veri kümesi CC BY NC 4.0 kapsamındadır (yalnızca ticari olmayan kullanıma izin verilir) ve bu veri kümesiyle eğitilen modeller araştırma amacı dışında kullanılamaz.
Kurulum ve kullanım
- FERRET deposunu klonlayın, ilgili klasöre geçin ve gerekli paketleri kurun.
- Ek paket kurulumu, belirli eğitim senaryoları için gereklidir.
Eğitim
- FERRET, 8 adet A100 GPU'nun (her biri 80GB bellek) üzerinde eğitildi.
- Daha az sayıda GPU ile eğitim yaparken
per_device_train_batch_size azaltılmalı ve gradient_accumulation_steps artırılmalıdır.
- Vicuna checkpoint'lerinin ve LLaVA'nın projector'ünün hazırlanması gerekir.
- Eğitim script'i sağlanır.
Değerlendirme
- Ayrıntılar için belgelere bakın.
Checkpoint'ler
- Önceden eğitilmiş model ile Vicuna arasındaki
delta çıkarılır.
- Vicuna ağırlıklarını indirdikten sonra, hazırlanmış ağırlık ofsetini indirip uygulayın.
Demo
- FERRET eğitildikten sonra, checkpoint'i kullanarak demoyu yerelde çalıştırın.
- Gradio web UI kullanılır.
- Controller, Gradio web sunucusu ve model worker sırasıyla çalıştırılır.
Atıf
- Ferret'i faydalı bulursanız, aşağıdaki BibTeX ile atıf yapın.
Teşekkür
- LLaVA: temel kod tabanı.
- Vicuna: LLM kod tabanı.
GN⁺ görüşü
- Yenilikçi teknoloji: Ferret modeli, çeşitli sözcük dağarcıkları kullanarak ayrıntılı referans ve konum belirlemeyi mümkün kılan yenilikçi bir teknoloji sunuyor.
- Araştırma açısından önemi: Bu model ve veri kümesi, yapay zeka alanında referans ve konum belirleme görevlerine yönelik araştırmaları hızlandırabilecek önemli kaynaklardır.
- Çeşitli uygulama olanakları: Bu teknoloji, görüntü ve metni birleştiren çeşitli uygulamalarda kullanılabilir; bu da yapay zekanın görsel anlama ve etkileşim yeteneklerini bir üst seviyeye taşıyabilir.
Henüz yorum yok.