- GPT-4'te gösterilene benzer yeni görsel-dil yetenekleri sunuyor
- Görselleri ayrıntılı biçimde açıklıyor; yemek fotoğraflarından tarif çıkarabiliyor, sorunları tespit edebiliyor, reklam metni oluşturabiliyor veya bir görselden ilham alan hikâye ve şiirler yazabiliyor
- Yalnızca tek bir projeksiyon katmanı kullanarak BLIP-2 ile Vicuna'yı bağlamak bile etkileyici performans sergiliyor
- İki aşamada eğitildi
- 5 milyon görsel-metin çifti, 4 adet A100 ile 10 saat boyunca eğitildi. Yalnızca bu aşamada bile Vicuna görselleri anlayabiliyor, ancak üretim yeteneği ciddi biçimde etkileniyor
- Sorunu çözmek ve kullanılabilirliği iyileştirmek için, modelin kendisiyle ChatGPT'yi birlikte kullanarak yüksek kaliteli görsel-metin çiftleri üretmeye yönelik yeni bir yöntem öneriliyor
- Bunun üzerine küçük ölçekli (toplam 3500 çift) yüksek kaliteli bir veri kümesi oluşturuldu
- İkinci fine-tuning aşamasında, bu küçük veri kümesi diyalog tabanlı şablonlarla eğitilerek üretimdeki güvenilirlik ve genel kullanılabilirlik artırıldı
- Şaşırtıcı biçimde bu aşama hesaplama açısından çok verimli; tek bir A100 ile yalnızca 7 dakika sürüyor
Henüz yorum yok.