MiniGPT-4: Gelişmiş LLM kullanarak görsel-dil anlama yetisini artırma

xguru · 2023-04-18T11:21:01+09:00

GPT-4'te gösterilene benzer yeni görsel-dil yetenekleri sunuyor Görselleri ayrıntılı biçimde açıklıyor; yemek fotoğraflarından tarif çıkarabiliyor, sorunları tespit edebiliyor, reklam metni oluşturabiliyor veya bir görselden ilham alan hikâye ve şiirler yazabiliyor Yalnızca tek bir projeksiyon katmanı kullanarak BLIP-2 ile Vicuna'yı bağlamak bile etkileyici performans sergiliyor İki aşamada eğitildi 5 milyon görsel-metin çifti, 4 adet A100 ile 10 saat boyunca eğitildi. Yalnızca bu aşamada bile Vicuna görselleri anlayabiliyor, ancak üretim yeteneği ciddi biçimde etkileniyor Sorunu çözmek ve kullanılabilirliği iyileştirmek için, modelin kendisiyle ChatGPT'yi birlikte kullanarak yüksek kaliteli görsel-metin çiftleri üretmeye yönelik yeni bir yöntem öneriliyor Bunun üzerine küçük ölçekli (toplam 3500 çift) yüksek kaliteli bir veri kümesi oluşturuldu İkinci fine-tuning aşamasında, bu küçük veri kümesi diyalog tabanlı şablonlarla eğitilerek üretimdeki güvenilirlik ve genel kullanılabilirlik artırıldı Şaşırtıcı biçimde bu aşama hesaplama açısından çok verimli; tek bir A100 ile yalnızca 7 dakika sürüyor

(minigpt-4.github.io)

15 puan yazan xguru 2023-04-18 | Henüz yorum yok. | WhatsApp'ta paylaş

GPT-4'te gösterilene benzer yeni görsel-dil yetenekleri sunuyor
- Görselleri ayrıntılı biçimde açıklıyor; yemek fotoğraflarından tarif çıkarabiliyor, sorunları tespit edebiliyor, reklam metni oluşturabiliyor veya bir görselden ilham alan hikâye ve şiirler yazabiliyor
Yalnızca tek bir projeksiyon katmanı kullanarak BLIP-2 ile Vicuna'yı bağlamak bile etkileyici performans sergiliyor
İki aşamada eğitildi
- 5 milyon görsel-metin çifti, 4 adet A100 ile 10 saat boyunca eğitildi. Yalnızca bu aşamada bile Vicuna görselleri anlayabiliyor, ancak üretim yeteneği ciddi biçimde etkileniyor
- Sorunu çözmek ve kullanılabilirliği iyileştirmek için, modelin kendisiyle ChatGPT'yi birlikte kullanarak yüksek kaliteli görsel-metin çiftleri üretmeye yönelik yeni bir yöntem öneriliyor
- Bunun üzerine küçük ölçekli (toplam 3500 çift) yüksek kaliteli bir veri kümesi oluşturuldu
- İkinci fine-tuning aşamasında, bu küçük veri kümesi diyalog tabanlı şablonlarla eğitilerek üretimdeki güvenilirlik ve genel kullanılabilirlik artırıldı
- Şaşırtıcı biçimde bu aşama hesaplama açısından çok verimli; tek bir A100 ile yalnızca 7 dakika sürüyor

MiniGPT-4: Gelişmiş LLM kullanarak görsel-dil anlama yetisini artırma

İlgili okumalar

Henüz yorum yok.