15 puan yazan xguru 2023-04-18 | Henüz yorum yok. | WhatsApp'ta paylaş
  • GPT-4'te gösterilene benzer yeni görsel-dil yetenekleri sunuyor
    • Görselleri ayrıntılı biçimde açıklıyor; yemek fotoğraflarından tarif çıkarabiliyor, sorunları tespit edebiliyor, reklam metni oluşturabiliyor veya bir görselden ilham alan hikâye ve şiirler yazabiliyor
  • Yalnızca tek bir projeksiyon katmanı kullanarak BLIP-2 ile Vicuna'yı bağlamak bile etkileyici performans sergiliyor
  • İki aşamada eğitildi
    • 5 milyon görsel-metin çifti, 4 adet A100 ile 10 saat boyunca eğitildi. Yalnızca bu aşamada bile Vicuna görselleri anlayabiliyor, ancak üretim yeteneği ciddi biçimde etkileniyor
    • Sorunu çözmek ve kullanılabilirliği iyileştirmek için, modelin kendisiyle ChatGPT'yi birlikte kullanarak yüksek kaliteli görsel-metin çiftleri üretmeye yönelik yeni bir yöntem öneriliyor
    • Bunun üzerine küçük ölçekli (toplam 3500 çift) yüksek kaliteli bir veri kümesi oluşturuldu
    • İkinci fine-tuning aşamasında, bu küçük veri kümesi diyalog tabanlı şablonlarla eğitilerek üretimdeki güvenilirlik ve genel kullanılabilirlik artırıldı
    • Şaşırtıcı biçimde bu aşama hesaplama açısından çok verimli; tek bir A100 ile yalnızca 7 dakika sürüyor

Henüz yorum yok.

Henüz yorum yok.