- GPT-4 gibi, görüntü/metin girdilerini birlikte işleyebilen multimodal sistemler geliştirmeyi hedefliyor
- Bunun için, görüntü/video/metin işleyip çıkarım yapabilen bir LMM (Large Multimodal Model) olan DeepMind'ın Flamingo modelini açık kaynak olarak hayata geçiriyor
- İlk sürümde yer alanlar
- Flamingo tarzı bir LMM eğitmek için Python çerçevesi
- Görüntü/metnin iç içe geçtiği büyük ölçekli multimodal veri kümesi
- Görsel-dil görevleri için in-context learning değerlendirme benchmark'ı
- LLaMA tabanlı OpenFlamingo-9B modeli
- Flamingo'nun eğitim veri kümesi herkese açık olmadığından, LAION-2B'nin Multimodal C4 veri kümesi ile 10 milyon örnekten seçilen 5 milyon örnek kullanılarak eğitildi
1 yorum
Flamingo: Few-Shot Learning için Görsel Dil Modeli