OpenFlamingo - Büyük ölçekli multimodal modelleri (LMM) eğitmek/değerlendirmek için açık kaynak çerçeve

xguru · 2023-03-31T10:15:01+09:00

GPT-4 gibi, görüntü/metin girdilerini birlikte işleyebilen multimodal sistemler geliştirmeyi hedefliyor Bunun için, görüntü/video/metin işleyip çıkarım yapabilen bir LMM (Large Multimodal Model) olan DeepMind'ın Flamingo modelini açık kaynak olarak hayata geçiriyor İlk sürümde yer alanlar Flamingo tarzı bir LMM eğitmek için Python çerçevesi Görüntü/metnin iç içe geçtiği büyük ölçekli multimodal veri kümesi Görsel-dil görevleri için in-context learning değerlendirme benchmark'ı LLaMA tabanlı OpenFlamingo-9B modeli Flamingo'nun eğitim veri kümesi herkese açık olmadığından, LAION-2B'nin Multimodal C4 veri kümesi ile 10 milyon örnekten seçilen 5 milyon örnek kullanılarak eğitildi

(laion.ai)

11 puan yazan xguru 2023-03-31 | 1 yorum | WhatsApp'ta paylaş

GPT-4 gibi, görüntü/metin girdilerini birlikte işleyebilen multimodal sistemler geliştirmeyi hedefliyor
Bunun için, görüntü/video/metin işleyip çıkarım yapabilen bir LMM (Large Multimodal Model) olan DeepMind'ın Flamingo modelini açık kaynak olarak hayata geçiriyor
İlk sürümde yer alanlar
- Flamingo tarzı bir LMM eğitmek için Python çerçevesi
- Görüntü/metnin iç içe geçtiği büyük ölçekli multimodal veri kümesi
- Görsel-dil görevleri için in-context learning değerlendirme benchmark'ı
- LLaMA tabanlı OpenFlamingo-9B modeli
Flamingo'nun eğitim veri kümesi herkese açık olmadığından, LAION-2B'nin Multimodal C4 veri kümesi ile 10 milyon örnekten seçilen 5 milyon örnek kullanılarak eğitildi

1 yorum

xguru 2023-03-31

Flamingo: Few-Shot Learning için Görsel Dil Modeli

OpenFlamingo - Büyük ölçekli multimodal modelleri (LMM) eğitmek/değerlendirmek için açık kaynak çerçeve

İlgili okumalar

1 yorum