11 puan yazan xguru 2023-03-31 | 1 yorum | WhatsApp'ta paylaş
  • GPT-4 gibi, görüntü/metin girdilerini birlikte işleyebilen multimodal sistemler geliştirmeyi hedefliyor
  • Bunun için, görüntü/video/metin işleyip çıkarım yapabilen bir LMM (Large Multimodal Model) olan DeepMind'ın Flamingo modelini açık kaynak olarak hayata geçiriyor
  • İlk sürümde yer alanlar
    • Flamingo tarzı bir LMM eğitmek için Python çerçevesi
    • Görüntü/metnin iç içe geçtiği büyük ölçekli multimodal veri kümesi
    • Görsel-dil görevleri için in-context learning değerlendirme benchmark'ı
    • LLaMA tabanlı OpenFlamingo-9B modeli
  • Flamingo'nun eğitim veri kümesi herkese açık olmadığından, LAION-2B'nin Multimodal C4 veri kümesi ile 10 milyon örnekten seçilen 5 milyon örnek kullanılarak eğitildi