5 puan yazan xguru 2022-04-21 | 1 yorum | WhatsApp'ta paylaş
  1. Metin ile görsel anlam (semantics) arasındaki bağlantı
    → CLIP modeli kullanılır: Yüz milyonlarca görsel ve bunlarla ilişkili başlıklar üzerinde eğitilerek, ilgili başlığın görselle ne kadar ilişkili olduğunu öğrenir.
  2. Görsel anlamdan görüntü üretimi
    → GLIDE modeli kullanılır: Görüntü kodlama sürecini tersine çevirmenin bir yolunu öğrenir. Diffusion modeli kullanır.
  3. Metinsel anlamdan karşılık gelen görsel anlama eşleme
    → Prior modeli kullanılır: Görsel başlığının metin kodlamasını, ilgili görselin görüntü kodlamasına eşler.
  4. Her şeyin birleştirilmesi
    → CLIP metin kodlayıcısı, görsel açıklamasını temsil uzayına eşler.
    → Diffusion Prior, CLIP metin kodlamasından ilgili CLIP görüntü kodlamasına eşler.
    → Değiştirilmiş GLIDE üretim modeli, ters diffusion kullanarak temsil uzayından görüntü uzayına eşleme yapar ve verilen başlıktaki anlamsal bilgiyi taşıyan çok sayıda olası görüntü üretir.

Önemli 3 nokta

  1. DALL-E 2, diffusion modellerinin gücünü gösteriyor.
  2. En ileri seviye derin öğrenme modellerini eğitmek için doğal dili kullanmanın gerekliliğini ve gücünü vurguluyor.
  3. Web ölçeğindeki veri kümeleri üzerinde eğitilen modellerde Transformers'ın en üst konumda olduğunu yeniden doğruluyor.