DeepFloyd IF - Açık kaynak Text-to-Image modeli
(github.com/deep-floyd)- Stability AI'ın yeni görüntü modeli
- Mevcut modellere kıyasla dil anlama yeteneği daha yüksek ve fotogerçekçi görüntüler üretiyor
- T5 Transformer tabanlı Frozen metin kodlayıcısı ile 3 aşamalı piksel difüzyon modülünün birleşimi
- 64x64, 256x256, 1024x1024px
- Zero-shot FID skoru 6.66 (COCO veri kümesi)
Henüz yorum yok.