- Goku, "Rectified Flow Transformer" tabanlı yeni bir görüntü ve video üretim modeli ailesi olup, sektörde en üst düzey performansı hedefliyor
- Yüksek kaliteli görsel üretim teknolojisi için "veri seçimi, model tasarımı, flow formülasyonu" gibi çeşitli optimizasyonlar uygulanıyor
- Başlıca özellikler
- Yüksek kaliteli veri seçimiyle hassas görüntü ve video üretimi
- Rectified Flow tekniği kullanılarak görüntü ve video token'ları arasındaki etkileşimin güçlendirilmesi
- Görüntü ve video üretiminde üstün performans sunması
- Desteklenen üretim görevleri
- Metin → video üretimi
- Görüntü → video üretimi
- Metin → görüntü üretimi
- Performans benchmark'ları: başlıca benchmark'larda yüksek performans kaydetti
- 0.76 (GenEval - metin → görüntü üretimi)
- 83.65 (DPG-Bench - metin → görüntü üretimi)
- 84.85 (VBench - metin → video üretimi)
- Goku-T2V, VBench performans karşılaştırmasında 84.85 puan alarak 7 Ekim 2024 itibarıyla 2. sırada yer aldı
- Birden fazla ticari metin-video modelini geride bırakan bir sonuç (AnimateDiff-V2, OpenSora, Gen-3, Kling vb.)
2 yorum
Son zamanlarda ByteDance bu konuyla ilgili çok sayıda teknik makale yayımlıyor... yakında TikTok'a da uygulanır gibi geliyor bana.
Goku+: Video Ads Foundation Models
Burada aşağıdaki gerçek uygulama örnekleri daha ilginç.
Pazarlama amaçlı avatarlar üretebiliyor ya da ürün görsellerinden video klipler oluşturabiliyor.
Bunu tekrar kullanarak insanla ürünü tek bir sahnede birleştirip doğrudan ürün tanıtım videosu da oluşturuyor.
Bu yüzden yemek yeme, kıyafet giyip yürüme, makyaj yapma ve şampuan kullanma videolarını bile kolayca üretiyor.
Bunun Çin sosyal ticaretine özelleşmiş bir örnek olabileceğini düşünüyorum.