- ByteDance araştırmacıları, "tek bir fotoğraf kullanarak doğal şekilde konuşan, şarkı söyleyen ve hareket eden insan videoları üreten" bir yapay zeka sistemi geliştirdi
- Mevcut yapay zeka modellerinin yalnızca yüzü veya üst gövdeyi canlandırabilme sınırını aşarak, "tüm vücut hareketlerini yansıtan videolar" üretebiliyor
- "Ses, video veya ikisinin birleşiminden oluşan girdileri kullanarak" insan hareketlerini gerçekçi biçimde canlandıran ilk birleşik model
- Başlıca özellikler
- Tek görüntü tabanlı video üretimi
- Bir kişinin yalnızca tek bir fotoğrafından tüm vücut hareketlerini yansıtan doğal videolar üretilebiliyor
- Çok modlu girdi desteği
- Ses, video veya ikisinin birleştirildiği giriş biçimlerini destekliyor
- Mevcut modellere kıyasla jest ifade kabiliyeti büyük ölçüde iyileştirilmiş
- Her en-boy oranındaki görüntüyü işleyebilme
- Dikey portre fotoğrafları, yarım vücut fotoğrafları, tam vücut fotoğrafları gibi çeşitli görüntü oranlarını destekliyor
- Çeşitli stiller ve girdi verileriyle uyumluluk
- Çizgi film, yapay karakterler, hayvanlar, karmaşık pozlar gibi farklı stilleri yansıtabiliyor
- Müzik tarzına göre doğal beden hareketleri
- Yüksek ton, düşük ton, farklı müzik türleri için uygun hareketler üretebiliyor
- Video tabanlı hareket taklidi
- Belirli bir kişinin hareketlerini aynen yeniden üreten video driving desteği sunuyor
2 yorum
Vay canına, artık Çin savaşırsa manipüle edilmiş propaganda videoları bir iki tane olmayacak galiba.
Vay... bu harikaymış, değil mi?