Karakter animasyonu için tutarlı ve kontrol edilebilir görüntüden videoya sentez tekniği
- Karakter animasyonu, durağan bir görüntüden hareket sinyalleri aracılığıyla karakter videosu üretmeyi amaçlar.
- Difüzyon modelleri, güçlü üretim yetenekleri sayesinde görsel üretim araştırmalarında ana akım haline gelmiş olsa da, görüntüden videoya alanında, özellikle karakter animasyonunda, ayrıntıları zaman boyunca tutarlı şekilde korumak büyük bir zorluktur.
- Bu makale, difüzyon modellerinin avantajlarından yararlanarak karakter animasyonu için yeni bir çerçeve öneriyor ve referans görüntünün karmaşık görünüm özelliklerini korumak için, uzamsal dikkat yoluyla ayrıntılı özellikleri entegre eden ReferenceNet'i tasarlıyor.
Yöntem
- Önerilen yöntemin genel akışında, Pose Guider kullanılarak poz dizisi ilk olarak kodlanır, ardından çoklu kare gürültüsüyle birleştirilir ve video üretimi için Denoising UNet gürültü giderme sürecini yürütür.
- Denoising UNet'in hesaplama blokları uzamsal dikkat, çapraz dikkat ve zamansal dikkatten oluşur; referans görüntünün entegrasyonu ise iki yön içerir.
- Birincisi, ReferenceNet üzerinden çıkarılan ayrıntılı özellikler uzamsal dikkat için kullanılır; ikincisi, CLIP görüntü kodlayıcısı üzerinden çıkarılan anlamsal özellikler çapraz dikkat için kullanılır.
- Zamansal dikkat zaman boyutunda çalışır ve son olarak VAE kod çözücü sonucu bir video klibe dönüştürür.
Çeşitli karakter animasyonları
- İnsanlar, anime/çizgi roman karakterleri ve insansı karakterler dahil olmak üzere çeşitli karakterler canlandırılabilir.
- Moda videosu sentezi, moda fotoğraflarını gerçekçi animasyon videolarına dönüştürmeyi hedefler; deneyler UBC moda videosu veri kümesinde aynı eğitim verileri kullanılarak yürütülmüştür.
- İnsan dansı üretimi, gerçek dans senaryolarında görüntüleri canlandırmaya odaklanır; deneyler TikTok veri kümesinde aynı eğitim verileri kullanılarak yürütülmüştür.
GN⁺ görüşü
- Bu araştırma, karakter animasyonu alanında önemli bir ilerlemeyi temsil ediyor ve difüzyon modellerinden yararlanarak görüntülerden video üretmek için yeni bir yöntem sunuyor.
- Referans görüntünün ayrıntılı özelliklerini korurken karakter hareketlerini hassas biçimde kontrol edebilen bu teknoloji, animasyon ve görsel efekt endüstrileri üzerinde büyük etki yaratabilir.
- Bu yazı, karakter animasyonu için yenilikçi bir yaklaşımın yanı sıra bunun farklı karakterlere ve senaryolara nasıl uygulanabileceğine dair ilgi çekici bilgiler sunuyor.
3 yorum
Takvimin kayması yüzünden çizim kalitesi bozulan animasyonları düşününce, ortaya çıkan sonucun hatta bu tarafta daha iyi olması bile mümkün görünüyor. Yine de bir ölçüde post-prodüksiyon sürecinde insan eli girmesi gerekecektir.
Ve ortaya çıkan sonuç gerçekten inanılmaz. Video tarafı da çok hızlı gelişiyor.
Hacker News görüşleri
Yapay zekanın ikna edici insan hareketleri ürettiğini ilk kez gördüğüne dair hayranlık
Birkaç yıl içinde bu teknolojinin, geleneksel olarak çekici genç kadın karakterlerin ötesinde de genellenebilecek olmasına dair şaşkınlık
Araştırma sonuçlarının Github'da paylaşılmasına rağmen kodun yayınlanmamasına yönelik soru işareti
Sevilen mangayı animasyona dönüştürmeye yarayacak bir araç ya da araç zincirine dair beklenti
Birkaç yıl içinde tüm videoların gerçek zamanlı üretildiği YouTube benzeri sitelerin ortaya çıkacağına dair hayal
Test görsellerinin seçiminin uygunsuz olduğuna dair eleştiri
Örneklerin özenle seçilmiş gibi göründüğüne ve sistemin veri kümesine aşırı uyum sağlayıp başka şeylere genellenemeyeceğine dair şüphe
Bu teknolojinin 3D modelleme ve VR ile birleştiğinde ortaya çıkabilecek şeylere dair hayal kurma
Bu alandaki her şeyin neden cinselliğe kayma eğiliminde olduğuna dair soru