Animate Anyone: Karakter Animasyonu için Görüntüden Videoya Sentez Teknolojisi

(humanaigc.github.io)

15 puan yazan GN⁺ 2023-12-02 | 3 yorum | WhatsApp'ta paylaş

Karakter animasyonu için tutarlı ve kontrol edilebilir görüntüden videoya sentez tekniği

Karakter animasyonu, durağan bir görüntüden hareket sinyalleri aracılığıyla karakter videosu üretmeyi amaçlar.
Difüzyon modelleri, güçlü üretim yetenekleri sayesinde görsel üretim araştırmalarında ana akım haline gelmiş olsa da, görüntüden videoya alanında, özellikle karakter animasyonunda, ayrıntıları zaman boyunca tutarlı şekilde korumak büyük bir zorluktur.
Bu makale, difüzyon modellerinin avantajlarından yararlanarak karakter animasyonu için yeni bir çerçeve öneriyor ve referans görüntünün karmaşık görünüm özelliklerini korumak için, uzamsal dikkat yoluyla ayrıntılı özellikleri entegre eden ReferenceNet'i tasarlıyor.

Yöntem

Önerilen yöntemin genel akışında, Pose Guider kullanılarak poz dizisi ilk olarak kodlanır, ardından çoklu kare gürültüsüyle birleştirilir ve video üretimi için Denoising UNet gürültü giderme sürecini yürütür.
Denoising UNet'in hesaplama blokları uzamsal dikkat, çapraz dikkat ve zamansal dikkatten oluşur; referans görüntünün entegrasyonu ise iki yön içerir.
Birincisi, ReferenceNet üzerinden çıkarılan ayrıntılı özellikler uzamsal dikkat için kullanılır; ikincisi, CLIP görüntü kodlayıcısı üzerinden çıkarılan anlamsal özellikler çapraz dikkat için kullanılır.
Zamansal dikkat zaman boyutunda çalışır ve son olarak VAE kod çözücü sonucu bir video klibe dönüştürür.

Çeşitli karakter animasyonları

İnsanlar, anime/çizgi roman karakterleri ve insansı karakterler dahil olmak üzere çeşitli karakterler canlandırılabilir.
Moda videosu sentezi, moda fotoğraflarını gerçekçi animasyon videolarına dönüştürmeyi hedefler; deneyler UBC moda videosu veri kümesinde aynı eğitim verileri kullanılarak yürütülmüştür.
İnsan dansı üretimi, gerçek dans senaryolarında görüntüleri canlandırmaya odaklanır; deneyler TikTok veri kümesinde aynı eğitim verileri kullanılarak yürütülmüştür.

GN⁺ görüşü

Bu araştırma, karakter animasyonu alanında önemli bir ilerlemeyi temsil ediyor ve difüzyon modellerinden yararlanarak görüntülerden video üretmek için yeni bir yöntem sunuyor.
Referans görüntünün ayrıntılı özelliklerini korurken karakter hareketlerini hassas biçimde kontrol edebilen bu teknoloji, animasyon ve görsel efekt endüstrileri üzerinde büyük etki yaratabilir.
Bu yazı, karakter animasyonu için yenilikçi bir yaklaşımın yanı sıra bunun farklı karakterlere ve senaryolara nasıl uygulanabileceğine dair ilgi çekici bilgiler sunuyor.

3 yorum

laeyoung 2023-12-04

Takvimin kayması yüzünden çizim kalitesi bozulan animasyonları düşününce, ortaya çıkan sonucun hatta bu tarafta daha iyi olması bile mümkün görünüyor. Yine de bir ölçüde post-prodüksiyon sürecinde insan eli girmesi gerekecektir.

xguru 2023-12-02

Ve ortaya çıkan sonuç gerçekten inanılmaz. Video tarafı da çok hızlı gelişiyor.

GN⁺ 2023-12-02

Hacker News görüşleri

Yapay zekanın ikna edici insan hareketleri ürettiğini ilk kez gördüğüne dair hayranlık
- Gerçek hareketlerin iskeleti muhtemelen motion capture'dan gelmiş olabilir
- Video oyunları için önemli olan hareket iskeletlerini üretmede mevcut teknolojinin seviyesi hakkında merak
- Corridor Crew'un Rock, Paper, Scissors çalışmasından, yapay zeka karakter animasyonunda önceki en yüksek seviye olarak söz edilmesi
- Animasyon üretimine giriş bariyerinin çok düşeceğinin öngörülmesi
- AI girlfriend konusundaki ürkütücü unsurun artması
Birkaç yıl içinde bu teknolojinin, geleneksel olarak çekici genç kadın karakterlerin ötesinde de genellenebilecek olmasına dair şaşkınlık
Araştırma sonuçlarının Github'da paylaşılmasına rağmen kodun yayınlanmamasına yönelik soru işareti
- Bu eğilimin tuhaf bulunduğu düşüncesi
Sevilen mangayı animasyona dönüştürmeye yarayacak bir araç ya da araç zincirine dair beklenti
- Resmî yayını beklemeden 1. sezonu ya da OVA'yı sisteme verip 2. sezonu izleyebilme umudu
Birkaç yıl içinde tüm videoların gerçek zamanlı üretildiği YouTube benzeri sitelerin ortaya çıkacağına dair hayal
- Elektronik ürün onarımından fen öğrenimine kadar her şeyin kullanıcının öğrenme düzeyi ve ilgi alanlarına göre uyarlanacağının düşünülmesi
Test görsellerinin seçiminin uygunsuz olduğuna dair eleştiri
- Çeşitli ve standartlaştırılmış veri kümeleri kullanılması gerektiği iddiası
- Görüntü işleme derslerinde cinsel içerikli görseller kullanılmasına yönelik eleştiriden alıntı yapılması
Örneklerin özenle seçilmiş gibi göründüğüne ve sistemin veri kümesine aşırı uyum sağlayıp başka şeylere genellenemeyeceğine dair şüphe
- Başarısız örneklerin hiç olmamasının temkinli olunması gereken bir işaret olduğu
- Mevcut hâliyle bile faydalı olabileceği, daha genel bir sistem yapmak içinse esas olarak uygun eğitim verisinin toplanmasının gerektiği
Bu teknolojinin 3D modelleme ve VR ile birleştiğinde ortaya çıkabilecek şeylere dair hayal kurma
- VR pornosu, dinamik yapay zeka karakterlere sahip video oyunları, film ve eğitimde yeniden canlandırılan ölmüş oyuncular ve tarihî figürler
- Gelecekteki bakım evleriyle ilgili korkunun azalması
Bu alandaki her şeyin neden cinselliğe kayma eğiliminde olduğuna dair soru
- Bunun sorun yaratabileceği, ancak insanların niyetlerini dürüstçe ortaya koymasının da memnuniyet verici bulunduğu