OmniHuman - Tek Bir Fotoğraftan Gerçekçi Video Üreten Model

xguru · 2025-02-13T10:28:01+09:00

ByteDance araştırmacıları, "tek bir fotoğraf kullanarak doğal şekilde konuşan, şarkı söyleyen ve hareket eden insan videoları üreten" bir yapay zeka sistemi geliştirdi Mevcut yapay zeka modellerinin yalnızca yüzü veya üst gövdeyi canlandırabilme sınırını aşarak, "tüm vücut hareketlerini yansıtan videolar" üretebiliyor "Ses, video veya ikisinin birleşiminden oluşan girdileri kullanarak" insan hareketlerini gerçekçi biçimde canlandıran ilk birleşik model Başlıca özellikler Tek görüntü tabanlı video üretimi Bir kişinin yalnızca tek bir fotoğrafından tüm vücut hareketlerini yansıtan doğal videolar üretilebiliyor Çok modlu girdi desteği Ses, video veya ikisinin birleştirildiği giriş biçimlerini destekliyor Mevcut modellere kıyasla jest ifade kabiliyeti büyük ölçüde iyileştirilmiş Her en-boy oranındaki görüntüyü işleyebilme Dikey portre fotoğrafları, yarım vücut fotoğrafları, tam vücut fotoğrafları gibi çeşitli görüntü oranlarını destekliyor Çeşitli stiller ve girdi verileriyle uyumluluk Çizgi film, yapay karakterler, hayvanlar, karmaşık pozlar gibi farklı stilleri yansıtabiliyor Müzik tarzına göre doğal beden hareketleri Yüksek ton, düşük ton, farklı müzik türleri için uygun hareketler üretebiliyor Video tabanlı hareket taklidi Belirli bir kişinin hareketlerini aynen yeniden üreten video driving desteği sunuyor

(omnihuman-lab.github.io)

20 puan yazan xguru 2025-02-13 | 2 yorum | WhatsApp'ta paylaş

ByteDance araştırmacıları, "tek bir fotoğraf kullanarak doğal şekilde konuşan, şarkı söyleyen ve hareket eden insan videoları üreten" bir yapay zeka sistemi geliştirdi
Mevcut yapay zeka modellerinin yalnızca yüzü veya üst gövdeyi canlandırabilme sınırını aşarak, "tüm vücut hareketlerini yansıtan videolar" üretebiliyor
"Ses, video veya ikisinin birleşiminden oluşan girdileri kullanarak" insan hareketlerini gerçekçi biçimde canlandıran ilk birleşik model
Başlıca özellikler
- Tek görüntü tabanlı video üretimi
  - Bir kişinin yalnızca tek bir fotoğrafından tüm vücut hareketlerini yansıtan doğal videolar üretilebiliyor
- Çok modlu girdi desteği
  - Ses, video veya ikisinin birleştirildiği giriş biçimlerini destekliyor
  - Mevcut modellere kıyasla jest ifade kabiliyeti büyük ölçüde iyileştirilmiş
- Her en-boy oranındaki görüntüyü işleyebilme
  - Dikey portre fotoğrafları, yarım vücut fotoğrafları, tam vücut fotoğrafları gibi çeşitli görüntü oranlarını destekliyor
- Çeşitli stiller ve girdi verileriyle uyumluluk
  - Çizgi film, yapay karakterler, hayvanlar, karmaşık pozlar gibi farklı stilleri yansıtabiliyor
- Müzik tarzına göre doğal beden hareketleri
  - Yüksek ton, düşük ton, farklı müzik türleri için uygun hareketler üretebiliyor
- Video tabanlı hareket taklidi
  - Belirli bir kişinin hareketlerini aynen yeniden üreten video driving desteği sunuyor

2 yorum

dhy0613 2025-02-13

Vay canına, artık Çin savaşırsa manipüle edilmiş propaganda videoları bir iki tane olmayacak galiba.

colus001 2025-02-13

Vay... bu harikaymış, değil mi?

OmniHuman - Tek Bir Fotoğraftan Gerçekçi Video Üreten Model

İlgili okumalar

2 yorum