- Son dönemde ortaya çıkan video üretim modelleri etkileyici görüntü kalitesi sunuyor, ancak mevcut sınır tutarlı ve büyük ölçekli hareket üretme yeteneğindeki yetersizlik
- VideoPoet; metinden videoya, görüntüden videoya, video stillendirme, video inpainting ve outpainting, video-ses üretimi gibi çeşitli video üretim görevlerini gerçekleştirebilen bir LLM
- Diğer modellerden farklı olarak, her görevi iyi yapan ayrı bileşenlere dayanmak yerine tüm işlevleri tek bir LLM içinde entegre ediyor
- Görüntüleri harekete dönüştürüyor ve videoları düzenleyerek inpainting veya outpainting gerçekleştiriyor
- VideoPoet, video, görüntü, ses ve metin modalitelerini öğrenmek için birden fazla tokenizer kullanarak otoregresif bir dil modeli eğitiyor
- Metinden videoya kullanımında video çıktısı değişken uzunlukta olabiliyor ve metin içeriğine göre farklı hareketler ile stiller uygulanabiliyor
- Görüntüden videoya kullanımında giriş görüntüsü, istemle birlikte hareketlendirilerek animasyonlu hale getiriliyor
- Video stillendirmede önce Optical Flow ve Depth bilgileri tahmin ediliyor, ardından bunlar ek giriş metniyle birlikte VideoPoet’e veriliyor
- VideoPoet ses de üretebiliyor; böylece tek bir model içinde hem video hem de ses üretilebiliyor
- Üretim değerlendirme sonuçlarında insanlar ortalama olarak VideoPoet’in istemleri daha iyi takip ettiğini ve daha ilgi çekici hareketler ürettiğini değerlendiriyor
- VideoPoet, videolar içinde ilgi çekici ve yüksek kaliteli hareket üretme konusunda LLM’lerin rekabetçiliğini ortaya koyuyor
Henüz yorum yok.