VideoPoet - Google’ın Zero-Shot video üretimine odaklanan LLM’i

xguru · 2023-12-22T10:15:01+09:00

Son dönemde ortaya çıkan video üretim modelleri etkileyici görüntü kalitesi sunuyor, ancak mevcut sınır tutarlı ve büyük ölçekli hareket üretme yeteneğindeki yetersizlik VideoPoet; metinden videoya, görüntüden videoya, video stillendirme, video inpainting ve outpainting, video-ses üretimi gibi çeşitli video üretim görevlerini gerçekleştirebilen bir LLM Diğer modellerden farklı olarak, her görevi iyi yapan ayrı bileşenlere dayanmak yerine tüm işlevleri tek bir LLM içinde entegre ediyor Görüntüleri harekete dönüştürüyor ve videoları düzenleyerek inpainting veya outpainting gerçekleştiriyor VideoPoet, video, görüntü, ses ve metin modalitelerini öğrenmek için birden fazla tokenizer kullanarak otoregresif bir dil modeli eğitiyor Metinden videoya kullanımında video çıktısı değişken uzunlukta olabiliyor ve metin içeriğine göre farklı hareketler ile stiller uygulanabiliyor Görüntüden videoya kullanımında giriş görüntüsü, istemle birlikte hareketlendirilerek animasyonlu hale getiriliyor Video stillendirmede önce Optical Flow ve Depth bilgileri tahmin ediliyor, ardından bunlar ek giriş metniyle birlikte VideoPoet’e veriliyor VideoPoet ses de üretebiliyor; böylece tek bir model içinde hem video hem de ses üretilebiliyor Üretim değerlendirme sonuçlarında insanlar ortalama olarak VideoPoet’in istemleri daha iyi takip ettiğini ve daha ilgi çekici hareketler ürettiğini değerlendiriyor VideoPoet, videolar içinde ilgi çekici ve yüksek kaliteli hareket üretme konusunda LLM’lerin rekabetçiliğini ortaya koyuyor

(blog.research.google)

5 puan yazan xguru 2023-12-22 | Henüz yorum yok. | WhatsApp'ta paylaş

Son dönemde ortaya çıkan video üretim modelleri etkileyici görüntü kalitesi sunuyor, ancak mevcut sınır tutarlı ve büyük ölçekli hareket üretme yeteneğindeki yetersizlik
VideoPoet; metinden videoya, görüntüden videoya, video stillendirme, video inpainting ve outpainting, video-ses üretimi gibi çeşitli video üretim görevlerini gerçekleştirebilen bir LLM
- Diğer modellerden farklı olarak, her görevi iyi yapan ayrı bileşenlere dayanmak yerine tüm işlevleri tek bir LLM içinde entegre ediyor
- Görüntüleri harekete dönüştürüyor ve videoları düzenleyerek inpainting veya outpainting gerçekleştiriyor
VideoPoet, video, görüntü, ses ve metin modalitelerini öğrenmek için birden fazla tokenizer kullanarak otoregresif bir dil modeli eğitiyor
Metinden videoya kullanımında video çıktısı değişken uzunlukta olabiliyor ve metin içeriğine göre farklı hareketler ile stiller uygulanabiliyor
Görüntüden videoya kullanımında giriş görüntüsü, istemle birlikte hareketlendirilerek animasyonlu hale getiriliyor
Video stillendirmede önce Optical Flow ve Depth bilgileri tahmin ediliyor, ardından bunlar ek giriş metniyle birlikte VideoPoet’e veriliyor
VideoPoet ses de üretebiliyor; böylece tek bir model içinde hem video hem de ses üretilebiliyor
Üretim değerlendirme sonuçlarında insanlar ortalama olarak VideoPoet’in istemleri daha iyi takip ettiğini ve daha ilgi çekici hareketler ürettiğini değerlendiriyor
VideoPoet, videolar içinde ilgi çekici ve yüksek kaliteli hareket üretme konusunda LLM’lerin rekabetçiliğini ortaya koyuyor

VideoPoet - Google’ın Zero-Shot video üretimine odaklanan LLM’i

İlgili okumalar

Henüz yorum yok.