5 puan yazan xguru 2023-12-22 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Son dönemde ortaya çıkan video üretim modelleri etkileyici görüntü kalitesi sunuyor, ancak mevcut sınır tutarlı ve büyük ölçekli hareket üretme yeteneğindeki yetersizlik
  • VideoPoet; metinden videoya, görüntüden videoya, video stillendirme, video inpainting ve outpainting, video-ses üretimi gibi çeşitli video üretim görevlerini gerçekleştirebilen bir LLM
    • Diğer modellerden farklı olarak, her görevi iyi yapan ayrı bileşenlere dayanmak yerine tüm işlevleri tek bir LLM içinde entegre ediyor
    • Görüntüleri harekete dönüştürüyor ve videoları düzenleyerek inpainting veya outpainting gerçekleştiriyor
  • VideoPoet, video, görüntü, ses ve metin modalitelerini öğrenmek için birden fazla tokenizer kullanarak otoregresif bir dil modeli eğitiyor
  • Metinden videoya kullanımında video çıktısı değişken uzunlukta olabiliyor ve metin içeriğine göre farklı hareketler ile stiller uygulanabiliyor
  • Görüntüden videoya kullanımında giriş görüntüsü, istemle birlikte hareketlendirilerek animasyonlu hale getiriliyor
  • Video stillendirmede önce Optical Flow ve Depth bilgileri tahmin ediliyor, ardından bunlar ek giriş metniyle birlikte VideoPoet’e veriliyor
  • VideoPoet ses de üretebiliyor; böylece tek bir model içinde hem video hem de ses üretilebiliyor
  • Üretim değerlendirme sonuçlarında insanlar ortalama olarak VideoPoet’in istemleri daha iyi takip ettiğini ve daha ilgi çekici hareketler ürettiğini değerlendiriyor
  • VideoPoet, videolar içinde ilgi çekici ve yüksek kaliteli hareket üretme konusunda LLM’lerin rekabetçiliğini ortaya koyuyor

Henüz yorum yok.

Henüz yorum yok.