Lumiere: Gerçekçi Video Üretimi için Uzay-Zaman Yayılım Modeli

(lumiere-video.github.io)

1 puan yazan GN⁺ 2024-01-26 | 1 yorum | WhatsApp'ta paylaş

Video üretimindeki zorlu hareket tutarlılığını iyileştirmek için Google Research’ün Lumiere’i, gerçekçi ve çeşitli video sentezini hedefleyen bir text-to-video yayılım modelidir
Temel nokta Space-Time U-Net’tir; uzak keyframe’leri önce oluşturup sonra aradeğerleme yapmak yerine tüm zaman aralığını tek bir model geçişinde üretir
Uzamsal ve zamansal yönlerde downsampling ve upsampling’i birlikte kullanır; önceden eğitilmiş bir text-to-image yayılım modelinden yararlanarak düşük çözünürlüklü, tam kare hızlı videoları doğrudan üretir
Demolar text-to-video, image-to-video, stilize üretim, video stilizasyonu, cinemagraph ve video inpainting’e kadar geniş bir üretim ve düzenleme yelpazesini kapsar
Yeni başlayanlar da görsel içerikleri esnek biçimde oluşturabilir; ancak sahte ve zararlı içeriklerde kötüye kullanım olasılığı nedeniyle önyargı ve kötü niyetli kullanım tespiti de gereklidir

Lumiere’in hedefi ve yayımlanan materyaller

Lumiere, video sentezinde gerçekçilik, çeşitlilik ve hareketin zamansal tutarlılığını artırmaya odaklanan bir text-to-video yayılım modelidir
Proje sayfasında makaleyi ve çeşitli demo videolarını görebilirsiniz
Yalnızca üretim görevlerini değil, video düzenleme uygulamalarını da birlikte gösterir

Tüm zaman aralığını tek seferde üreten yapı

Lumiere, Space-Time U-Net mimarisini tanıtarak videonun tüm zaman uzunluğunu tek bir model geçişinde üretir
Mevcut video modelleri önce uzak keyframe’leri sentezleyip ardından zamansal süper çözünürlük uyguladığı için küresel zamansal tutarlılığı sağlamak zordur
Bu model yalnızca uzamsal yönde değil, zamansal yönde de downsampling ve upsampling uygular
Önceden eğitilmiş bir text-to-image yayılım modelinden yararlanarak birden çok uzay-zaman ölçeğinde düşük çözünürlüklü, tam kare hızlı videoları doğrudan üretir

Metin ve görüntüden video üretimi

Text-to-Video demosu yalnızca metin istemleriyle video üretir
- Örnekler arasında dağ zirvesindeki bir yürüyüşçü, Mars üssü çevresindeki bir astronot, güneş gözlüğü takmış bir köpeğin araba kullandığı sahne, vanilyalı dondurmanın üzerine dökülen çikolata şurubu, havai fişekler ve plaj gün batımı timelapse’i yer alır
Image-to-Video demosu, giriş görüntüsü ve isteme dayanarak video oluşturur
- Örnekler arasında çizgili gömlek giyen üzgün bir kedi, karda dans eden oyuncak ayı, denizde yüzen kaplumbağa, dizüstü bilgisayar kullanırken kahve içen maymun ve piyano çalan kedi yer alır

Stilize üretim ve video düzenleme

Stylized Generation, tek bir referans görüntü kullanarak hedef stilde video üretir
Bu süreçte ince ayar yapılmış text-to-image model ağırlıkları kullanılır
Stil referansı örnekleri arasında Sticker, 3D Melting Gold, Flat cartoon, 3D Rendering, Line drawing, Glowing, Watercolor painting yer alır
Video Stylization’da, metin tabanlı görüntü düzenleme yöntemleriyle tutarlı video düzenleme yapılabilir
- Örnek stil istemleri arasında “Made of wooden blocks”, “Origami folded paper art”, “Made of colorful toy bricks”, “Made of flowers” yer alır

Bölge tabanlı animasyon ve inpainting

Cinemagraphs özelliği, görüntü içeriğinde kullanıcının belirlediği yalnızca belirli bölgeleri animasyonlu hale getirebilir
Video Inpainting demosu, maske uygulanmış kaynak videoyu girdi olarak alıp çıktı videosu üretir
Inpainting örnekleri, kıyafet veya aksesuar değiştirmeye yönelik istemler içerir
- “wearing a gold strapless gown”
- “wearing sunglasses”
- “wearing a red scarf”
- “wearing rain boots”

Toplumsal etki ve güvenlik

Lumiere’in başlıca hedefi, yeni başlayan kullanıcıların görsel içerikleri yaratıcı ve esnek biçimde üretebilmesini sağlamaktır
Aynı teknolojinin sahte veya zararlı içerik üretiminde kötüye kullanılma riski de vardır
Güvenli ve adil kullanım için önyargıyı ve kötü niyetli kullanım vakalarını tespit eden araçlar geliştirilip uygulanmalıdır

1 yorum

GN⁺ 2024-01-26

Hacker News görüşleri

Bu çalışmanın bilimsel araştırma kılıfıyla sunulması beni çok rahatsız ediyor
Bu, övünme, reklam ve pazarlamadan başka bir şey gibi görünmüyor; tekrarlanabilir bir prosedür de açıklanmamış
Mimari diyagram başkalarına ilham verebilir ama bilimin en önemli unsuru olan yanlışlanabilirliği sağlamıyor
Google'ın yalan söyleyip söylemediğini doğrulamanın yolu olmadığından, tüm örneklerin seçilerek konduğunu ve sonradan işlendiğini varsaymak gerekir
Model eğitim verilerinin de yasa dışı yollardan elde edildiğini varsaymalıyız; Google artık kanıtlanamaz iddiaları tekrar tekrar öne sürdüğü için aşırı şüphecilikten başlamalıyız
Bard'ın Gemini performansı GPT-4 ile karşılaştırıldığında epey geride kalıyor; modelle etkileşim olduğu iddia edilen video da aslında öyle değildi
Hiçbir kuruluş böyle yönetilmemeli, ama Google özellikle ciddi bir mükerrer fail hâline geldi
- Böyle bir tutum bilim açısından üretken görünmüyor
  Sonuçlara inanmıyorsanız iddia edilen çıktıları yok sayıp yalnızca temel fikri alabilirsiniz
  Onların sözde reklamını geçersiz kılmak için kötü niyet varsaymanıza gerek yok
  Bu tutum insanın biraz daha iyi hissetmesini sağlayabilir ama iddiaları siyasallaştırır; gerçekten doğruysa da sizi yavaşlatır
  Google makalelerinin hatırı sayılır bir kısmının tekrarlanabilir çıktısı neredeyse hiç yoktu, ama sonuçta faydalı teknolojilerin temeli hâline geldikleri bir geçmiş var
- Bu arada, verileri kullanarak model eğitmek başlı başına yasa dışı değildir
  Yasa dışı olan, modelin ticari çıkar için aynı verileri çıktı olarak vermesini sağlamaktır
  Bu fark kasıtlı olarak bulanıklaştırılıyor, ama anlaşılması gerekiyor
- Gemini Ultra'ya nasıl erişildiğini merak ediyorum
  Yoksa GPT-3.5 ile karşılaştırılan Gemini Pro'dan mı söz ediliyor?
- Bu video neredeyse kesinlikle Google yatırımcıları için yapılmış gibi görünüyor: “Ölmedik, arama da ölmedi! Dans eden bir ayı bu!”
  Yine de teknoloji reklam edildiği gibiyse çok etkileyici
- Google daha önce AI demosu manipülasyonu yaparken yakalandığı için, yalan söylemiş ya da örnekleri iyi görünecek şekilde seçmiş olma ihtimalinin yüksek olduğu düşünülebilir
  Gerçek araştırma dünyasında böyle bir şey yaparken yakalanırsanız, yalnızca sonraki çalışmalarınız değil önceki çalışmalarınız da sıkı doğrulama konusu olur
Örnekler, daha önce gördüğüm diğer tekniklerden çok daha tutarlı ve uzun süre devam ediyor
Diğer modellere kıyasla bacaklar zeminde daha az kayıyor
Öte yandan insan yüzleri iyi görünmüyordu; örneğin Mona Lisa gülümsemesi gibi sahnelerde bu böyleydi
Şahsen ilk düzgün video üretim modeli gibi görünüyor
Düzenleme: Google işi olduğunu şimdi gördüm. O hâlde herkese açık çıkmayacak demektir
- Herkese açılırsa bir hafta içinde bunun üzerine kurulmuş bir NSFW modeli Civitai'ye yüklenir gibi geliyor
- Hayır, araştırmacılar her zamanki gibi bu çalışmanın üzerine daha fazlasını inşa edecek ve sonunda bir şirket, bu çalışma da dahil birçok araştırma sonucuna dayanarak başarılı bir ürün yapacak
  O zaman da Google'ın geride kaldığından şikâyet ediyor olacağız
  Google'ın son teknoloji araştırmaların çoğunu desteklemesi ve kamuya açık biçimde paylaşması oldukça güzel
  Bunun ne kadar süreceğini bilmiyorum
- Bu demo videosundaki örneklerin kaçının gerçekten gerçek olduğunu merak ediyorum
  https://arstechnica.com/information-technology/2023/12/googl...
- “Mona Lisa gülümsemesi” dedin ama o Leonardo da Vinci'nin "Mona Lisa"sı[1] değil, Johannes Vermeer'in "İnci Küpeli Kız"ı[2]
  [1] https://en.wikipedia.org/wiki/Mona_Lisa
  [2] https://en.wikipedia.org/wiki/Girl_with_a_Pearl_Earring
Şu anda GitHub'larında bağlantı verilen sayfa dışında hiçbir şey yok
https://github.com/lumiere-video
Zaten bir şey olacağını iddia etmemişlerdi ama yine de kontrol ettim; GitHub profiline giden bir bağlantı da göremedim
Barındırılan web sitesi URL'sine bakıp profil adresini elle yazmak istemeyenler için bağlantıyı bırakıyorum
- Yapay zeka/makine öğrenmesi tarafında sık görülen bir yöntem: herkese açık olmayan bir şey hakkında bilgiyi GitHub'a koyup “GitHub'da var” demek
- Büyük dil modelleri ne yazık ki yeni bir moda yarattı
Video inpainting ilginç
Çocuklar yakın zamanda eski SpongeBob bölümlerini izliyordu ve 4:3 en-boy oranı epey göze batıyordu
İki kenarı inpainting ile doldurup 16:9'a geri döndürmenin ilginç bir kullanım senaryosu olabileceğini düşündüm; ama yandan kadraja giren nesneleri ele almak için bir tür önizleme tabanlı ince ayar gerekebilir gibi
- Gerçekten de TV ve film sektöründe birilerinin satın alacağı bir ürün gibi geliyor
  Sabit en-boy oranlı videoları, belirgin bozulma olmadan doğal olmayan boyutlara esnetmek ya da dinamik olarak ayarlamak
  Eklenen kenarları, izleyicinin fark etmeyeceği kadar doğru tahmin etmek yeterli
  4:3 <-> 16:9 <-> 143:100 (IMAX) <-> 11:8 (Academy) <-> 3:2 (35mm) <-> 16:10 (tablet/masaüstü)
  Yeni bir filmi klasik siyah-beyaz sessiz film gibi gösterip ardından uygun kadrajı vermek de mümkün
  Herhangi bir filmi IMAX ekranda doğal çalışacak şekilde uyarlayabilirsiniz
- Videoyu sadece tersine işlemek olmaz mı?
Bu küçük yapay zeka video üretim örneklerinin tuhaf, ürpertici ve rüya gibi niteliğine bakınca, makalelerin easter egg olarak "dreaming of electric sheep" istemini bir kez bile koymaması hep üzücü geliyor
Kahretsin, bu duyuru 2-3 yıl önce olsaydı şok edici olurdu
Herkes bu tür yeni sürümlerin çok hızlı biçimde yağmasına alıştı ama yine de şaşırtıcı
Böyle yeteneklere sahip yazılımları bir an önce kullanmak istiyorum
Düzenleme: Yok, Google'mış. Açık kaynak çıkana kadar bekleyeceğim
Eski görselleri modern veri kümeleriyle sık sık karıştırıyor gibi görünüyor
George Washington portresi verip istem olarak “gülümseyen adam” yazarsak [takma dişleri][1] mi görünür, yoksa bembeyaz dişler mi?
[1] https://en.wikipedia.org/wiki/George_Washington%27s_teeth
- Böyle dağılım dışı verilerin elbette istemde verilmesi gerekir gibi geliyor
  Bu modellerin daha büyük büyük dil modelleri gibi gerçekler hakkında devasa bir dünya modeli oluşturup oluşturmadığı net değil; daha çok nesnelerin nasıl hareket ettiğini anlamaya çalışıyorlar
  Veri kümesindeki çoğu insan bembeyaz dişler gösteriyor ve Washington’ın ağzının videosu yok; bu yüzden istenen takma dişleri ayrıntılı anlatmadığınız sürece varsayılanın bu olacağını düşünüyorum
Birkaç düşünce: Google olduğu için muhtemelen bunu bizzat deneme şansımız olmayacak
Yine de fikir çok ilginç. Model önce videonun küçük, tüm zaman boyutunu kapsayan bir temsilini üretmeyi öğreniyor, sonra hem zaman hem de piksel tarafında upscale ediyor
Esasen önceki modellerin derinlik haritaları eklediğini gördüysek, bu da başka bir boyutta zaman haritası eklemek gibi
Gözle bakınca tutarlılığı oldukça iyi
Tuhaflıklar, kareler arası tutarlılığı korumadaki yaygın başarısızlıklardan çok, modelin zaman içinde bir nesnenin “ne yapması gerektiğine” karar verdiği kısma daha yakın görünüyor
Google araştırmacılarının büyük içgörüsü, tutarlılığın kendisini koşullandırıp öğrenip ürettikten sonra kareleri doldurabilmek
Stability gibi çeşitli model sağlayıcılarının bunu yeterince kopyalayabileceğini düşünüyorum; uygulanamaz görünen özel bir yanı yok
Piksel temalı makaleye piksel temalı gönderi
Oldukça etkileyici ve yakında “tek paragrafla film yapma” programlarının inanılmaz bir sel gibi gelmesine yol açacak gibi
Google işi olduğundan muhtemelen bir kutunun içine girip bizim asla göremeyeceğimiz bir Rick and Morty aracına dönüşme ihtimali yüksek
Yazar belirtme biçimini beğendim
1,2,3,4,*,+ gibi işaretler baş yazarları, kurum bağlantılarını ve temel katkı yapanları ayırmak için iyi
Astronomi ve fizik makalelerini çok okuyunca yazar sayısının 10’u geçtiği ama kimin ne yaptığının hiç anlaşılmadığı durumlar çok oluyor
Örneğin arXiv bağlantısında benzer bir biçim görünmüyor
Ve bu doğrudan istismar amaçlı pornoda kullanılma ihtimali çok yüksek
Walking Woman örneği 5. varyasyon: “Wearing no clothing”
- Aklıma gelmemişti ama doğru. Böyle bir teknolojiyle istismar amaçlı porno yakında yaygınlaşacak
  Dünyadaki herkesin yakında kendi yüzünün eklendiği gerçekçi, açık saçık pornoları olabilir
Bu yıl ilk uzun metraj yapay zeka üretimi filmi göreceğiz
Kulağa çılgınca geliyorsa, sinemanın ilk dönemlerinde de ortalama plan uzunluğunun 12 saniye olduğunu, bugünse yalnızca 2,5 saniye olduğunu düşünmek yeterli
Üretimler arasında özne tutarlılığını korumak gibi birkaç önemli tekniğin daha iyileştirilmesi gerekiyor
Ama derinliğe göre katmanları ayırıp daha statik görüntüler kullanarak ya da daha fazla derinlik gereken yerlerde dokulu basit 3D modeller oluşturan mevcut yöntemlerle birçok tutarsızlığın kapatılabileceğini düşünüyorum
Yeterli emek ve beceriyle mevcut teknolojiyle bile mümkün görünüyor
- Bir film yapımcısının bugün storyboard kullandığı gibi, senaryoyu ve çekimi geliştirmek için filmin birden çok taslak sürümünü ürettiğini hayal etmek kolay
- Neden “film” yapmak zorunda? İzleyicinin kostümleri istediği gibi değiştirebildiği tek bir olay örgüsü yapmak yeterli olmaz mı?
- İnsanların bununla ortaya dökeceği diğer tüm medya gibi muhtemelen tamamen berbat olacak

Lumiere: Gerçekçi Video Üretimi için Uzay-Zaman Yayılım Modeli

Lumiere’in hedefi ve yayımlanan materyaller

Tüm zaman aralığını tek seferde üreten yapı

Metin ve görüntüden video üretimi

Stilize üretim ve video düzenleme

Bölge tabanlı animasyon ve inpainting

Toplumsal etki ve güvenlik

İlgili okumalar

1 yorum

Hacker News görüşleri