1 puan yazan GN⁺ 2024-01-26 | 1 yorum | WhatsApp'ta paylaş

Metinden videoya

  • Google araştırma ekibi, Lumiere adlı bir metinden videoya difüzyon modeli tanıttı.
  • Bu model, gerçekçi, çeşitli ve tutarlı hareketleri ifade eden videolar sentezlemeye odaklanıyor.
  • Uzay-zamansal U-Net mimarisini kullanarak videonun tüm zaman boyutunu tek seferde üretiyor.

Görüntüden videoya

  • Lumiere ile tek bir referans görüntü kullanarak hedef stilde video üretmek mümkün.
  • İnce ayarlanmış metinden görüntüye model ağırlıklarından yararlanıyor.

Video stilizasyonu

  • Lumiere sayesinde mevcut metin tabanlı görüntü düzenleme yöntemleri, tutarlı video düzenleme için kullanılabiliyor.

Sinemagraf

  • Lumiere modeli, kullanıcının sağladığı belirli bölgeler içinde görüntü içeriğini canlandırabiliyor.

Video inpainting

  • Lumiere modeli, maskelenmiş videonun içeriğini geri doldurarak tamamlanmış bir video üretebiliyor.

Yazarlar ve teşekkür

  • Araştırma ekibi, Google Research ve çeşitli üniversitelerden ortak yazarlardan oluşuyor.
  • Staj yaparak araştırmaya katkıda bulunan yazarlara ve iş birliği ile destek sağlayan çeşitli kişilere teşekkür ediliyor.

GN⁺ görüşü:

  • Lumiere modeli, video sentezi alanında önemli bir ilerlemeyi temsil ediyor. Gerçekçi ve çeşitli hareketlere sahip videolar üretebilmesi, içerik üreticileri ve video editörleri için büyük fayda sağlayacaktır.
  • Bu teknoloji özellikle film ve reklam sektörlerinde görsel hikâye anlatımını güçlendirmeye ve yaratıcı ifadeyi genişletmeye katkıda bulunabilir.
  • Lumiere'nin geliştirilmesi, yapay zeka tabanlı yaratıcı araçların yaratıcı çalışmaları nasıl dönüştürdüğünü gösteren bir örnek.

1 yorum

 
GN⁺ 2024-01-26
Hacker News görüşleri
    • Bilimsel araştırma adı altında sunulan bu çalışmadan ciddi şekilde rahatsız oldum. Bu ancak gösteriş, reklam ve pazarlama olarak açıklanabilir. Yeniden üretilebilir bir süreç açıklanmamış ve mimari diyagram ilham verici olabilir, ancak bilimsel girişimin en önemli yönü olan yanlışlanabilirliğe izin vermiyor. Google'ın yalan söyleyip söylemediğini doğrulamanın bir yolu olmadığından, tüm örneklerin özenle seçildiğini ve sonradan işlendiğini varsaymak gerekir. Modeli eğitmek için kullanılan verilerin yasa dışı yollarla elde edildiğini varsaymak gerekir. Google artık düzenli olarak kanıtlanamaz iddialarda bulunduğu için, aşırı şüphecilikten başlamak gerekir. Örneğin Bard'daki Gemini performansı, GPT-4 ile karşılaştırıldığında çok geride kalıyor. Modelle etkileşim kurulduğunu iddia eden videolar yayınladıklarında, gerçekte durum öyle değildi.
    • Örnekler, daha önce gördüğüm tekniklere kıyasla çok daha tutarlı ve uzun görünüyor. Diğer modellerle karşılaştırıldığında, ayakların zeminde kayması çok daha az. Buna karşılık, insan yüzleri iyi görünmüyor. Örneğin gülümseyen Mona Lisa. Bu, ilk gerçekten iyi video üretim modeli gibi görünüyor. Düzeltme: Bunu Google'ın yaptığını şimdi fark ettim, yani muhtemelen hiç yayınlanmayacak.
    • GitHub'larında şu anda bağlantılı sayfadan başka hiçbir şey yok. Bunu yayınlayacaklarını iddia ettiklerini de görmedim. Yine de kontrol etmem gerekiyordu ve GitHub profiline giden bir bağlantı da görmedim. Barındırılan web sitesinin URL'sini elle yazmak istemeyenler için bağlantıyı burada paylaşıyorum.
    • Video inpainting ilginç. Geçenlerde çocuklar eski SpongeBob bölümleri izliyordu ve 4:3 en-boy oranı dikkatimi çekti. Bunu 16:9'a geri getirmek için yan çerçeveleri inpaint etmek ilginç bir kullanım alanı olabilir. Ama yandan kadraja girecek nesneler için bir tür öngörü gerekecek gibi görünüyor.
    • Bu küçük AI video üretim örneklerinin tekinsiz ve rüya gibi doğası nedeniyle, bu makalelerin Paskalya sürprizi olarak "electric sheep dream" istemini içermemesine hep hayal kırıklığı yaşıyorum.
    • Bu duyuru sadece 2-3 yıl önce yapılmış olsaydı gerçekten şaşırtıcı olurdu. Hepimiz bu tür yeni ürünlerin çok hızlı ve sık gelmesine alıştık, ama bence yine de etkileyici. Bu yeteneklere sahip bir yazılıma sahip olacağımız günü sabırsızlıkla bekliyorum. Düzeltme: Bunu Google yaptıysa, açık kaynak olarak yayınlanmasını bekleyeceğim.
    • Görünüşe göre eski görselleri modern veri setleriyle sık sık karıştırıyorlar. George Washington'un portresini verip "gülümseyen adam" isteseniz, diş protezleri mi görünür, yoksa bembeyaz dişler mi?
    • Birkaç yorum: Google olduğu için bunu kendimiz kullanamayacağız. Yine de fikir çok ilginç -- modeli, videonun küçük bir genel zaman temsili üretmesi için eğitiyor, ardından hem zaman hem de pikseller açısından upscaling yapıyor. Derinlik haritası ekleyen modeller gördüm, ama bu model başka bir boyut olarak bir de "zaman haritası" ekliyor. Tutarlılık oldukça iyi görünüyor. Daha çok, modelin zaman içinde ne "yapması" gerektiğine karar vermesiyle ilgili tuhaflıklar görülüyor. Google çalışanlarının büyük içgörüsü, tutarlılığın başlı başına koşullandırılabilen, eğitilebilen ve üretilebilen bir şey olması. Bu, Stability gibi diğer model sağlayıcıları tarafından kopyalanabilir görünüyor; uygulanamaz duran bir şey yok.
    • Pixel temalı bir gönderi için Pixel temalı bir makale. Oldukça etkileyici ve muhtemelen yakında "tek paragraftan film yap" programlarının büyük bir dalgasını tetikleyecek. Ama Google olduğu için muhtemelen kutuya konup asla göremeyeceğimiz bir Rick and Morty cihazına dönüşecek. Yazar listesi biçimi hoşuma gitti. Baş yazar, kurum aidiyeti ve ana katkı sağlayanlar için 1,2,3,4,*,+ gösterimi iyi düşünülmüş. 10'dan fazla yazarlı çok sayıda astronomi ve fizik makalesi okudum ama kimin ne yaptığını hiç anlayamıyorum. Örneğin arXiv bağlantısı benzer bir biçim göstermiyor. Muhtemelen anında istismarcı pornografi için kullanılacak. Yürüyen kadın örneği: (5. varyasyon) "üzerinde kıyafet olmadan"
    • Bu yıl ilk uzun metrajlı AI üretimi filmi göreceğiz. Deli olduğumu düşünüyorsanız, sinemanın ilk dönemlerinde ortalama plan süresinin 12 saniye olduğunu, bugün ise sadece 2,5 saniye olduğunu düşünün. Üretimler arasında tutarlı bir tema korumak gibi birkaç önemli tekniğin rafine edilmesi gerekiyor, ancak derinliğe göre katmanları ayırıp daha statik görüntüler kullanarak ya da daha fazla derinlik gereken yerlerde dokulu basit 3D modeller üreterek mevcut yöntemlerle pek çok tutarsızlık telafi edilebilir. Yeterli çaba ve beceriye sahip biri, mevcut tekniklerle bile bunu yapabilir.