Emu Video: Tek bir Diffusion Model temelinde metinden videoya yüksek kaliteli üretim
- Süreç iki aşamaya ayrılıyor
- Önce metin istemine göre koşullandırılmış bir görüntü üretiliyor
- Ardından hem metin hem de üretilen görüntüyle koşullandırılmış bir video üretiliyor
- Bu tür bir 'Factorized' yani bölünmüş yaklaşım sayesinde video üretim modeli verimli şekilde eğitilebiliyor
- Birden fazla modelin üst üste kullanılmasını gerektiren önceki çalışmalardan farklı olarak (ör. Make-A-Video için 5 model), uygulaması daha basit ve yalnızca iki diffusion modeliyle saniyede 16 kare hızında, 512x512 çözünürlükte 4 saniyelik video üretiyor
- Katılımcıların %96'sı kalite açısından, %85'i ise metin istemine sadakat açısından bunu Make-A-Video'ya tercih etti
- Ayrıca bu model, metin istemine dayanarak kullanıcının sağladığı görüntüye 'animasyon' uygulayabiliyor ve bu alanda da önceki çalışmaları açık farkla geride bırakıyor
Emu Edit: Algılama ve üretim görevleriyle hassas görüntü düzenleme
- İstenen görüntüyü oluşturmak için istemlerin sürekli ayarlanması gerekiyor; prompt engineering de bu yüzden ortaya çıktı
- Ancak hassas kontrol konusunda hâlâ sınırlamalar var
- Emu Edit, çeşitli görüntü manipülasyonu görevlerini basitleştiriyor ve görüntü düzenlemede gelişmiş yetenekler ile daha yüksek hassasiyet sunuyor
- Yerel ve küresel düzenleme, arka plan kaldırma ve ekleme, renk ve geometri dönüşümü, algılama ve segmentasyon gibi görevleri kapsayan komutlarla serbest biçimli düzenleme yapılabiliyor
- Mevcut yaklaşımlar, çeşitli düzenleme görevlerinde çoğu zaman aşırı değişiklik yapıyor ya da düşük performans gösteriyor
- Günümüzün birçok üretken yapay zeka modelinden farklı olarak Emu Edit, talimatları doğru şekilde izlediği için talimatla ilgisiz giriş görüntüsü piksellerini olduğu gibi koruyor
- Örneğin bir beyzbol şapkasına "Aloha!" metni eklenirken şapkanın kendisi değişmemeli
- Modeli eğitmek için; giriş görüntüsü, yapılacak işe dair açıklama ve hedef çıktı görüntüsünün her birini içeren 10 milyon sentetik örnekten oluşan bir veri kümesi geliştirildi
- Şu ana kadar oluşturulmuş en büyük ölçekli veri kümesi
- Bunun sonucunda Emu Edit modeli, talimata sadakat ve görüntü kalitesi açısından benzeri görülmemiş düzenleme sonuçları gösteriyor
- Çeşitli görüntü düzenleme görevlerine yönelik hem nitel hem nicel değerlendirmelerde yeni state-of-the-art sonuçlar elde ederek mevcut yaklaşımlardan daha iyi performans sergiliyor
1 yorum
Emu Edit epey ilgimi çekiyor. DALLE'de bir düzenleme komutu verdiğinizde, seed sabit olsa bile görüntüyü baştan tamamen yeniden üretiyor; bu yüzden küçük düzeltmeler yapmak zor oluyor. Eğer bunun gibi bir yöntemle düzenleme yapılabilirse kullanımı daha pratik hale gelecek gibi görünüyor.