Meta, video sentezi ve düzenleme için yapay zeka modelleri Emu Video/Edit'i tanıttı

(ai.meta.com)

15 puan yazan xguru 2023-11-21 | 1 yorum | WhatsApp'ta paylaş

Emu Video: Tek bir Diffusion Model temelinde metinden videoya yüksek kaliteli üretim

Süreç iki aşamaya ayrılıyor
- Önce metin istemine göre koşullandırılmış bir görüntü üretiliyor
- Ardından hem metin hem de üretilen görüntüyle koşullandırılmış bir video üretiliyor
Bu tür bir 'Factorized' yani bölünmüş yaklaşım sayesinde video üretim modeli verimli şekilde eğitilebiliyor
Birden fazla modelin üst üste kullanılmasını gerektiren önceki çalışmalardan farklı olarak (ör. Make-A-Video için 5 model), uygulaması daha basit ve yalnızca iki diffusion modeliyle saniyede 16 kare hızında, 512x512 çözünürlükte 4 saniyelik video üretiyor
Katılımcıların %96'sı kalite açısından, %85'i ise metin istemine sadakat açısından bunu Make-A-Video'ya tercih etti
Ayrıca bu model, metin istemine dayanarak kullanıcının sağladığı görüntüye 'animasyon' uygulayabiliyor ve bu alanda da önceki çalışmaları açık farkla geride bırakıyor

Emu Edit: Algılama ve üretim görevleriyle hassas görüntü düzenleme

İstenen görüntüyü oluşturmak için istemlerin sürekli ayarlanması gerekiyor; prompt engineering de bu yüzden ortaya çıktı
Ancak hassas kontrol konusunda hâlâ sınırlamalar var
Emu Edit, çeşitli görüntü manipülasyonu görevlerini basitleştiriyor ve görüntü düzenlemede gelişmiş yetenekler ile daha yüksek hassasiyet sunuyor
Yerel ve küresel düzenleme, arka plan kaldırma ve ekleme, renk ve geometri dönüşümü, algılama ve segmentasyon gibi görevleri kapsayan komutlarla serbest biçimli düzenleme yapılabiliyor
Mevcut yaklaşımlar, çeşitli düzenleme görevlerinde çoğu zaman aşırı değişiklik yapıyor ya da düşük performans gösteriyor
Günümüzün birçok üretken yapay zeka modelinden farklı olarak Emu Edit, talimatları doğru şekilde izlediği için talimatla ilgisiz giriş görüntüsü piksellerini olduğu gibi koruyor
- Örneğin bir beyzbol şapkasına "Aloha!" metni eklenirken şapkanın kendisi değişmemeli
Modeli eğitmek için; giriş görüntüsü, yapılacak işe dair açıklama ve hedef çıktı görüntüsünün her birini içeren 10 milyon sentetik örnekten oluşan bir veri kümesi geliştirildi
- Şu ana kadar oluşturulmuş en büyük ölçekli veri kümesi
Bunun sonucunda Emu Edit modeli, talimata sadakat ve görüntü kalitesi açısından benzeri görülmemiş düzenleme sonuçları gösteriyor
- Çeşitli görüntü düzenleme görevlerine yönelik hem nitel hem nicel değerlendirmelerde yeni state-of-the-art sonuçlar elde ederek mevcut yaklaşımlardan daha iyi performans sergiliyor

1 yorum

xguru 2023-11-21

Emu Edit epey ilgimi çekiyor. DALLE'de bir düzenleme komutu verdiğinizde, seed sabit olsa bile görüntüyü baştan tamamen yeniden üretiyor; bu yüzden küçük düzeltmeler yapmak zor oluyor. Eğer bunun gibi bir yöntemle düzenleme yapılabilirse kullanımı daha pratik hale gelecek gibi görünüyor.

Meta, video sentezi ve düzenleme için yapay zeka modelleri Emu Video/Edit'i tanıttı

Emu Video: Tek bir Diffusion Model temelinde metinden videoya yüksek kaliteli üretim

Emu Edit: Algılama ve üretim görevleriyle hassas görüntü düzenleme

İlgili okumalar

1 yorum