15 puan yazan xguru 2023-11-21 | 1 yorum | WhatsApp'ta paylaş

Emu Video: Tek bir Diffusion Model temelinde metinden videoya yüksek kaliteli üretim

  • Süreç iki aşamaya ayrılıyor
    • Önce metin istemine göre koşullandırılmış bir görüntü üretiliyor
    • Ardından hem metin hem de üretilen görüntüyle koşullandırılmış bir video üretiliyor
  • Bu tür bir 'Factorized' yani bölünmüş yaklaşım sayesinde video üretim modeli verimli şekilde eğitilebiliyor
  • Birden fazla modelin üst üste kullanılmasını gerektiren önceki çalışmalardan farklı olarak (ör. Make-A-Video için 5 model), uygulaması daha basit ve yalnızca iki diffusion modeliyle saniyede 16 kare hızında, 512x512 çözünürlükte 4 saniyelik video üretiyor
  • Katılımcıların %96'sı kalite açısından, %85'i ise metin istemine sadakat açısından bunu Make-A-Video'ya tercih etti
  • Ayrıca bu model, metin istemine dayanarak kullanıcının sağladığı görüntüye 'animasyon' uygulayabiliyor ve bu alanda da önceki çalışmaları açık farkla geride bırakıyor

Emu Edit: Algılama ve üretim görevleriyle hassas görüntü düzenleme

  • İstenen görüntüyü oluşturmak için istemlerin sürekli ayarlanması gerekiyor; prompt engineering de bu yüzden ortaya çıktı
  • Ancak hassas kontrol konusunda hâlâ sınırlamalar var
  • Emu Edit, çeşitli görüntü manipülasyonu görevlerini basitleştiriyor ve görüntü düzenlemede gelişmiş yetenekler ile daha yüksek hassasiyet sunuyor
  • Yerel ve küresel düzenleme, arka plan kaldırma ve ekleme, renk ve geometri dönüşümü, algılama ve segmentasyon gibi görevleri kapsayan komutlarla serbest biçimli düzenleme yapılabiliyor
  • Mevcut yaklaşımlar, çeşitli düzenleme görevlerinde çoğu zaman aşırı değişiklik yapıyor ya da düşük performans gösteriyor
  • Günümüzün birçok üretken yapay zeka modelinden farklı olarak Emu Edit, talimatları doğru şekilde izlediği için talimatla ilgisiz giriş görüntüsü piksellerini olduğu gibi koruyor
    • Örneğin bir beyzbol şapkasına "Aloha!" metni eklenirken şapkanın kendisi değişmemeli
  • Modeli eğitmek için; giriş görüntüsü, yapılacak işe dair açıklama ve hedef çıktı görüntüsünün her birini içeren 10 milyon sentetik örnekten oluşan bir veri kümesi geliştirildi
    • Şu ana kadar oluşturulmuş en büyük ölçekli veri kümesi
  • Bunun sonucunda Emu Edit modeli, talimata sadakat ve görüntü kalitesi açısından benzeri görülmemiş düzenleme sonuçları gösteriyor
    • Çeşitli görüntü düzenleme görevlerine yönelik hem nitel hem nicel değerlendirmelerde yeni state-of-the-art sonuçlar elde ederek mevcut yaklaşımlardan daha iyi performans sergiliyor

1 yorum

 
xguru 2023-11-21

Emu Edit epey ilgimi çekiyor. DALLE'de bir düzenleme komutu verdiğinizde, seed sabit olsa bile görüntüyü baştan tamamen yeniden üretiyor; bu yüzden küçük düzeltmeler yapmak zor oluyor. Eğer bunun gibi bir yöntemle düzenleme yapılabilirse kullanımı daha pratik hale gelecek gibi görünüyor.