Stable Video Diffusion kullanıma sunuldu

(stability.ai)

14 puan yazan GN⁺ 2023-11-22 | 2 yorum | WhatsApp'ta paylaş

Stable Video Diffusion, görüntü modeli Stable Diffusion temel alınarak geliştirilen ilk üretken video modeli
Araştırma önizlemesi olarak sunuluyor ve bu en yeni üretken yapay zeka video modeli, farklı türde modeller oluşturma yolculuğunda önemli bir adım
Kod GitHub deposunda, modeli yerelde çalıştırmak için gereken ağırlıklar ise Hugging Face sayfasında bulunabiliyor

Çeşitli video uygulamalarına uygulanabilir

Video modeli, tek bir görüntüden çoklu bakış açısı sentezi dahil çeşitli aşağı akış görevlerine kolayca uygulanabiliyor
Stable Diffusion etrafında kurulan ekosisteme benzer şekilde, bu temel üzerinde inşa edilip genişletilecek çeşitli modeller planlanıyor
Metinden videoya arayüzü sunan yeni bir web deneyimi için bekleme listesine bugünden itibaren kayıt olunabiliyor

Performans açısından rekabetçi

Stable Video Diffusion, saniyede 3 ila 30 kare arasında özelleştirilebilir kare hızıyla 14 ve 25 kare üretebilen iki görüntüden videoya model olarak sunuldu
Temel haliyle yayımlandığında, harici değerlendirmeler bu modellerin kullanıcı tercih çalışmasında önde gelen kapalı modelleri geride bıraktığını gösterdi

Yalnızca araştırma için

Modeli en son gelişmelerle güncelleyip geri bildirimleri entegre etme konusunda istekli olsalar da, mevcut aşamada bunun gerçek dünya veya ticari uygulamalar için olmadığını vurguluyorlar
Güvenlik ve kaliteye ilişkin içgörüler ile geri bildirimler, modelin nihai sürüm için rafine edilmesinde kritik önem taşıyor

Yapay zeka modellerinin sürekli genişlemesi

Stable Video Diffusion; görüntü, dil, ses, 3D ve kod dahil çeşitli modaliteleri kapsayan açık kaynak modeller yelpazesine gurur verici bir ek
Stability AI'ın insan zekasını güçlendirme konusundaki bağlılığını gösteren bir portföy

GN⁺ görüşü

Bu yazıdaki en önemli nokta, Stable Video Diffusion modelinin yayımlanması; bu da yapay zeka teknolojisindeki ilerlemeyi gösterirken çeşitli alanlarda uygulanabilirliğin önünü açıyor
Araştırmacılar ve geliştiriciler için yeni araçlar sunan ve yaratıcı video üretimini mümkün kılan bu teknolojinin reklam, eğitim, eğlence gibi birçok alanda ilgi çekici uygulamalar doğurması bekleniyor.

2 yorum

xguru 2023-11-22

LLM'lere Stable Diffusion anı geliyor

Acaba bu Stable Diffusion anı artık Video tarafına da gelecek mi? Gerçekten de son zamanlarda yurt dışındaki yapay zeka girişimleri arasında paranın aktığı yerin video tarafı olduğu kesin gibi.

GN⁺ 2023-11-22

Hacker News görüşleri

Video sayfasının alt kısmında iki kuş (mavi kuş) görünüyor ve arka planda CN Tower'a benzeyen iki aynı bina var. CN Tower, Toronto'nun önemli simgelerinden biri ve Toronto'nun beyzbol takımının adı da Blue Jays. Bu kule, şehir merkezindeki ana spor stadyumunun yakınında yer alıyor. Metinden görüntüye dönüşüm yaklaşımını kabaca anlıyorum ve "mavi kuş"un vektör uzayında "Toronto" ya da "CN Tower"a yakın olmasının mantıklı olduğunu düşünüyorum. Görüntüden videoya ölçek ve hız artışı etkileyici, ancak görüntü üretim modellerinin ne kadar yetenekli olduğunu görünce, düzenleme ya da yinelemeli çalışma kabiliyetinin olmaması nedeniyle sınırlı hissettiriyor. Örneğin, "fotoğraftaki bisikleti sola taşı" gibi bir istemle modelin yinelemeli görevler yapmasını sağlayan bir çözüm olup olmadığını merak ediyorum. Bu alanın çok hızlı ilerlediğini hissediyorum.
Geçen yıl makine öğrenmesi alanındaki ilerleme hızı hayret vericiydi. ControlNet videoya düzgün şekilde uygulanabilirse, insanların bu teknolojiyi nasıl kullanacağını görmek heyecan verici olacak. Videoyu sıfırdan üretmek de harika, ancak bu teknolojinin asıl faydası zamansal tutarlılıkta yatıyor. Kararlı video elde etmek için genellikle çok fazla manuel son işleme gerekiyor.
"Ticari olmayan" model lisansının nasıl uygulanabileceği hâlâ kafamı kurcalıyor. Yazılım lisansları yazılımın yeniden dağıtımını düzenler, ancak onunla üretilen ürünleri düzenlemez. Örneğin, GIMP ile üretilen bir görsel GPL lisansına tabi olmaz.
Bu alan çok hızlı ilerliyor. Göz açıp kapayıncaya kadar yeni bir makale çıkıyor. İnsanlığın öğrenme hızı şaşırtıcı. Bunu downstream tasks için kullanmak çok ilginç. Bu modeli animatediff ile entegre etmenin ne kadar kolay olduğunu merak ediyorum. Ayrıca m3 cihazında benchmark yapılıp yapılamayacağını ve bu tür diffusion inference ve geliştirme işlerini yürütmek için m3 pro kullanmanın değip değmeyeceğini bilmek istiyorum.
Teknik ilerleme açısından büyüleyici bir sıçrama. İnsanı ancestral samplers ile non-ancestral samplers arasındaki farkı düşünmeye itiyor. Örneğin Euler yöntemi bir miktar deterministiktir ve örnekleme adımları artsa da çıktı değişmez; buna karşılık Euler Ancestral her adımda gürültü ekleyerek daha fazla çeşitlilik üretir ama daha rastgele/olasılıksaldır. Video üretmek için örnekleyicinin önceki karelere büyük ölçüde dayanırken bir tür alt istemi (sub-prompt) enjekte etmesi gerektiğini düşünüyorum. Örneğin, "belirli bir nesneyi sola doğru 5 derece döndür" gibi. Başka bir yorumcunun kullandığı "zamansal tutarlılık" ifadesini beğendim.
Eğitim verisinden tüm cut ve fade geçişlerini kaldırmanın sonuçları iyileştirebilmesi mantıklı geliyor. Araştırma makalesinin arka plan bölümünde "temporal convolution layers"dan söz ediliyor; bunun ne olduğunu açıklayabilecek biri var mı? Videoyu oluşturan görüntüler arasındaki zamansal durumu temsil etmek için ne tür eğitim verisinin girdi olarak verildiğini mi kastediyorlar, yoksa başka bir anlamı mı var, merak ediyorum.
Çok havalı bir gelişme. Birkaç ay önce Replicate üzerinde bazı "video" üretim modellerini denemiştim ve çok güzel sonuçlar aldım, ancak ortaya çıkan videoların önceki kareleri istem olarak kullanarak üretildiği belliydi. Bu teknik gerçekten daha üst düzey bağlama sahip bir şey üretebiliyor gibi görünüyor. Sadece altı ayı biraz aşkın bir sürede bu seviyede ilerleme görmek şaşırtıcı.
Stability.ai'dan yönetim kurulunun aklı başında olduğundan emin olmasını rica ediyorum.
Bu teknolojiyi denemek için gerçekten heyecanlıyım. Yakın zamanda yaptığım birkaç deneyi paylaşayım.
Statik görüntülerde olduğu gibi, ince ve istenmeyen kusurları gözlemlemek çok ilginç. Örneğin, kovboy şapkalı adam neredeyse boğuluyormuş gibi görünüyor ve tren videosunda tren buz üstünde kayıyormuş gibi hareket ederken raylar fazla geniş görünüyor.