- Metin ve görüntü tabanlı çok çekimli bir video üretim modeli olup, anlam kavrama ve prompt yorumlama yeteneğinde mevcut modellere göre daha doğru ve esnek performans sergiliyor
- 1080p yüksek çözünürlüğün yanı sıra akıcı sahne geçişleri, zengin detaylar ve sinematik bir his sunan çıktılar üretiyor
- Ayrıntılı fine-tuning ve videoya özel RLHF ödül mekanizması ile genel performans iyileştirildi
- Metin açıklamaları veya görüntülerden yola çıkarak, gereksinimleri karşılayan dinamik ve sürükleyici görsel içerikler üretilebiliyor
- Verimli mimari ve yeni eğitim paradigması ile hem çok çekimli üretimi hem de metinden videoya/görüntüden videoya görevlerini destekliyor
Seedance 1.0 tanıtımı
- Son dönemde diffusion modellerindeki büyük yeniliklerle birlikte video üretim teknolojisi hızla gelişiyor
- Ancak mevcut modellerin çoğu, komut (prompt) yerine getirme, hareketlerin doğallığı ve görsel kalite arasında denge kurmakta hâlâ zorlanıyor
- Seedance 1.0, aşağıdaki temel teknik iyileştirmeleri uygulayan video üretim tabanlı bir modeldir
- (i) Ayrıntılı video caption'ları eklenmiş çok kaynaklı veri toplama sayesinde farklı senaryolarda kapsamlı eğitim mümkün
- (ii) Verimli mimari ve eğitim paradigması ile çok çekimli üretim ile metin→video ve görüntü→video görevlerini aynı anda destekliyor
- (iii) Ayrıntılı biçimde optimize edilmiş son işlem: gelişmiş supervised fine-tuning ve videoya özel RLHF, çok boyutlu ödül mekanizmasıyla genel performansı büyük ölçüde artırıyor
- (iv) Model hızlandırma: çok aşamalı distillation ve sistem düzeyi optimizasyonlarla çıkarım hızını 10 kat artırıyor
- NVIDIA-L20 GPU bazında 41.4 saniyede 5 saniyelik 1080p video üretimi mümkün
- En yeni video üretim modelleriyle karşılaştırıldığında, uzamsal-zamansal esneklik, yapısal kararlılık, karmaşık çoklu durumlarda talimat uygulama, çok çekimli ve hikâye anlatımında tutarlılık açısından öne çıkıyor
1 yorum
Hacker News görüşleri
Tea. Earl Grey. Hot.gibi, sadece makineden mekanik biçimde çıkan bir şeye benzeten bir ifade de eklenmişThe Wirebenzeri ciddi bir tonda anında izleyebileceğin bir dünya hayal etmek mümkünAI textyazıyor; kafedeki yaşlı adamın eli beresinin içinden geçiyor; sahilde arkasına bakan kız başını baykuş gibi çeviriyorUnicornadıyla test ediyorducometile sıkıştırılıyor ve LLM’ler daha ucuz ve hızlı çalışacak şekilde ayarlanıyor