Seedance 1.0 - Bytedance'ın çok çekimli video üretim modeli

(seed.bytedance.com)

4 puan yazan GN⁺ 2025-06-14 | 1 yorum | WhatsApp'ta paylaş

Metin ve görüntü tabanlı çok çekimli bir video üretim modeli olup, anlam kavrama ve prompt yorumlama yeteneğinde mevcut modellere göre daha doğru ve esnek performans sergiliyor
1080p yüksek çözünürlüğün yanı sıra akıcı sahne geçişleri, zengin detaylar ve sinematik bir his sunan çıktılar üretiyor
Ayrıntılı fine-tuning ve videoya özel RLHF ödül mekanizması ile genel performans iyileştirildi
Metin açıklamaları veya görüntülerden yola çıkarak, gereksinimleri karşılayan dinamik ve sürükleyici görsel içerikler üretilebiliyor
Verimli mimari ve yeni eğitim paradigması ile hem çok çekimli üretimi hem de metinden videoya/görüntüden videoya görevlerini destekliyor

Seedance 1.0 tanıtımı

Son dönemde diffusion modellerindeki büyük yeniliklerle birlikte video üretim teknolojisi hızla gelişiyor
Ancak mevcut modellerin çoğu, komut (prompt) yerine getirme, hareketlerin doğallığı ve görsel kalite arasında denge kurmakta hâlâ zorlanıyor
Seedance 1.0, aşağıdaki temel teknik iyileştirmeleri uygulayan video üretim tabanlı bir modeldir
- (i) Ayrıntılı video caption'ları eklenmiş çok kaynaklı veri toplama sayesinde farklı senaryolarda kapsamlı eğitim mümkün
- (ii) Verimli mimari ve eğitim paradigması ile çok çekimli üretim ile metin→video ve görüntü→video görevlerini aynı anda destekliyor
- (iii) Ayrıntılı biçimde optimize edilmiş son işlem: gelişmiş supervised fine-tuning ve videoya özel RLHF, çok boyutlu ödül mekanizmasıyla genel performansı büyük ölçüde artırıyor
- (iv) Model hızlandırma: çok aşamalı distillation ve sistem düzeyi optimizasyonlarla çıkarım hızını 10 kat artırıyor
NVIDIA-L20 GPU bazında 41.4 saniyede 5 saniyelik 1080p video üretimi mümkün
En yeni video üretim modelleriyle karşılaştırıldığında, uzamsal-zamansal esneklik, yapısal kararlılık, karmaşık çoklu durumlarda talimat uygulama, çok çekimli ve hikâye anlatımında tutarlılık açısından öne çıkıyor

1 yorum

GN⁺ 2025-06-14

Hacker News görüşleri

Ben, bu tür özelliklerin bir gün fazlasıyla sıradan ve sıkıcı hissettireceği bir geleceği bekleyen taraftayım
- Telefonda, arkadaşlarla grup sohbetinde eğlencesine anında 24 bölümlük, tam seslendirmeli bir animasyon yapabilecek seviyeye gelineceğini hayal ediyorum
- Şimdiden inanılması güç derecede çok şey yapılabiliyor olması ve yakında kimsenin buna aldırmayacak olması da ayrıca ilginç
- Ne kadar basit bir prompt ile yapılmış olursa olsun 24 bölümlük bir serinin sonuçta kimsenin ilgisini çekmeyeceğine dikkat çekiliyor
  - Yapay zekanın içeriğin değerini artırmadığı, aksine kıtlığı yok ederek anlamı ortadan kaldırdığı düşünülüyor
  - Tea. Earl Grey. Hot. gibi, sadece makineden mekanik biçimde çıkan bir şeye benzeten bir ifade de eklenmiş
- İçerik üretmek bu kadar kolaylaşırsa, kim uzun süre video izlemek isteyecek diye sorgulanıyor
  - Sonunda herkesin kendi üretilmiş içeriğini tüketmekle meşgul olacağı tahmin ediliyor
- Ben de bu teknolojiyi büyük heyecanla bekliyorum
  - Örneğin Shadowrun filmi gibi şeyleri kendim yapmak isterim
- Ayda üretilen içerik miktarının, insanlık tarihinde şimdiye kadar üretilmiş tüm içeriğin toplamını aşması bekleniyor
  - Disney, Marvel, Star Wars gibi kitlesel medyanın tekdüzeliği yerine, herkesin kendi ilgi alanına tam uyan long-tail medyadan yararlanabileceği düşüncesi heyecan veriyor
  - Mısır ve Atlantis ilgini çekiyorsa, bu iki uygarlığın savaştığı steampunk bir seriyi, The Wire benzeri ciddi bir tonda anında izleyebileceğin bir dünya hayal etmek mümkün
  - Eskiden asla üretilmeyecek fikirlerin bile hayata geçirilebileceği bir dönemin geleceği öngörülüyor
  - İyi yaratıcılar ortaya çıkacak ve artık indie müzik, indie çizgi roman, indie oyunlarda olduğu gibi çeşitli üreticilerin öne çıkabileceği düşünülüyor
  - Asıl sorunun “keşfedilebilirlik” olacağı söyleniyor
  - Sonuçta yılda sadece 500 sınırlı yere torpille girilmesi gereken mevcut sektör yapısının çökeceği ve kendi vizyonuna sahip birçok yetenekli kişinin büyük denemeler yapabileceği vurgulanıyor
  - YouTube’dan başlayıp dev IP’lere dönüşen VivziePop(Vivienne Medrano wiki), PsychicPebbles(Zach Hadel wiki) gibi modelin gelecekte standart hâline geleceği öngörülüyor
  - Yaratıcı dünyadaki yeniliğin sadece 2~10 kat değil, 1000 kata yakın ölçüde iyileşeceği tahmin ediliyor
  - Şu an filmlerin/dizilerin çoğunu zevkime uymadığı için sevmiyordum ama medya denen aracı hep sevdim
  - Artık kendi zevkime ve ilgi alanlarıma tam uyan içeriklerle karşılaşabileceğim bir dünyanın açılacak olması büyük heyecan yaratıyor
Gelecekte bunun TikTok algoritması gibi, izlediğim anda zevkimi anlayıp o anda bana özel yeni videolar üreten bir yapıya dönüşeceği öngörülüyor
- Kullanıcı her kaydırdığında neyi sevdiği öğrenilecek ve daha fazla video otomatik üretilip gösterilecek
- Yeterli bağlam modele verilirse, kişinin tepki verdiği içerik o kadar büyüleyici olacak ki ekrandan gözünü ayıramayacağı derecede bağımlılık yaratabilecek
  - Bunun hem ürkütücü bir hayal hem de uzun vadede kaçınılmaz olduğu düşünülüyor
- Ne yazık ki sistemin sadece kullanıcının zevkini izlemek yerine, etkileşimi maksimize etmek için kullanıcının zevkini manipüle etmeye çalışacağı yönünde de kaygı var
- Aslında bu teknolojik yönelimin insanların sosyal medyayı kullanma nedenleriyle pek örtüşmediğini söyleyenler de var
  - ChatGPT de sonsuz yorum üretebilir ama sonuçta hepimiz burada, Hacker News’teyiz örneği veriliyor
- İleride “live mode” gibi bir kavramla, kullanıcının sesine göre videoyu gerçek zamanlı olarak anında üreten bir özellik de çıkabilir
  - Bunun Netflix’e bile gelebileceği düşünülüyor
- Reklamdan hoşlanmadığımı da öğrenip bunu gerçekten yansıtıp yansıtmayacağı merak ediliyor
Örnek videolar arasında oldukça etkileyici sahneler var ama bazı sahnelerde doğal olmayan hareketler sıkça göze çarpıyor
- Eğitim verisinin TikTok’un en abartılı kısımlarına odaklandığı için mi bilinmez, 5 saniyeden uzun tek plan tutamıyormuş gibi bir özellik görülüyor
- Zor sahneleri gerçekten iyi işliyor ama ironik biçimde basit görünen kısımlarda daha çok hata yaptığı değerlendiriliyor
  - Açılış piyanosunda ve fotoğrafçının kullandığı kamerada AI text yazıyor; kafedeki yaşlı adamın eli beresinin içinden geçiyor; sahilde arkasına bakan kız başını baykuş gibi çeviriyor
  - Avrupa kentinde bisiklete binen çocuk sahnesi, meydanda şifrelenmiş bir varlığın tek tekerli bisiklet üstünde ağacın altında durduğu bir görüntüyle bitiyor
- ByteDance, modeli haftalar önce Model Arena’da dahili olarak Unicorn adıyla test ediyordu
  - Şimdiden Google Veo 3’ten daha yüksek puan alıyor
  - ArtificialAnalysis: Model Arena sıralaması
5 yıl sonra tüm içeriğin gerçek zamanlı üretildiği bir dünya mümkün olabilir deniyor
- Ben bir şey söyler söylemez, buna anında 5 saniyelik bir videoyla yanıt verilecek
- Video artık “sabit bir varlık” değil, anlık olarak üretilip kaybolan “ephemeral” bir yanıt olacak
- Video, yüklenen pasif bir dosya değil; veri akışının çıktısı hâline geliyor
- Swipe’ın yerini alacak geleceğin arayüzünün sesli prompt olma ihtimali yüksek
- Seedance’ın yaptığı şey yeni bir format denemekten çok, runtime’da üretilen içerik sistemini denemek
- Backend tarafında model infra comet ile sıkıştırılıyor ve LLM’ler daha ucuz ve hızlı çalışacak şekilde ayarlanıyor
- Bu birleşim gerçekleşirse, büyük batch’ler ya da cache olmadan bile büyük ölçekte içerik üretimi sunmak mümkün olacak
- Eğer bu gerçekten yerleşirse, feed artık scroll değil bir render loop’a dönüşecek
- Bütün bunların artık bir “medya servisi” değil, video platformu görünümüne bürünmüş düşük gecikmeli bir AI model hosting sistemi olduğu söyleniyor
Video kalitesi çok iyi ama ses nerede diye soruluyor
- VEO3’ün videoyu iyi üretse de asıl büyük farkı ses tarafındaki tamamlanmışlığın yarattığı belirtiliyor
- Ben büyük bir video streaming şirketinde AI çözümleriyle ilgilenen biriyim
  - VEO3’ün sorunu prompt’lar arası tutarlılığının düşük olması
  - Örneğin bir karakter referans görseli yükleseniz bile, “yaşlı gelin eğiliyor” ve “yaşlı gelin yerden para alıyor” sahnelerini ayrı ayrı üretince karakter her seferinde farklı görünüyor
  - Elbette VEO3 image-to-video özelliği sunuyor ama gerçek sahne oluşturmak açısından hâlâ oldukça yetersiz
  - Zamanla gelişecektir ama şu aşamada Seedance’ın shot’lar arası tutarlılığa odaklanmış olmasını kişisel olarak beğeniyorum
  - Bunun VEO3 üzerinde de baskı oluşturup bu özelliğin daha hızlı gelişmesini sağlayacağı umuluyor
Neden bütün örnek videolarda büyük daireler çıktığı merak ediliyor
Seedance’ın nerede kullanılabileceği soruluyor
- Seedance 1.0’ın 2025 Haziran’dan itibaren Doubao ve Jimeng gibi çeşitli platformlara entegre edilmesi planlanıyor
- Bunun yakında doğrudan TikTok’a gideceği düşünülüyor
  - TikTok platformunun içinde muazzam bir üretken içerik seli yaşanacağı ve herkesin yaratıcı olmak istemesi olgusunu paraya çevirmenin bir yolunun bulunacağı söyleniyor
  - İleride platform politikasının “içeriği ücretsiz yükleyebilirsin”den “yüklemek için AI gateway’den geçmen gerekir ve bunun ücretini de ödersin” modeline kayacağı tahmin ediliyor
Hareketin fazla olduğu videolarda mide bulantısı ya da baş dönmesi hissettiğini söyleyen biri var
- Sora ilk tanıtıldığında da benzer bir deneyim yaşamış ama Seedance’ta bu biraz azalmış
- Veo 3 demosunda böyle bir şey hissetmemiş; Seedance’ın hareketli örneklerinde başkalarının da benzer bir his yaşayıp yaşamadığını soruyor
AI ile üretilen videoların gerçekçiliğinin mevcut CGI animasyon filmleri seviyesine yaklaşıp yaklaşmadığı merak ediliyor
- Uzman biri olsaydı bugünkü çıktılardaki belirgin kusurları elbette işaret edebilirdi diye düşünülüyor
- Yine de gelecekte sadece belirli bölümleri prompt ile ince ayarlamanın mümkün olup olmayacağı merak uyandırıyor
- Ayrıca Hollywood’daki yüksek bütçeli CGI’ın saniye başı maliyetiyle kıyaslandığında bunun gerçekte ne kadar hesaplama kaynağı/paraya mal olduğu da soruluyor
- Son dönemde Hollywood’da görülen sıradan (animasyon olmayan) CGI bile çoğu zaman düşük kaliteli olduğundan beklenti çok yüksek değil
  - CGI çıktısına değişiklik uygulama/yönetme sürecinin de oldukça ilginç göründüğü söyleniyor
"Old man" ifadesindeki kişi o kadar da yaşlı görünmüyor; bu da kişisel olarak biraz tuhaf geliyor (belki de yaşlandığım içindir diye şakayla karışık ekleniyor)

Seedance 1.0 - Bytedance'ın çok çekimli video üretim modeli

Seedance 1.0 tanıtımı

İlgili okumalar

1 yorum

Hacker News görüşleri