4 puan yazan GN⁺ 2025-06-14 | 1 yorum | WhatsApp'ta paylaş
  • Metin ve görüntü tabanlı çok çekimli bir video üretim modeli olup, anlam kavrama ve prompt yorumlama yeteneğinde mevcut modellere göre daha doğru ve esnek performans sergiliyor
  • 1080p yüksek çözünürlüğün yanı sıra akıcı sahne geçişleri, zengin detaylar ve sinematik bir his sunan çıktılar üretiyor
  • Ayrıntılı fine-tuning ve videoya özel RLHF ödül mekanizması ile genel performans iyileştirildi
  • Metin açıklamaları veya görüntülerden yola çıkarak, gereksinimleri karşılayan dinamik ve sürükleyici görsel içerikler üretilebiliyor
  • Verimli mimari ve yeni eğitim paradigması ile hem çok çekimli üretimi hem de metinden videoya/görüntüden videoya görevlerini destekliyor

Seedance 1.0 tanıtımı

  • Son dönemde diffusion modellerindeki büyük yeniliklerle birlikte video üretim teknolojisi hızla gelişiyor
  • Ancak mevcut modellerin çoğu, komut (prompt) yerine getirme, hareketlerin doğallığı ve görsel kalite arasında denge kurmakta hâlâ zorlanıyor
  • Seedance 1.0, aşağıdaki temel teknik iyileştirmeleri uygulayan video üretim tabanlı bir modeldir
    • (i) Ayrıntılı video caption'ları eklenmiş çok kaynaklı veri toplama sayesinde farklı senaryolarda kapsamlı eğitim mümkün
    • (ii) Verimli mimari ve eğitim paradigması ile çok çekimli üretim ile metin→video ve görüntü→video görevlerini aynı anda destekliyor
    • (iii) Ayrıntılı biçimde optimize edilmiş son işlem: gelişmiş supervised fine-tuning ve videoya özel RLHF, çok boyutlu ödül mekanizmasıyla genel performansı büyük ölçüde artırıyor
    • (iv) Model hızlandırma: çok aşamalı distillation ve sistem düzeyi optimizasyonlarla çıkarım hızını 10 kat artırıyor
  • NVIDIA-L20 GPU bazında 41.4 saniyede 5 saniyelik 1080p video üretimi mümkün
  • En yeni video üretim modelleriyle karşılaştırıldığında, uzamsal-zamansal esneklik, yapısal kararlılık, karmaşık çoklu durumlarda talimat uygulama, çok çekimli ve hikâye anlatımında tutarlılık açısından öne çıkıyor

1 yorum

 
GN⁺ 2025-06-14
Hacker News görüşleri
  • Ben, bu tür özelliklerin bir gün fazlasıyla sıradan ve sıkıcı hissettireceği bir geleceği bekleyen taraftayım
    • Telefonda, arkadaşlarla grup sohbetinde eğlencesine anında 24 bölümlük, tam seslendirmeli bir animasyon yapabilecek seviyeye gelineceğini hayal ediyorum
    • Şimdiden inanılması güç derecede çok şey yapılabiliyor olması ve yakında kimsenin buna aldırmayacak olması da ayrıca ilginç
    • Ne kadar basit bir prompt ile yapılmış olursa olsun 24 bölümlük bir serinin sonuçta kimsenin ilgisini çekmeyeceğine dikkat çekiliyor
      • Yapay zekanın içeriğin değerini artırmadığı, aksine kıtlığı yok ederek anlamı ortadan kaldırdığı düşünülüyor
      • Tea. Earl Grey. Hot. gibi, sadece makineden mekanik biçimde çıkan bir şeye benzeten bir ifade de eklenmiş
    • İçerik üretmek bu kadar kolaylaşırsa, kim uzun süre video izlemek isteyecek diye sorgulanıyor
      • Sonunda herkesin kendi üretilmiş içeriğini tüketmekle meşgul olacağı tahmin ediliyor
    • Ben de bu teknolojiyi büyük heyecanla bekliyorum
      • Örneğin Shadowrun filmi gibi şeyleri kendim yapmak isterim
    • Ayda üretilen içerik miktarının, insanlık tarihinde şimdiye kadar üretilmiş tüm içeriğin toplamını aşması bekleniyor
      • Disney, Marvel, Star Wars gibi kitlesel medyanın tekdüzeliği yerine, herkesin kendi ilgi alanına tam uyan long-tail medyadan yararlanabileceği düşüncesi heyecan veriyor
      • Mısır ve Atlantis ilgini çekiyorsa, bu iki uygarlığın savaştığı steampunk bir seriyi, The Wire benzeri ciddi bir tonda anında izleyebileceğin bir dünya hayal etmek mümkün
      • Eskiden asla üretilmeyecek fikirlerin bile hayata geçirilebileceği bir dönemin geleceği öngörülüyor
      • İyi yaratıcılar ortaya çıkacak ve artık indie müzik, indie çizgi roman, indie oyunlarda olduğu gibi çeşitli üreticilerin öne çıkabileceği düşünülüyor
      • Asıl sorunun “keşfedilebilirlik” olacağı söyleniyor
      • Sonuçta yılda sadece 500 sınırlı yere torpille girilmesi gereken mevcut sektör yapısının çökeceği ve kendi vizyonuna sahip birçok yetenekli kişinin büyük denemeler yapabileceği vurgulanıyor
      • YouTube’dan başlayıp dev IP’lere dönüşen VivziePop(Vivienne Medrano wiki), PsychicPebbles(Zach Hadel wiki) gibi modelin gelecekte standart hâline geleceği öngörülüyor
      • Yaratıcı dünyadaki yeniliğin sadece 2~10 kat değil, 1000 kata yakın ölçüde iyileşeceği tahmin ediliyor
      • Şu an filmlerin/dizilerin çoğunu zevkime uymadığı için sevmiyordum ama medya denen aracı hep sevdim
      • Artık kendi zevkime ve ilgi alanlarıma tam uyan içeriklerle karşılaşabileceğim bir dünyanın açılacak olması büyük heyecan yaratıyor
  • Gelecekte bunun TikTok algoritması gibi, izlediğim anda zevkimi anlayıp o anda bana özel yeni videolar üreten bir yapıya dönüşeceği öngörülüyor
    • Kullanıcı her kaydırdığında neyi sevdiği öğrenilecek ve daha fazla video otomatik üretilip gösterilecek
    • Yeterli bağlam modele verilirse, kişinin tepki verdiği içerik o kadar büyüleyici olacak ki ekrandan gözünü ayıramayacağı derecede bağımlılık yaratabilecek
      • Bunun hem ürkütücü bir hayal hem de uzun vadede kaçınılmaz olduğu düşünülüyor
    • Ne yazık ki sistemin sadece kullanıcının zevkini izlemek yerine, etkileşimi maksimize etmek için kullanıcının zevkini manipüle etmeye çalışacağı yönünde de kaygı var
    • Aslında bu teknolojik yönelimin insanların sosyal medyayı kullanma nedenleriyle pek örtüşmediğini söyleyenler de var
      • ChatGPT de sonsuz yorum üretebilir ama sonuçta hepimiz burada, Hacker News’teyiz örneği veriliyor
    • İleride “live mode” gibi bir kavramla, kullanıcının sesine göre videoyu gerçek zamanlı olarak anında üreten bir özellik de çıkabilir
      • Bunun Netflix’e bile gelebileceği düşünülüyor
    • Reklamdan hoşlanmadığımı da öğrenip bunu gerçekten yansıtıp yansıtmayacağı merak ediliyor
  • Örnek videolar arasında oldukça etkileyici sahneler var ama bazı sahnelerde doğal olmayan hareketler sıkça göze çarpıyor
    • Eğitim verisinin TikTok’un en abartılı kısımlarına odaklandığı için mi bilinmez, 5 saniyeden uzun tek plan tutamıyormuş gibi bir özellik görülüyor
    • Zor sahneleri gerçekten iyi işliyor ama ironik biçimde basit görünen kısımlarda daha çok hata yaptığı değerlendiriliyor
      • Açılış piyanosunda ve fotoğrafçının kullandığı kamerada AI text yazıyor; kafedeki yaşlı adamın eli beresinin içinden geçiyor; sahilde arkasına bakan kız başını baykuş gibi çeviriyor
      • Avrupa kentinde bisiklete binen çocuk sahnesi, meydanda şifrelenmiş bir varlığın tek tekerli bisiklet üstünde ağacın altında durduğu bir görüntüyle bitiyor
    • ByteDance, modeli haftalar önce Model Arena’da dahili olarak Unicorn adıyla test ediyordu
  • 5 yıl sonra tüm içeriğin gerçek zamanlı üretildiği bir dünya mümkün olabilir deniyor
    • Ben bir şey söyler söylemez, buna anında 5 saniyelik bir videoyla yanıt verilecek
    • Video artık “sabit bir varlık” değil, anlık olarak üretilip kaybolan “ephemeral” bir yanıt olacak
    • Video, yüklenen pasif bir dosya değil; veri akışının çıktısı hâline geliyor
    • Swipe’ın yerini alacak geleceğin arayüzünün sesli prompt olma ihtimali yüksek
    • Seedance’ın yaptığı şey yeni bir format denemekten çok, runtime’da üretilen içerik sistemini denemek
    • Backend tarafında model infra comet ile sıkıştırılıyor ve LLM’ler daha ucuz ve hızlı çalışacak şekilde ayarlanıyor
    • Bu birleşim gerçekleşirse, büyük batch’ler ya da cache olmadan bile büyük ölçekte içerik üretimi sunmak mümkün olacak
    • Eğer bu gerçekten yerleşirse, feed artık scroll değil bir render loop’a dönüşecek
    • Bütün bunların artık bir “medya servisi” değil, video platformu görünümüne bürünmüş düşük gecikmeli bir AI model hosting sistemi olduğu söyleniyor
  • Video kalitesi çok iyi ama ses nerede diye soruluyor
    • VEO3’ün videoyu iyi üretse de asıl büyük farkı ses tarafındaki tamamlanmışlığın yarattığı belirtiliyor
    • Ben büyük bir video streaming şirketinde AI çözümleriyle ilgilenen biriyim
      • VEO3’ün sorunu prompt’lar arası tutarlılığının düşük olması
      • Örneğin bir karakter referans görseli yükleseniz bile, “yaşlı gelin eğiliyor” ve “yaşlı gelin yerden para alıyor” sahnelerini ayrı ayrı üretince karakter her seferinde farklı görünüyor
      • Elbette VEO3 image-to-video özelliği sunuyor ama gerçek sahne oluşturmak açısından hâlâ oldukça yetersiz
      • Zamanla gelişecektir ama şu aşamada Seedance’ın shot’lar arası tutarlılığa odaklanmış olmasını kişisel olarak beğeniyorum
      • Bunun VEO3 üzerinde de baskı oluşturup bu özelliğin daha hızlı gelişmesini sağlayacağı umuluyor
  • Neden bütün örnek videolarda büyük daireler çıktığı merak ediliyor
  • Seedance’ın nerede kullanılabileceği soruluyor
    • Seedance 1.0’ın 2025 Haziran’dan itibaren Doubao ve Jimeng gibi çeşitli platformlara entegre edilmesi planlanıyor
    • Bunun yakında doğrudan TikTok’a gideceği düşünülüyor
      • TikTok platformunun içinde muazzam bir üretken içerik seli yaşanacağı ve herkesin yaratıcı olmak istemesi olgusunu paraya çevirmenin bir yolunun bulunacağı söyleniyor
      • İleride platform politikasının “içeriği ücretsiz yükleyebilirsin”den “yüklemek için AI gateway’den geçmen gerekir ve bunun ücretini de ödersin” modeline kayacağı tahmin ediliyor
  • Hareketin fazla olduğu videolarda mide bulantısı ya da baş dönmesi hissettiğini söyleyen biri var
    • Sora ilk tanıtıldığında da benzer bir deneyim yaşamış ama Seedance’ta bu biraz azalmış
    • Veo 3 demosunda böyle bir şey hissetmemiş; Seedance’ın hareketli örneklerinde başkalarının da benzer bir his yaşayıp yaşamadığını soruyor
  • AI ile üretilen videoların gerçekçiliğinin mevcut CGI animasyon filmleri seviyesine yaklaşıp yaklaşmadığı merak ediliyor
    • Uzman biri olsaydı bugünkü çıktılardaki belirgin kusurları elbette işaret edebilirdi diye düşünülüyor
    • Yine de gelecekte sadece belirli bölümleri prompt ile ince ayarlamanın mümkün olup olmayacağı merak uyandırıyor
    • Ayrıca Hollywood’daki yüksek bütçeli CGI’ın saniye başı maliyetiyle kıyaslandığında bunun gerçekte ne kadar hesaplama kaynağı/paraya mal olduğu da soruluyor
    • Son dönemde Hollywood’da görülen sıradan (animasyon olmayan) CGI bile çoğu zaman düşük kaliteli olduğundan beklenti çok yüksek değil
      • CGI çıktısına değişiklik uygulama/yönetme sürecinin de oldukça ilginç göründüğü söyleniyor
  • "Old man" ifadesindeki kişi o kadar da yaşlı görünmüyor; bu da kişisel olarak biraz tuhaf geliyor (belki de yaşlandığım içindir diye şakayla karışık ekleniyor)