Dünya Simülatörü Olarak Video Üretim Modelleri

(openai.com)

1 puan yazan GN⁺ 2024-02-17 | 1 yorum | WhatsApp'ta paylaş

OpenAI, Sora ile video üretim modellerinin basit video sentezinin ötesine geçip fiziksel ve dijital dünyanın simülasyonu olarak genişletilip genişletilemeyeceğini araştırıyor
Temel tasarım, video ve görüntüleri zamansal ve mekânsal olarak sıkıştırılmış bir latent uzaya yerleştirip bunu uzay-zaman yamalarına bölerek Transformer token’ları gibi eğitmekten oluşuyor
Sora, sabit boyutta kırpma yapmadan değişken uzunluk, çözünürlük ve en-boy oranını doğrudan öğreniyor; böylece geniş ekran, dikey video ve yüksek çözünürlüklü görüntü üretimini aynı modelde ele alıyor
DALL·E 3’ün yeniden açıklama oluşturma yaklaşımını videoya uygulayıp GPT ile kısa prompt’ları ayrıntılı açıklamalara genişleterek metne sadakati ve görüntü kalitesini artırıyor
3D tutarlılık, nesne sürekliliği ve Minecraft benzeri dijital dünya simülasyonları kısmen mümkün olsa da, cam kırılması ya da yemek yeme gibi durum değişimi gerektiren fiziksel etkileşimlerde sınırlamalar sürüyor

Sora’nın ele aldığı problem ve raporun kapsamı

OpenAI, video verileri üzerinde büyük ölçekli üretici model eğitimini araştırıyor
Sora, farklı uzunluk, çözünürlük ve en-boy oranlarındaki videolarla görüntüleri birlikte öğrenen metin koşullu bir difüzyon modeli
En büyük model olan Sora, 1 dakikaya kadar yüksek doğrulukta videolar üretebiliyor
Bu teknik rapor iki noktaya odaklanıyor
- Çeşitli görsel verileri büyük ölçekli üretici model eğitimi için uygun birleşik bir temsile dönüştürme yöntemi
- Sora’nın yetenekleri ve sınırlamalarına dair niteliksel değerlendirme
Modelin ayrıntılı mimarisi ve uygulama detayları yer almıyor
Önceki video üretim araştırmaları yinelemeli sinir ağları, GAN’ler, otoregresif Transformer’lar ve difüzyon modelleri gibi birçok yöntem kullandı; ancak çoğu dar veri kategorilerine, kısa videolara ve sabit boyutlu videolara odaklandı
Sora, farklı uzunluklar, en-boy oranları ve çözünürlükler boyunca video ve görüntü üreten genel amaçlı bir görsel veri modeli olarak tasarlandı

Görsel verileri yamalarla birleştirme yöntemi

Büyük dil modelleri metin token’larıyla kodu, matematiği ve doğal dili birleştirdiği gibi, Sora da görsel veriler için yamalar kullanıyor
Videolar önce düşük boyutlu bir latent uzaya sıkıştırılıyor, ardından uzay-zaman yamalarına ayrılıyor
Yama tabanlı temsil, farklı video ve görüntü türlerini öğrenmede ölçeklenebilir ve etkili biçimde çalışıyor

Video sıkıştırma ve uzay-zaman latent yamaları

Sora, ham videoyu doğrudan piksel uzayında işlemez; bunun yerine zamansal ve mekânsal olarak sıkıştırılmış latent temsiller üzerinde öğrenir ve üretim yapar
Ayrı bir decoder modeli, üretilen latent temsilleri yeniden piksel uzayına eşler
Sıkıştırılmış giriş videosundan çıkarılan uzay-zaman yama dizileri, Transformer’daki token’lar gibi çalışır
Görüntüler tek karelik video olarak görülebileceğinden aynı şekilde işlenebilir
Çıkarım sırasında rastgele başlatılmış yamalar istenen boyuttaki bir ızgaraya yerleştirilerek üretilecek videonun boyutu kontrol edilir

Video üretimi için Diffusion Transformer’ın genişletilmesi

Sora, gürültü eklenmiş yamaları ve metin prompt’u gibi koşullandırma bilgilerini girdi olarak alıp özgün temiz yamaları tahmin edecek şekilde eğitilen bir difüzyon modeli
Aynı zamanda Sora bir Diffusion Transformer
Transformer’lar dil modelleme, bilgisayarlı görü ve görüntü üretimi gibi birçok alanda ölçeklenme özellikleri gösterdi ve Sora’da da video modeli olarak etkili biçimde ölçeklendi
Aynı seed ve girişle eğitim ilerledikçe ve hesaplama miktarı arttıkça örnek kalitesi belirgin şekilde iyileşiyor
- Karşılaştırma örnekleri base compute, 4x compute ve 32x compute olarak sunuluyor

Orijinal boyutta eğitimin avantajları

Geleneksel görüntü ve video üretim yaklaşımları genellikle verileri 4 saniye, 256x256 gibi standart boyutlara yeniden ölçeklendirir, kırpar veya kısaltır
Sora, veriyi orijinal boyutunda öğrenerek birçok avantaj elde ediyor
Örnekleme esnekliği
- Sora, 1920x1080p geniş ekran video, 1080x1920 dikey video ve bunların arasındaki çeşitli formatlarda örnekleme yapabiliyor
- Farklı cihazlara uygun içerikler yerel en-boy oranında doğrudan üretilebiliyor
- Aynı modelle düşük boyutta hızlı prototip oluşturup daha sonra tam çözünürlükte üretim yapılabiliyor
Kadraj ve kompozisyon iyileştirmesi
- Orijinal en-boy oranında eğitim, kompozisyon ve kadrajı iyileştiriyor
- Tüm eğitim videolarını kare biçiminde kırpan bir model bazen öznenin yalnızca kısmen göründüğü videolar üretebiliyor
- Sora, kare kırpma kullanan modellere kıyasla daha iyi kadrajlanmış videolar üretiyor

Dil anlama ve açıklama işleme

Metinden videoya üretim sistemi eğitmek için, karşılık gelen metin açıklamalarına sahip büyük miktarda video gerekiyor
OpenAI, DALL·E 3’te tanıtılan yeniden açıklama oluşturma tekniğini videoya uyguluyor
Önce çok ayrıntılı açıklamalar üreten bir model eğitiliyor, ardından bu model tüm eğitim videoları için metin açıklamaları oluşturmakta kullanılıyor
Ayrıntılı video açıklamalarıyla eğitim yapmak, metne sadakati ve genel video kalitesini iyileştiriyor
DALL·E 3’e benzer biçimde, GPT kullanılarak kısa kullanıcı prompt’ları uzun ve ayrıntılı açıklamalara dönüştürülüyor ve bunlar video modeline aktarılıyor
Bu yöntem, Sora’nın kullanıcı prompt’larını daha doğru izleyen yüksek kaliteli videolar üretmesi için kullanılıyor

Görüntü ve videoyu girdi olarak kullanan üretim ve düzenleme

Sora, yalnızca metni değil, mevcut görüntü veya videoyu da prompt olarak alabiliyor
Bu özellik; tamamen tekrar eden video üretimi, durağan görüntüleri canlandırma ve videoyu zaman içinde ileri ya da geri genişletme gibi işlerde kullanılıyor
DALL·E görsellerini canlandırma
- Sora, bir görüntü ve bir prompt alarak video üretebiliyor
- Örnekler, DALL·E 2 ve DALL·E 3 görsellerinden video üretimini içeriyor
Üretilmiş videoyu genişletme
- Sora, videoyu zaman içinde ileriye veya geriye doğru genişletebiliyor
- Üretilmiş videonun bir bölümünden başlayıp sonraki zamana doğru genişletilen üç video, farklı başlangıç noktalarına sahip olsa da aynı sona bağlanıyor
- Aynı yöntemle videoyu ileri ve geri genişleterek kesintisiz bir sonsuz döngü oluşturmak mümkün
Videodan videoya düzenleme ve birleştirme
- Difüzyon modeli tabanlı görüntü ve video düzenleme yöntemlerinden biri olan SDEdit, Sora’ya uygulanıyor
- Bu teknik, Sora’nın giriş videosunun stilini ve ortamını zero-shot olarak dönüştürmesini sağlıyor
- İki giriş videosu arasında kademeli enterpolasyon yaparak, konu ve sahne düzeni tamamen farklı videolar arasında bile akıcı geçişler oluşturabiliyor

Görüntü üretme yeteneği

Sora, görüntü de üretebiliyor
Bunu, zaman uzunluğu tek kare olan bir uzamsal ızgaraya Gaussian noise yamaları yerleştirerek yapıyor
Üretilebilen görüntü boyutları değişken ve en fazla 2048x2048 çözünürlüğe kadar çıkabiliyor
Örnek prompt’lar arasında sonbaharda bir kişinin yakın planı, mercan resifi, elma ağacının altında yavru kaplan dijital sanatı ve auroralı karla kaplı dağ köyü yer alıyor

Ölçek büyüdükçe ortaya çıkan simülasyon yetenekleri

Büyük ölçekte eğitilmiş video modelleri, insanları, hayvanları ve çevrenin bazı yönlerini simüle eden ortaya çıkan yetenekler sergiliyor
Bu özellikler, 3D ya da nesnelere ilişkin açık bir tümevarımsal önyargı olmadan, ölçek büyüdükçe ortaya çıkan bir olgu olarak ele alınıyor
3D tutarlılık
- Sora, dinamik kamera hareketlerine sahip videolar üretebiliyor
- Kamera hareket ettiğinde veya döndüğünde insanlar ve sahne öğeleri üç boyutlu uzayda tutarlı biçimde hareket ediyor
Uzun vadeli tutarlılık ve nesne sürekliliği
- Uzun video örneklerinde zamansal tutarlılığı korumak, video üretim sistemleri için önemli bir zorluk
- Sora her zaman olmasa da, kısa ve uzun menzilli bağımlılıkları etkili biçimde modelleyebiliyor
- İnsanları, hayvanları ve nesneleri, görünmeleri engellense veya kare dışına çıksalar bile bazen sürdürmeyi başarıyor
- Tek bir örnek içinde aynı karakterin birden fazla çekimini oluşturup görünümünü video boyunca koruyabiliyor
Dünya ile etkileşim
- Sora bazen, dünya durumunu basit biçimde etkileyen eylemleri simüle edebiliyor
- Örnekler arasında bir ressamın tuvalde bıraktığı fırça darbelerinin zamanla korunması ve bir kişinin hamburger yiyip ısırık izinin kalması yer alıyor
Dijital dünya simülasyonu
- Sora, video oyunları gibi yapay süreçleri de simüle edebiliyor
- Minecraft örneğinde, temel bir politika ile oyuncuyu kontrol ederken dünyayı ve dinamikleri yüksek doğrulukla render edebiliyor
- Yalnızca “Minecraft” ifadesini içeren bir açıklama prompt’u ile bu yetenek zero-shot olarak ortaya çıkarılabiliyor

Mevcut sınırlamalar ve sonuç

Sora’nın bir simülatör olarak çeşitli sınırlamaları var
Camın kırılması gibi birçok temel etkileşimin fiziğini doğru biçimde modelleyemiyor
Yemek yeme etkileşimi gibi nesne durumunun doğru değişmesi gereken durumlarda da her zaman doğru sonuç vermiyor
Uzun örneklerde tutarlılığın bozulması veya nesnelerin aniden ortaya çıkması gibi başarısızlık örnekleri Sora açılış sayfasında daha ayrıntılı gösteriliyor
Mevcut yetenekler, video modellerinin sürekli ölçeklenmesinin fiziksel ve dijital dünyayı, ayrıca bu dünyalardaki nesneleri, hayvanları ve insanları ele alabilen yetkin simülatörler geliştirmek için bir yol olabileceğini gösteriyor

1 yorum

GN⁺ 2024-02-17

Hacker News yorumları

Bu teknolojinin neyi mümkün kıldığını kaçırıyor gibisiniz. Gerçekçi fizik kurallarına sahip inandırıcı video devam sahneleri üretebiliyor; bu yeterince hızlanıp gerçek zamanlı çalışırsa büyük bir değişim yaratır.
Gerçek zamanlı kamera akışı olan bir robota bağlayıp, gelen görüntünün olası gelecek sahnelerini sürekli olarak birkaç farklı şekilde üretmesini sağlarsanız, çevresindeki dünyanın gerçek zamanlı bir modelini kuran ve geleceği tahmin eden otonom bir robot elde edersiniz. Her tahminin gerçek sonuçla ne kadar uyuştuğuna göre hata düzeltme eklerseniz, bunun AGI’ye gerçekten yaklaşabileceğini düşünüyorum.
Çıktı, metin üretimine ya da kendi hareketini kontrol etmeye bağlanabilir; ayrıca yapabileceği eylemlerin sonuçlarını tahmin edip en iyi eylemi seçmesi de hayal edilebilir. Böyle bir kullanımda görüntünün tamamen fotogerçekçi, hatasız ya da yüksek çözünürlüklü olması da gerekmez. Kendi dünyayı hayal edişimizin ne kadar gerçekçi olduğunu düşünmeye değer.
Örneğin bir ev temizlik robotu, oturma odasının görüntüsüne bakıp temizliği bitmiş oturma odası görüntüsü oluşturur; ardından kendisinin odayı temizlediği videoyu ara karelerle hayal eder, o videoya mümkün olduğunca uygun biçimde hareket eder, sonra yeniden devam sahneleri üretip hareket eder. Gerekirse bunu saniyede birkaç kez tekrarlayabilir.
- Bu, planlama için kullanılan bir dünya modeline sahip ajana daha yakın. Gerçekten fotogerçekçi görüntüler üretmeye pek gerek yok; dünya modeli kendi sıkıştırılmış soyut temsili içinde çalışır.
  Böyle bir sistem için V-Jepa’ya bakmaya değer: https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-jo...
- Teoride doğru, ama sorun şu ki teoride AGI’ye zaten defalarca sahip olduk. Örneğin Q-learning, herhangi bir oyunun ya da sistemin durumunu bir sinir ağına verip olası gelecek ödülleri tahmin ettirmek, sonra da bu tahmin doğruluğunu yinelemeli olarak iyileştirirseniz sonunda herhangi bir sistemde en iyi davranışa ulaşacağı fikrine dayanır.
  Pekiştirmeli öğrenme deneyleri yapınca “açar açmaz iyi çalışacak ve bir sürü harika çözüm bulacak” beklentisi her zaman heyecan vericidir; ama pratikte bu mümkün olsa da çoğu zaman böyle olmaz. Öğrenme belirtileri görülür, fakat çoğu kez olağanüstü sonuçlar çıkmaz.
  Civilization gibi video oyunlarında güçlü bir yapay zekanın ortaya çıkıp çıkmadığını izlemeye devam etmemin nedeni de, karmaşık sistemlerin problemlerini çözerken aynı zamanda oyun geliştiricilerinin pratikte uygulayabileceği kadar gerçekçi olup olmadığını görmek istemem. Bir uzman ekip Civilization’ı bir araştırma projesi olarak çözebilir; ama bu pratiklikten uzaktır. Oyun içi yapay zeka en iyi hamleyi tahmin etmeden önce, insanlara ait Civilization oynanış videolarını göstermekle bir video modelinin en iyi hamleyi tahmin edip edemeyeceğinden şüpheliyim.
- İlginç olan, video verisinin o kadar bol olması ki artık geleceği 2D piksel uzayında izdüşümleyebilen bir modelimiz var.
  Robotikte nihai hedef aslında geleceği 3D dünya uzayında izdüşümlemek; 3D dünya modelinin ne kadar karmaşık olduğuna bağlı olarak çalışabilir bir 3D izdüşüm modeli çok daha küçük bile olabilir diye düşünüyorum.
  Yalnızca buna karşılık gelen veriler internette o kadar kolay bulunmuyor.
- Diğer yanıtların söylediği gibi, bu Yann LeCun’un [1]’de ortaya koyduğu hedef odaklı yapay zeka fikriyle örtüşüyor. Makalede bu ad kullanılmıyordu, ama LeCun sunumlarında ve slaytlarında buna böyle diyordu; aynı zamanda bunun üretken modellerle başarılamayacağını da söyleyegeldi.
  Yapay zeka alanında uzun süre kalınca DeepBlue’dan evrişimli sinir ağlarına, derin pekiştirmeli öğrenmeye ve bugünkü büyük dil modellerine kadar AGI’ye götüreceği söylenen birçok atılım görüyorsunuz. Her seferinde ya insanların sandığı atılım o olmuyordu ya da AGI için tek bir mühendislik atılımından çok daha fazlası gerekiyor olabilir.
  Bu fikrin mümkün olduğunu düşünüyorsanız basit bir ortamda kendiniz deneyebilirsiniz. Küçük bir ızgara dünyası ya da Nethack [2] gibi metin tabanlı bir oyunun basitleştirilmiş bir sürümünü yapıp bunu bir deney tüpü ortamında uygulayabilir ve ne kadar iyi çalıştığını görebilirsiniz. Bundan bir makale bile çıkabilir.
  [1] https://openreview.net/pdf?id=BZ5a1r-kVsf
  [2] Nethack’in kendisinden başlamamak daha iyi. “Yapay zeka” için fazla zor.
- Sora gibi sistemler kesinlikle gerekli, ama tek başına yeterli değil. Doğru şekilde akıl yürütebilen multimodal bir modelle birleştiğinde AGI’ye, daha doğrusu ASI’ye yaklaşabilir.
  Çünkü insandan daha uzun bağlam uzunluğu, kızılötesi veya elektriksel algı gibi ek duyu modaliteleri, çok daha geniş uzmanlık ve devasa bant genişliği gibi avantajları var.
  Sora’nın gelecekteki ardıl modeli + GPT-4’ün muhtemel ardıl modeli = ASI diye düşünüyorum.
  Konuyla ilgili yazdığım başka bir yorum: https://news.ycombinator.com/item?id=39391971
Bu sayfanın yalnızca en iyi sonuçları değil, birkaç başarısız örneği de göstermesi hoşuma gitti.
Örneğin sörfçü sonunda havada sörf yapıyor: https://cdn.openai.com/tmp/s/prompting_7.mp4
Kırılması gereken camın kırılmayıp garip bir şekilde yalnızca sıvı akıttığı bir sahne de var: https://cdn.openai.com/tmp/s/discussion_0.mp4
Bu kişinin yürüme biçimi de tuhaf: https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-a...
Bu haritanın nereden çıktığını da anlamadım: https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls...
- Bazı vitrin videolarında bile perspektif ve paralaks hataları görülüyor. İnsan öznenin arka plandaki insanlara kıyasla çok büyük olduğu ya da uymayan bir yatay düzlem üzerinde durduğu durumlar var. Aslında biraz baş döndürücü ama yine de çok etkileyici.
- Harita sahnesine bakınca yaklaşık 6. saniyede üçüncü bir el haritayı kaldırıyor.
- “Bu kişinin yürüme biçimi” sahnesinde belinin alt tarafından bir şemsiye çıkıyor olması da tuhaf.
“Yemek yeme gibi etkileşimler her zaman nesne durumunda doğru değişimleri üretmeyebilir” kısmını görünce, demek ki Will Smith’in spagetti yediği sahneyi bu yüzden göstermemişler diye düşündüm.
“Video modellerinin ölçeklenmesi, fiziksel ve dijital dünyanın yüksek performanslı simülatörlerini geliştirmeye giden umut verici bir yol” cümlesi robotik için ilginç, ama daha yakın kullanım alanı Gaussian splatting sahnelerindeki boşlukları doldurmak olabilir.
Bir mekânın 3D gezilebilir sürümünü yapmak için mümkün olan tüm açıları kesintisiz kapsayan yüzlerce, hatta binlerce fotoğraf gerekir; buna rağmen eksik yerler kalır. Bu seviyedeki bir model, gizli köşeleri, yakın plan ayrıntıları ve standart yeniden oluşturmada delik ya da bulanıklık olarak kalacak kısımları makul biçimde tamamlayabilir gibi görünüyor.
Bir yerin yalnızca 5-10 fotoğrafıyla bile her açıdan gezilebilen, pürüzsüz ve gerçekçi bir 3D sahne elde etmek mümkün olabilir; insanları ya da istenmeyen nesneleri sahneden kaldırmak da yapılabilir hale gelir. Böyle ekstrapole edilmiş bir yeniden oluşturma, her ayrıntıda gerçeklikle tamamen örtüşmeyebilir; yine de birçok uygulamayı mümkün kılar.
- Böyle bir şeye “yeniden oluşturma” demektense sanatçının hayali tasviri demek daha doğru olur. Kesin ayrıntıların önemli olmadığı durumlar için iyi; ama ayrıntılar önemli değilse bulanık olması da yeterli olabilir.
AlphaGo ve AlphaZero’nun insanüstü performans göstermesinin nedeni Go için kusursuz bir simülatör olmasıydı. İçinde yaşadığımız gerçek dünya için böyle bir simülatör yok. Salt büyük dil modelleri, insanların algıladığı dünyanın kaba ve soyut bir temsilini bir ölçüde öğreniyor; Sora ise derin öğrenmeyle böyle bir simülatör üretme girişimi.
“Sonuçlarımız, video üretim modellerinin ölçeklenmesinin fiziksel dünyanın genel amaçlı simülatörlerini oluşturmak için umut verici bir yol olduğunu gösteriyor” cümlesi işin özü.
Böyle bir simülatör yeterince iyi hale gelirse yazılım tarafında genel amaçlı ve insanüstü robot yetenekleri elde edilebilir. Bu yaklaşımla gerçekte bunun başarıp başarılamayacağı henüz kesin değil.
Neden insanüstü derseniz, bizim çalışma belleğimizden daha uzun bağlam uzunluğu açık bir avantaj; alternatif duyusal kipleri ya da çoğu insanın aşina olmadığı ayrıntıları daha yoğun biçimde simüle etme becerisi de avantaj olabilir.
- Sezgilerimin tersine gitmesi gerçekten ilginç. Gerçek dünyadan gelen kamera akışlarını analiz edip görünen şeyleri bir video oyunu gibi çokgen temsiline dönüştürmenin, ardından yapay zekanın bu geometri üzerinde karar vermesinin çok daha kolay olacağını düşünürdüm.
  Ama yapay zekadaki akış, ara adımları atlayıp doğrudan piksel verisi üzerinde çalışmaya doğru gidiyor. 3D geometri, perspektif ve fizik anlayışının eğitim verisinden doğal biçimde ortaya çıkmasını uman bir yaklaşım.
- Gerçek dünyanın kusursuz simülatörü zaten var. Kamerayla kaydetmek yeterli. Araştırmacıların yönlerini belirleyip tek haneli katlar kadar daha hızlı öğrenmenin yolunu bulmaları için biraz zamanları olursa oraya ulaşacaklar.
Ylecun’un büyük modelleri eğitmek için videonun daha iyi olduğunu birkaç kez söylediğini hatırlıyorum. Çünkü videonun bilgi yoğunluğu daha yüksek.
Sonuçlar gerçekten etkileyici. Bu kadar yüksek kaliteli videolar üretebilmek ve videonun geçmişini ve geleceğini genişletebilmek, modelin gerçek dünyayı, nesne etkileşimlerini, 3D yapıları vb. ne kadar “anladığını” gösteriyor.
Görsel üretimi de zaten dünya hakkında çok şey bilmeyi gerektiriyor; ama video üretiminde modelin 3D’yi, nesne hareketlerini ve etkileşimleri bilmesi gerektiği için arada çok daha büyük bir fark olduğunu düşünüyorum.
Birinin resim çizdiği sahnenin tamamen üretilmiş bir video olması akıl almaz geliyor.
Kendim denemek isterim ama maliyetinin ne kadar yüksek olacağını hayal bile edemiyorum. Tam çözünürlükte eğitilip 1 dakikaya kadar video üretebiliyor olması…
Video üretimi o kadar kötüydü ki bu seviyeye gelmesinin birkaç yıl daha süreceğini sanıyordum; ama bu da yine veri ve işlem gücü eklemenin yeterli olduğu örneklerden biri gibi görünüyor. Transformer bir kez daha her şeyi öğrenip iyi yapabileceğini kanıtlıyor gibi.
Ana yazı da çok tepki alıyor ama bu sayfa gerçekten ezici. Sonuçlar çok güçlü.
Robot örneği epey hayal kırıklığı yaratıyor; ama insanlar ve arka plan figürleri çoğunlukla çok iyi üretilmiş, statik görüntü difüzyon modellerinin çoğundan çok daha iyi düzeyde. Kişinin nesnelerle etkileşirken aynı kişi olarak kalması da bu tür modellerin bu kadar kısa sürede bu kadar iyi yapmasını beklediğim bir şey değildi.
Bu modelin açık bir 3D ön bilgi olmadan bu kadar 3D tutarlılığı olan videolar üretebilmesi şaşırtıcı. O videodan doğrudan NeRF benzeri bir 3D temsil öğrenilebilecek kadar: https://twitter.com/BenMildenhall/status/1758224827788468722
- Stable Diffusion’ı değiştirerek mevcut bir görüntüden HDR küresel ortam haritası üretme çalışması da benzer şekilde şaşırtıcıydı: https://diffusionlight.github.io/
  Daha da şaşırtıcı olan, modele görüntünün merkezine krom bir küre inpaint ettirip kameranın arkasında ne olduğunu yansıma olarak oluşturmasını sağlamaları. Model bağlamı yorumlayıp tüm ortamda makul biçimde bulunabilecek şeyleri hayal ediyor
- Yakından bakınca öyle değil. Örneklerde çok fazla tutarsızlık var. Kamera döndüğünde perspektif tamamen bozuluyor, pencere perspektifi değişiyor, veranda birden derinleşiyor ya da sığlaşıyor. Kamera hareket ederken gölgeler ortaya çıkıp kaybolabiliyor
  Başka örneklerde yollar, nesneler ve insanlar birden belirip kayboluyor; taş insana dönüşüyor; bir at aniden ikinci bir kafaya sahip olup sonra yalnızca iki bacağı olan ayrı bir ata dönüşebiliyor
  İlk bakışta etkileyici, ama dikkatle bakınca gerçekçilikten çok rüyaya yakın. Uzun vadeli zamansal, mekânsal ve nedensel tutarlılık olmadan görüntüden görüntü çağrıştırma gibi. 10 yıllık Google DeepDream’den çok daha etkileyici olduğunu söylemek zor
- Modelin hangi varyasyonunun görüntü yerine doğrudan 3D mesh ve kamera animasyonu çıktısı verebileceğini merak ediyorum
- 2D difüzyon modellerinde de durum aynı[1]. Aydınlatma, gölgeler ve nesne örtüşmesi gibi şeyler nedeniyle 3D’nin nasıl çalıştığını anlamaları gerekiyor gibi görünüyor
  [1] https://dreamfusion3d.github.io/
- Stereo görüntü verisiyle eğitilirse ne kadar daha iyi olacağını merak ediyorum
İlginç bir fikir. Büyük dil modelleri basit birer “metin tahmincisi” olsa da tutarlı metni doğru tahmin edebilmek için dilin ve dünyanın bir modelini öğrenmek zorunda oldukları gibi, video tahmincilerinin de mantıklı bir dünya modeli öğrenmesi gerektiği doğal görünüyor
Benzer şekilde faydalı hâle gelmeleri için bundan sonra kaç mertebe daha gelişmeleri gerekeceğini merak ediyorum
Böyle bir işlevselliğe izin verilirse, muhtemelen premium ve üzeri modellerle, yakında porno endüstrisinin tamamını yıkabilir. Web sitelerini değil, çoğu zaman sömürülen seks işçilerini kastediyorum
Herkes kendi zevkini tarif ederse, bu tür videoları yapmak için gerçek insanların acı çekmesine gerek kalmadan bunları anında görselleştirebilir. Bunun özellikle ABD’de konuşmaktan kaçınılan hassas bir konu olduğunu biliyorum, ama pazar çok büyük ve doğru yapılırsa insanlığa fayda sağlayabilir
- Her bir porno oyuncusuna karşılık ödül devreleri bozulmuş binlerce porno tüketicisi var; oyuncuların bir kısmı istismara uğruyor, çoğu ise oldukça iyi ücret alıyor
  Sonsuz bağımlılık yapıcı uyaran üretmek, insanlığa faydalı olmaktan olabilecek en uzak şey
  Bu alanda iyi bir şey yapmak istiyorsanız tüketimi sınırlamanın yollarını araştırmak daha iyi olur

Dünya Simülatörü Olarak Video Üretim Modelleri

Sora’nın ele aldığı problem ve raporun kapsamı

Görsel verileri yamalarla birleştirme yöntemi

Video sıkıştırma ve uzay-zaman latent yamaları

Video üretimi için Diffusion Transformer’ın genişletilmesi

Orijinal boyutta eğitimin avantajları

Örnekleme esnekliği

Kadraj ve kompozisyon iyileştirmesi

Dil anlama ve açıklama işleme

Görüntü ve videoyu girdi olarak kullanan üretim ve düzenleme

DALL·E görsellerini canlandırma

Üretilmiş videoyu genişletme

Videodan videoya düzenleme ve birleştirme

Görüntü üretme yeteneği

Ölçek büyüdükçe ortaya çıkan simülasyon yetenekleri

3D tutarlılık

Uzun vadeli tutarlılık ve nesne sürekliliği

Dünya ile etkileşim

Dijital dünya simülasyonu

Mevcut sınırlamalar ve sonuç

İlgili okumalar

1 yorum

Hacker News yorumları