1 puan yazan GN⁺ 2024-10-05 | 1 yorum | WhatsApp'ta paylaş
  • Meta Movie Gen, yalnızca basit bir metin girdisi ile video ve ses üretimi, mevcut videoların düzenlenmesi ve kişisel görsellere dayalı video oluşturmayı tek bir yerde ele alan bir yapay zeka medya modeli araştırmasıdır
  • Video üretimi, uzun yüksek kaliteli çıktıları ve çeşitli en-boy oranlarını destekler; Meta bunu sektörde bir ilk özellik olarak öne çıkarıyor
  • Mevcut videolara stil değişikliği, geçişler ve hassas düzenleme metinle uygulanabilir; bu sayede bir feneri havada süzülen sabun köpüklerine dönüştürmek gibi dönüşümler mümkündür
  • Fotoğraf ve metin birlikte girildiğinde, kişinin kimliğini ve hareketlerini koruyan kişiselleştirilmiş videolar oluşturulur; laboratuvar, selfie, western ve DJ sahneleri gibi örnekler buna dahildir
  • Ses efektleri, arka plan müziği ve hatta tüm soundtrack üretilebilir ya da genişletilebilir; böylece video üretim akışı görsel oluşturmadan ses kurgusuna kadar uzanır

Movie Gen'in ele aldığı işler

  • Meta Movie Gen, Meta'nın en yeni araştırma çıktısı olarak duyurulan bir yapay zeka medya foundation modelidir
  • Tek bir metin girdisi akışında birden fazla üretim işini yürütür
    • Özelleştirilmiş video üretimi
    • Ses üretimi
    • Mevcut videoların düzenlenmesi
    • Kişisel görsellerin özgün videolara dönüştürülmesi
  • Meta, Movie Gen'i sürükleyici yapay zeka içerikleri için yeni standart olarak sunuyor

Metin tabanlı video üretimi

  • Movie Gen, metin girdisiyle uzun yüksek kaliteli videoları çeşitli en-boy oranlarında üretir
  • Meta, bu özelliğin sektörde ilk olduğunu belirtiyor
  • Prompt; sahne, özne, hareket, arka plan ve ışık koşullarını birlikte tanımlayabilir
    • Pembe güneş gözlüğü takan bir tembel hayvanın donut simidinin üzerinde uzanıp tropikal bir içecek tuttuğu sahne
    • İki elinde ateşli araçlar tutan bir adamın sahilde dairesel hareketler oluşturduğu sahne
    • Sarı bir sörf tahtasına tutunarak sörf yapan bir koala
    • Tozlu bir çatı katı aynasının önünde dans eden beyaz çarşaf hayalet
    • Kaplıcada küçük bir yelkenliyle oynayan kızıl yüzlü bir maymun

Mevcut videoları metinle düzenleme

  • Movie Gen, mevcut videoları metin girdisiyle değiştirmeye yönelik hassas düzenleme desteği sunar
  • Kapsam; stil değişikliği, geçişler ve ince ayarlı düzenlemeleri içerir
  • Örneklerde, bir feneri havada süzülen sabun köpüklerine dönüştüren bir dönüşüm kullanılıyor

Kişisel görsellerle oluşturulan özelleştirilmiş videolar

  • Kullanıcı kendi fotoğrafını yükleyip kısa bir metin girdiğinde, Movie Gen kişiselleştirilmiş video üretir
  • Üretim sonucu, kişinin kimliğini ve hareketlerini koruyacak şekilde oluşturulur
  • Örnek sahneler, farklı ortamlar ve eylemleri kapsar
    • Gökkuşağı desenli duvar kağıdı olan bir laboratuvarda deney yapan bir erkek
    • Ahşap panelli bir odada şövale üzerindeki tuvale resim yapan bir kadın
    • Bir erkek ile bir beagle yavrusunun arka bahçe verandasında selfie çektiği sahne
    • Çölde geniş kenarlı şapka ve kahverengi palto giyen bir erkeğin çay tuttuğu sahne
    • Eski bir western kasabasında beyaz ata binen bir kovboy kız
    • LA çatı katında plak çalan kadın DJ ve bir çita

Videoya uyarlanmış ses üretimi

  • Movie Gen, metin girdisiyle ses efektleri, arka plan müziği ve tüm soundtrack'i oluşturabilir ya da genişletebilir
  • Üretilen ses, videonun tonunu, ritmini ve stilini yansıtacak şekilde tasarlanır
  • Örnek girdiler, belirli sesleri ve müzikal atmosferi birlikte tanımlar
    • Yağmurun uçurumlara ve insanlara yağdığı, arka planda müzik çalan sahne
    • Yaprak hışırtıları, dal kırılma sesleri ve orkestral müzik
    • ATV motorunun kükreyerek hızlandığı ve gitar müziğinin eşlik ettiği sahne
    • Kaykay tekerleklerinin dönmesi ve betona inişte çıkan darbe sesi
    • Hayranlık duygusu uyandıran bir orkestral parça
    • Bir ıslığın ardından gelen keskin bir patlama ve yüksek crackling sesi

Yaratıcılar ve eğlence sektörüyle iş birliği

  • Meta, Creative Industry Feedback Program aracılığıyla ödüllü yapım şirketi Blumhouse ile iş birliği yapıyor
  • Blumhouse, Movie Gen'in halka açık ilk gösteriminden önce video üretecek film yapımcılarını seçti
  • Yaratıcılardan, yapay zeka medya araç setini kullanarak ilginç veya faydalı buldukları çıktılar üretmeleri istendi
  • Yönetmen Aneesh Chaganty'nin videosunun başlığı "i h8 ai"dir

Açık örnekler ve referans materyaller

  • Meta, yaratıcıların Movie Gen ile hikâye anlatımını değiştirdiğini söylüyor
  • Instagram örnekleri şu hesapları ve prompt'ları içeriyor
    • @paigepiskin: Küçük tüylü kedi yüzlü bir tarantulayı tutan el, bir köpeği gri bir bebek ejderhaya dönüştüren düzenleme
    • @ka5sh: Pembe palyaço ayakkabıları giyen yeşil çizgi film uzaylısı, bir insanı kırmızı bucket hat takan yeşil uzaylıya dönüştüren düzenleme
    • @girls: Sonbahar ağaçlı bir yolda yürüyen kız, Cadılar Bayramı süsleri asılı bir duvarın önünde kahve içen iki kadın
    • @memezar: Bebek su aygırı ile kaslı bir gorilin boks maçı
    • @ravivora: Ön plana yoğun sis ekleme, denizanalarıyla çevrili şekilde su yüzeyine yükselen kadın
  • Ek materyal olarak Movie Gen araştırma makalesi sunuluyor ve Meta, yapay zeka medya üretiminde yeni sektör kıstasları belirlediğini ifade ediyor
  • İlgili yazılar olarak eğlence sektörü ve yaratıcılarla iş birliği ile yapay zeka tabanlı içerik üretimi çağı blog yazılarına bağlantı veriliyor

1 yorum

 
GN⁺ 2024-10-05
Hacker News yorumları
  • Metinle video düzenleme özelliği en ilgi çekici olanı. CGI bütçesi olmayan bağımsız filmlerde hemen kullanılabilecek gibi görünüyor
    Örneğin önce bir lounge koltuğunda çekim yapıp, sonra bunu sinema salonu gibi görünecek şekilde değiştirmek mümkün

    • Buna tamamen katılıyorum. Adamı stadyum arka planına yerleştiren arka plan değişimi, doğrudan bir film ya da TV şovu sahnesi olarak kullanılabilecek düzeyde ve arka plan da yeterince inandırıcı olduğu için kimse garip bulmaz gibi duruyor
      Doğru kullanılırsa bağımsız filmlerin ya da kısa yapımların kalitesini artırır; sınır yalnızca yaratıcılık olur
    • Neden oyuncu kullanalım ki? Oyuncular para istiyor ve takvimlerini ayarlamak zor. Her şeyi AI ile üretmek varken
      Sonuçta modeller muhtemelen bağımsız yapımlardaki oyunculardan daha iyi oyuncular üzerinde eğitildi
  • Bu bir film değil, bir klip. Stok fotoğraf ve video sektörü kesinlikle endişeleniyordur ve bu modellerin kendi işleriyle eğitilmiş olma ihtimali %100 olduğu için dava da açacaklardır
    Bu teknoloji bir gün film üretirse, metin, görsel ve müzik modellerinin ürettiği şeyler gibi bugüne kadar yapılmış her şeyin ortalamasına dönüşüp son derece sıradan sonuçlar verecek gibi geliyor

    • Film yapım araçlarında “Model A’yı 32f sahnesine koy, kalabalık ekle ve sonra A’ya yakınlaş. Yüz ifadesi çok endişeli olsun” diye komut verildiğini hayal ediyorum
      Sonra sahneyi düzenlemeye ve kaydetmeye devam edip bir sonraki sahneye geçebilirsiniz. Eğer AI animasyonu sürdürebiliyorsa, daha gelişmiş hale geldiğinde verilen bir modeli aslına sadık biçimde yeniden üretememesi için bir neden görünmüyor
    • Her iki sektör de sonunda diğer herkes gibi benimse ya da yok ol noktasına gelecek. Her şeyi AI’a bırakmadan bu yeni araçları yaratıcı şekilde kullananlar büyük kazanan olacak gibi duruyor
    • Zaten çeşitli AI kısa film festivalleri ve AI müzik videoları yapıldı. Ama kalite çok değişken ve en iyi örnekler sonuçta iyi kurgu, güçlü bir yönetmenlik niyeti gibi temel yapım becerilerine sahip olanlardı
      Uzun metrajlı bir şey çıktı mı ya da yapım aşamasında mı, bilmiyorum
    • Sorun şu ki bu stok video şirketleri tarihin en zengin şirketleriyle karşı karşıya kalmak zorunda. Hukuki mücadele çok büyük para ve zaman gerektiriyor
      Söylemek istemem ama mevcut durumda AI bu hızla büyümeye devam ederse teknoloji şirketlerinin her yere sızıp aşırı güçlü hale gelme ihtimali yüksek
  • Esasen statik HTML olan web sitelerinin neden bu kadar çok olup yine de telefonu kasmayı başardığını anlamıyorum
    Videolar havalı görünüyor ama telefon 2 saniyede bir takılıyorsa ilgili yazıyı keyifle okumak mümkün olmuyor

    • Pixel 6a ve Chromium tarayıcısında da tuhaf takılmalar var. Mobilde olduğum için kaynağı inceleyemiyorum ama bunun sadece statik HTML olması mümkün değil
      Sayfayı kaydırınca metnin bazı bölümleri kaybolup tekrar sıçrıyor; bu da kaydırma tabanlı bir animasyon gibi değil, neredeyse rastgele. Sanki bir şey tarayıcının render döngüsünü tıkıyor ve gerçek metin çizimine yetişemiyor. Bu kadar basit bir sayfada saçma bir hata olurdu ama burada React kullanıldıysa artık her şeye inanırım
    • Burada aşırı kasmıyor ama görsel ya da video öğeleri yüklenirken layout shift olduğu kesin
    • JavaScript kapatılınca gerçekten gayet kullanışlı ve hızlı oluyor
    • Bunu yapan şirketlerin web geliştirme yetkinliği zayıf olabilir
    • Hangi tarayıcı olduğunu merak ettim
  • İnsanlar görsel girdilere ve görsel eğlenceye fazlasıyla bağımlı. Ama bu tür görseller giderek anlamsız hissettirmeye başlıyor; hepsi fast-food tarzı çöp içerik gibi görünüyor
    Okul öncesi bir çocuğun hayal edebileceği herhangi bir şeyi birkaç saniyede üretebilmek, bunu daha iyi ya da gerçekten değerli kılmıyor gibi. Belki de tam olarak teknolojinin değeri budur. Film gibi görsel yolla hikâye kurmayı tamamen unutabileceğimiz bir dönem gelebilir. Çünkü artık kimse umursamaz

    • Onlar da abur cubur gibi görseller. Fisher-Price ile hafif halüsinojen mantarların karışımı gibi görünüyorlar; bunu söylemek dışında açıklaması zor
    • Evet. Fotoğrafın cazibesini de hiç anlamadım. Fazla kolay; özgün bir şey yapmak için saatlerce resim çizmek gerekmiyor, gidip bir kamera alıp düğmeye basman yetiyor
      İnsanların buna para vermesini de anlamıyorum
  • Yıllardır üretilmiş içerik tsunamisinin internetteki gerçek insan seslerini yutacağını söylüyorum. Sonuçta internet eğlence dışındaki amaçlar için fiilen kullanılamaz hale gelebilir

    • İlginç ve bence bunun bir kısmı şimdiden oldu. Buranın ya da başka forumların çoğunun insan olduğunu düşünürdüm ama artık öyle gelmiyor
      Grup sohbetlerinde bile bir arkadaşın AI cevabı yazdığı belli oluyor ama diğerleri fark etmeyip ciddi ciddi cevap veriyor. Bu bana iğrenç geliyor ve içgüdüsel olarak AI çöp içeriğinden kaçmak istiyorum. Bundan sonra ne olacağını ya da nereye gidileceğini bilmiyorum. “İnsan” forumlar internetin daha derin köşelerine mi itilecek, yoksa herkes yüz yüze buluşmaları mı tercih edecek, kestiremiyorum
    • Belki de iyi bir şeydir. İnternet hiçbir zaman insanlığı birbirine bağlayan bir doku olma potansiyeline ulaşamadı. Büyük kısmı sadece pazarlama ve spam
      İnternet ölür ve herkes daha küçük topluluklara dönerse, bunun o kadar da kötü olmadığını düşünüyorum. Zaten en başta küresel ölçekte iletişim kurmaya evrimleşmiş değiliz
    • Neden umursamam gerektiğini bilmiyorum
      Çoğu insanın ne söylediğine baktınız mı? AI daha zeki şeyler söylüyorsa ben varım
    • Doğrulanmış insan kullanıcılar topluluğuna gidebilsek güzel olurdu. Sosyal medyadan daha dar kapsamlı bir yere
    • Eski internet, tuhaf tiplerin saklanıp eğlendiği bir sığınak gibiydi. Akıllı telefon icat edildikten sonra, hatta belki daha önce bile, adeta “Eternal September” gibi bozuldu
      Bugünlerde zamanımı daha çok çevrimdışında geçirmek istiyorum. Reklam, ilgi avcılığı ve AI çöp içeriği olmayan başka internet tabanlı sığınaklar hâlâ var mı?
  • Tüm videolarda daha iyi bir ifade bulamıyorum ama üretici yapay zekaya özgü, anında fark edilen bir parlak kaplama hissi var. Bir diğer en belirgin kısım da kenarlarda oluşan küçük değişimler; bunlar bulanık artefaktlar yaratıyor

    • Bence bu kadarı yeterli değil. Bu videolar yüksek kaliteli. Sosyal medyaya yüklendiklerinde sıkıştırma yüzünden kusurların çoğu kayboluyor
      İnsanların yapay zeka içeriği beklemediklerinde bunun yapay zeka olduğunu çok daha az fark ettikleri zaten gösterildi. Hazırlıksız yakalansaydım bu videoların çoğunun %100 gerçek olduğuna inanırdım
    • O parlak kaplama hissi, TV ya da filmlerden video kopyalayıp Facebook Reels gibi yerlere yükleyenlerin kullandığı filtreye benziyor
      Çalınmış içeriğe içerik tespit filtrelerini aşmak için yeterince gürültü eklemeye çalışan bu tür reel kalıpları çok fazla. Yorumlarda dolandırıcılık sitesi bağlantıları oluyor ve “bu içeriğin IMDB sayfası” diye etiketleniyor
    • Hareket garip görünüyordu. Sahildeki küçük kız yetişkin gibi hareket ediyor, ressam resmen kukla gibi ve her şey sanki ağır çekim gibi
    • En azından bu videodaki insanların hepsinde parmak sayısı doğru görünüyor, yani bu da bir ilerleme. Moo Deng'in zaten doğal bir parlaklığı varmış gibi duruyor, o yüzden bunu ona bağlayamam
      Yine de kenar sorunu hâlâ büyük
    • RLHF'nin ya da insan temelli diğer model ayarlarının bu aşırı doygunluk ve aşırı kontrasta ne kadar katkı yaptığını merak ediyorum
      Ortalama tüketici görsel ya da video karşılaştırırken bu tür özellikleri daha çok seviyor ve kalite değerlendirmesinde kestirme bir ölçüt olarak kullanıyor gibi görünüyor. Eski metinden-görüntüye üretim modelleriyle son nesli karşılaştıran ve daha az müdahale edilmiş eski modellerin, yeni modeller kadar kitsch ve abartılı çıktılara kaymadığını savunan karşılaştırmalar da vardı
  • Belki çok dar bir bakışla yaklaşıyorum ama bunu kim istedi ve kolay erişilebilir yapay zeka çöpü üretiminin sonuçlarını düşünen oldu mu gerçekten?
    İnternette nereye bakacağını bilmiyorsan kaliteli içerik bulmak zaten neredeyse imkânsız

    • Daha da kötüleşecek ve toplayıcılar ile kapı bekçilerinin değeri muazzam ölçüde artacak
    • “Bunu kim istedi?” sorusunun cevabı, “Yapabildiğimiz için” şakasını hiç duymadın mı, olur
    • Ben istedim ve bunun yaşanmasından oldukça memnunum. Arkama yaslanıp gözlerimi kapattığımda, Hollywood ekibine ihtiyaç duymadan kafamdaki vizyonun gerçeğe dönüştüğü yeni bir bilişim çağı açılıyor
  • İki çocuğum da çok yaratıcı ama yapay zeka yüzünden yaratıcılıkla geçimlerini sağlayamayacaklarından korkuyorlar. Ama son zamanlarda başka türlü de düşünmeye başladım
    On yıllardır eğlence teknolojisini geliştirmeye milyarlar, belki trilyonlarca dolar harcadık. Yapay zeka hayal edilebilecek her türlü eğlenceyi üretebilir hâle gelirse, belki de bu tür eğlenceyi sıkıcı bulmaya başlayacağız. O zaman uzay keşfi, fizik ve kimya bilgisinin genişletilmesi ve hastalıklarla mücadele çok daha ilginç görünebilir. Çünkü onlar gerçek. Aynı açıdan bakınca, insanlar tarafından yapılmış sanat da gerçek olduğu için daha ilgi çekici hâle gelebilir

    • Gerçek hayatta insanlarla konuşunca neredeyse hep o noktaya dönülüyor. Çoğu insan yapay zeka çıktılarını ilginç buluyor ama sanatsal düzeyde özellikle etkileyici bulmuyor
      Yapay zekaya coşkuyla yaklaşanları çoğunlukla sadece internette görüyorum; daha iyi ifade edemiyorum ama gerçekten çok çevrimiçi yaşayan ve kendileri sanat üretecek teknik, bilgi ya da yeteneğe sahip olmayan insanlar gibi görünüyorlar. Birisi “yapay zeka üretimi” dediği anda sanatsal açıdan ilgim hemen kayboluyor. Bu, Photoshop ya da dijital sanat araçları kullanmakla aynı şey değil. Asgari insan müdahalesini bir artı olarak sunmak, bir şey sanat olarak sunulduğu anda benim için daha baştan işlemez hâle geliyor. Bu teknolojiye dair ütopik vizyonun gerçekleşip gerçekleşmeyeceğini göreceğiz ama yeni teknolojilere dair nefes nefese iyimserliğin sonunda reklam odaklı, tatsız tuzsuz MBA tarzı çöplüğe dönüştüğünü defalarca gördüğüm için çok iyimser değilim
    • Bir başka açı da var
      Twitter'da birçok yeni yapay zeka üretim topluluğunu takip ediyorum ve bu topluluklarda yaratıcı sektörlerden çok insan var. Reklam sektöründe çalışan biri yakın zamanda ünlü bir marka çekiminden söz etti. Ses sahnesi, oyuncular, ses, makyaj ve ışık üç gün boyunca kuruldu ve yaklaşık 25 kişi üç gün çalıştı. Ama ön prodüksiyon ve post prodüksiyon da hesaba katılınca arka planda yaklaşık üç aylık emek vardı. Kurgu, renk düzeltme, ses kurgusu ve müziği düşünün. Yaratıcı çocuklar belki de benzer sonuçları kendi başlarına elde edebilecekleri bir dünyada yaşayacaklar. Küçük bir ekipte bir kişi karakterleri, biri sesi, biri senaryoyu üstlenebilir. On binlerce dolarlık kiralık ekipman ve 25 uzmana ihtiyaç duymadan, azim ve yapay zeka üretim araçlarıyla kafalarındaki fikirleri hayata geçirebilirler. Bu yeni araçların, şu anda hayal ettiğimizden çok daha fazla potansiyel açığa çıkaracağına içtenlikle inanıyorum
    • Belki de sanat üretme becerisindeki asıl sınırlayıcı unsur, film yapımı, resim ya da enstrüman çalma için gereken teknik değil, yaratıcılık olacak
    • Boya, kömürün yerini almadı; fotoğraf resmin yerini almadı; dijital sanat fiziksel medyanın yerini almadı; rastgele oyun seviyesi üretimi de mimarlığın yerini almadı
      Yapay zeka üretimi işler de insan üretimi işlerin yanında kendi yerini bulacak. Hatta az miktarda insan yeteneğinin yarattığı farkı daha da görünür kılarak sanat filmleri ve güçlü oyunculuğun pazarını iyileştirebilir. Risk altında olan sanat değil, angarya işler. Değişecek olan, yüz binlerce kişiyi istihdam eden insan yapımı vasat işlerin ölçeğinin, sadece birkaç düzine kişiyi istihdam eden yapay zeka üretimi vasat işlere kayması
    • Yapay zeka olmasa bile yaratıcılıkla geçinmek çoğu insan için zaten hiçbir zaman kolay olmadı. Yaratıcı ifade kendi başına var olan bir şeydir; bundan para kazananlar ise şanslı istisnalardır
  • Bu gerçekten etkileyici. Mekânsal ve zamansal tutarlılık inanılması güç düzeyde

  • Beklenen sonuç şu. Hollywood'daki bütün senaryolar artık ön görselleştirme filmi ile birlikte sunulacak, çizgi romanları animasyona dönüştüren araçlar çıkacak ve çok daha fazla ürün için çevrimiçi reklam üretilecek

    • Ön görselleştirme ve storyboard bu teknolojiden olağanüstü fayda sağlayacak. Sonunda B-roll ya da ikinci ekip çekimlerinde de kullanılabilir gibi görünüyor
      Ondan sonra bu teknolojinin burada mı tıkanacağını yoksa daha da ilerleyeceğini görmek gerekecek
    • Yapay zekayla yapılmış düşük kaliteli “film”ler ve bloklama eklenmiş senaryolar ilginç bir fikir
      Çizgi romanları animasyona dönüştürmek zaten var. Reklamlar, özellikle sosyal ve çevrimiçi reklamlar da zaten yapılıyor