- Google DeepMind, Veo 3, Imagen 4 ve Flow'u tanıtarak video, görsel ve film yapımı araçlarını çarpıcı biçimde genişletti
- Veo 3, ses dahil video üretimi, gerçekçi fizik yansıtımı ve dudak senkronizasyonu gibi yetenekler sunuyor
- Imagen 4, ince ayrıntı betimleme ve tipografi işleme yeteneğindeki gelişim sayesinde çıktı üretiminde avantaj sağlıyor
- Flow, farklı modelleri bir araya getirerek doğal dil tabanlı film yapımını mümkün kılan yeni bir yaratıcı araç
- Tüm üretilen içeriklere SynthID filigranı ekleniyor ve bununla birlikte sunulan tespit aracı şeffaflığı güçlendiriyor
Yeni üretken medya modelleri ve araçlarıyla yaratıcılığınızı ortaya koyun
- Google, en yeni üretken medya modelleri olan Veo 3, Imagen 4 ve yeni film yapım aracı Flow'u duyurdu
- Bu modeller görsel, video ve müzik üretiyor ve üreticilerin hayal ettiği dünyaları gerçeğe dönüştürmesine yardımcı oluyor
- Google DeepMind, araçları birlikte tasarlamak için video yapımcıları, müzisyenler ve sanatçılarla çalıştı ve sorumlu yapay zeka kullanımını vurguladı
Veo 3: Ses içeren gelişmiş video üretimi
- Veo 3, Veo 2'ye göre daha yüksek kalitede videolar üretiyor ve ilk kez arka plan sesleri, diyaloglar gibi sesleri içeren video üretimini mümkün kılıyor
- Metin veya görsel tabanlı prompt'lar ile gerçekçi fizik temelli video üretimi yapılabiliyor ve dudak senkronizasyonu da isabetli
- Gemini uygulaması, Flow ve Vertex AI üzerinden ABD'de Ultra plan kullanıcılarına sunuluyor
Veo 2: Üretici geri bildirimlerine dayalı yeni özellikler
-
Veo 2'ye, üreticilerden gelen geri bildirimler doğrultusunda şu özellikler eklendi:
- Referans tabanlı video üretimi: Karakter, stil ve nesneler görsel olarak girilerek tutarlı videolar üretilebiliyor
- Kamera kontrolleri: Pan, yakınlaştırma, dolly gibi kamera hareketleri ayarlanabiliyor
- Outpainting: Kareyi genişleterek dikeyden yataya geçiş ve sahnenin doğal biçimde büyütülmesi sağlanabiliyor
- Nesne ekleme ve kaldırma: Nesnenin boyutu, gölgesi ve etkileşimleri de hesaba katılarak doğal düzenleme yapılabiliyor
-
Bu özellikler Flow içinde kullanılabiliyor ve Vertex AI API'sine kademeli olarak uygulanacak
Flow: Veo için optimize edilmiş yapay zeka film yapım aracı
- Flow, Veo, Imagen ve Gemini'yi birleştirerek doğal dil üzerinden sahne, karakter ve stil tanımlamayı ve bunları videoya dönüştürmeyi mümkün kılıyor
- ABD'deki AI Pro ve Ultra plan kullanıcılarına sunuluyor; zamanla diğer ülkelere de genişletilmesi planlanıyor
Imagen 4: Çözünürlük, ayrıntı ve tipografide gelişim
- Imagen 4, ayrıntılı doku betimleme, fotogerçekçi ve soyut stiller desteği ve 2K çözünürlükte çıktı sunuyor
- Tipografi yetenekleri de geliştirildiği için kart, poster ve çizgi roman üretiminde avantaj sağlıyor
- Gemini uygulaması, Vertex AI, Slides, Docs ve Whisk'te kullanılabiliyor; ayrıca 10 kata kadar daha hızlı bir sürüm de yakında gelecek
Lyria 2: Etkileşimli müzik üretimi
- Müzisyenlere yönelik Music AI Sandbox içinde yer alan bu model, yaratıcı denemeleri destekliyor ve yeni müzikleri keşfetmeyi mümkün kılıyor
- YouTube Shorts, Vertex AI ve MusicFX DJ'de kullanılabiliyor; ayrıca API ve AI Studio üzerinden gerçek zamanlı etkileşim de sunuyor
SynthID ile yapay zeka tarafından üretilen içerikler tespit edilebiliyor
- 2023'te başlatılan SynthID, görsel, video, ses ve metin dahil 10 milyardan fazla yapay zeka üretimi içeriğe filigran ekledi
- Yeni kullanıma sunulan SynthID Detector sayesinde kullanıcılar da içeriğin üretim kaynaklı olup olmadığını anlayabiliyor
- Google, üretken yapay zekanın yaratıcılığı destekleyecek yönde kullanılmasını sağlamak için sorumlu araç tasarımı ve açık iş birliğini sürdürdüğünü belirtiyor
1 yorum
Hacker News yorumu
Bizzat test ettiğimde Imagen 4'ün performansının Imagen 3'e kıyasla kayda değer biçimde iyileşmediğini ve prompt doğruluğunun kabaca %60 civarında olduğunu gördüm
Bu testin “model doğru yapabiliyor mu”yu mu yoksa “sık sık doğru yapıyor mu”yu mu ölçtüğünü merak ediyorum
Başarı oranı ya da başarı eşiği belirlenip deneme sayısı sabitlenerek ölçülmesinin daha uygun olacağını düşünüyorum
Bu sonuçların mevcut modellerin sınırlarını göstermesi açısından ilginç bir kaynak olduğunu düşünüyorum
Gemini kullanılan modeli söylemiyor, Vertex AI kullanıp kullanmadıkları da belirsiz
Artık profesyonel araçların açık kaynak sürümlerin oldukça önüne geçtiği hissi var
wan ya da hunyuan gibi ücretsiz modeller de harika ama Google ya da Runway'in en yeni çıktıları bir seviye yukarıda gibi geliyor
Özellikle düzenleme araçları—hareket, yön, kesitler, ses ekleme gibi özellikler—salt üretim gücünün ötesinde büyük bir fark yaratıyor
Büyük şirketlerin açıkça reklam ajansları/Hollywood alanını hedef aldığı bir hava var
Bu araçların yakında sektör standardı hâline geleceği günün düşünülenden daha erken gelebileceğini sanıyorum
Hâlâ bir iki nesil daha gelişmeleri gerekiyor ama sonuçların çok etkileyici olduğu düşüncesindeyim
Yerelde üretim yaparken, aşırı katı olabilen platform içerik denetiminden kaçınmak da mümkün
comfy UI yeni başlayanlar için zor olsa da, büyük ölçüde kontrolsüz kapalı araçları kullanmaktansa küçük YouTube kanalları ve küçük prodüksiyonlarda açık kaynak araçların hâlâ çokça tercih edileceğini düşünüyorum
O noktada her şeyi istenen kalitede kodlayabilmek mümkün olacak demektir
Hunyuan Image 2.0 duyuruldu ve text-to-image/image-to-image kalite ile hızı çok etkileyici
Krea'nın sunduğu tüm işlevleri uygulayan gerçek zamanlı bir 2D çizim tuval uygulaması yapmış durumdalar
Öncekinden farklı olarak bu kez kapalı kaynak olması üzücü
Hunyuan 3D 2.0 da iyiydi ama 3D 2.5 henüz yayımlanmadı
Hunyuan Video, Wan'a kıyasla ilerleme göstermiyor ama Wan son dönemde VACE adlı multimodal/editing katmanıyla dikkat çekiyor
Comfy topluluğunun da VACE ve Wan ile çok etkileyici sonuçlar ürettiğine dair bir değerlendirme
Düşük bütçeli bağımsız filmlerin yönetmenlik ve oyunculuk açısından eksikleri olsa bile izleyicide dalma, kahkaha ve duygusal etki yaratabilmesinin sebebi, genel olarak tutarlı bir kalite çizgisine sahip olmaları
Buna karşılık yapay zeka video içeriklerinde her bir klip tek başına çok iyi görünse de, birçok klibi tek bir yapımda birleştirip izleyicinin dalmışlığını koruma konusunda hâlâ sınırlar olduğu görüşü var
Giriş bölümü ya da ses yoluyla hikâyenin “kırmızı ipliğini (tutarlı çekiciliğini)” koruyan içeriklerde yapay zeka videoları işe yarayabilir ama Hollywood'un henüz endişeleneceği bir aşamada olmadığı düşünülüyor
Film greninin gibi unsurların ve 24p formatının hâlâ neden sanatsal bir tercih olduğundan da söz ediliyor
180 bin aboneli, yapay zeka video tabanlı bir sinematik evren kuruyorlar ve son derece eğlenceli bir iş
“Birden çok yapay zeka video klibini bir araya getirip insanı içine çeken bir iş yapmak uzak gelecek” iddiasının pratikte şimdiden çürüdüğünü savunuyorlar
Yapay zeka yerlisi video, Hollywood'un klasik üç perdeli yapısından çok farklı olabilir ama izleyici oraya kayarsa Hollywood da sonunda aynı yolu izleyecektir görüşü
Asıl sorun içerik kalitesi değil, dağıtım ve erişim gücü; Google gibi dünyanın en büyük kültürel dağıtıcılarından birinin sanat dünyasının acı çektiği asıl meseleyi görmezden gelip alakasız bir tarafa güç harcadığı eleştirisi yapılıyor
Artık herkesin en az bir kez yapay zeka üretimi bir videoyu görüp gerçek sanmış olduğu bir noktaya geldik
Çok bariz örnekleri anlamak kolay ama maruz kaldıkça yapay zeka videoları giderek daha doğal biçimde hayatımıza giriyor
Google'ın Darren Aronofsky'nin yapay zeka stüdyosu Primordial Soup ile işbirliği yapıyor olması dikkat çekiyor
SAG-AFTRA grevi sırasında Hollywood'da yapay zeka kullanım yasağı konuşulmuştu; bu yeni stüdyonun neden etkilenmediğini merak ediyorum
Bu yüzden sendikal oyuncu çalıştıramazlar ama şirketin niteliği gereği bu büyük bir sorun gibi görünmüyor
Bu çalışmanın teknik seviyesi şaşırtıcı derecede yüksek; ses ve videonun senkronu gerçekten mükemmel ve diyaloglar da ayrı bir ses modeli kullanılmış kadar iyi olduğundan etkileniyorum
Baykuş videosu ile yaşlı adam videosunda hafif bir uncanny valley hissi aldım; kâğıt katlama videosunda ise biraz tehditkâr ve saldırgan bir hava sezdim
Eskiden rahatsız edici derecede gerçekçi videolar üretmek için dev bir geliştirme ekibi, sanatçılar, süper bilgisayar kümeleri ve uzun render süreleri gerekirdi; şimdi büyük kümeler ve çıkarım süresi yeterli
Bu şaşırtıcı teknoloji sayesinde geliştirme ekibine içtenlikle hayran kaldım
Aynı zamanda büyük bir hayal kırıklığı da hissediyorum
Yapay zekanın yaratıcı olmayan işleri daha çok otomatikleştirmesini ve yaratıcıların yapay zeka içerik selinde boğulmamasını umuyorum
Yapay zeka doğruluğu şimdilik %80 civarında ama kalan %20'yi kapatmak asıl yorucu yolculuk
Hızlı bir uçakla (teknolojiyle) varsanız bile son adımın (kusursuzluğun) trafik sıkışıklığı gibi engellerle dolu olduğu benzetmesi yapılıyor
Yapay zekanın açacağı yeni yaratım imkânlarını görmek için heyecan duyuluyor
Müzikte de benzerdi; kayıt teknolojisinden önce gerçek olan yalnızca canlı performanstı
Bugünün dijital çağının aslında sanat tarihi açısından istisnai bir dönem olabileceği yorumu yapılıyor
Asıl yaratıcı olmayan emeğin, saatlerce elle model kurup rigging yapmak olduğu görüşü de dile getiriliyor
Yapay zeka modellerinin yaratıcılığı üretip sanatçının yaratıcı vizyonunu gerçekleştirmesine yardım ettiği fikri ilginç geliyor
Yeni çağda rol “bir şey yapmak”tan çok “ortaya çıkarmak”a kayarken
Metin tabanlı prompt ile üretimin gerçekten bir “vizyon” olup olmadığı, “süreç” olmadan sanat için bir yol kalıp kalmadığı gibi yaratımın özü üzerine düşünceler ortaya çıkıyor
Yaratıcılık kavramının kendisi de böylece ince ince yeniden tanımlanıyor
Onlar için son derece kullanışlı bir yeniden tanımlama olduğu söyleniyor
Sanatın özü, çıktısı, süreci ve bunların birbirleriyle ilişkisi üzerine ne kadar konuşulsa az
Bunu veri yapılarındaki pointer ile verinin kendisini karıştırmaya benzeten ilginç bir analoji yapılıyor
Nasıl bir yazılım mühendisi kaynak koduyla vizyonunu hayata geçiriyorsa, yaratıcı alanlar da dönüşecek öngörüsü var
(dijital müzik/TV/dijital sanat)
Önceki biçimleri yüksek sanat olarak gören küçük bir kesimin kaldığı analiz ediliyor
Veo3'ü gerçekten kullanmış biri var mı diye merak ediyorum
Demo videolar etkileyici ama Sora kullanırken gerçek kullanım deneyimi çoğu zaman hayal kırıklığı yaratıyor ve sonuçlar çok tutarsız oluyordu; bunu kişisel deneyim olarak paylaşmak istedim