Google, Veo 3, Imagen 4 ve film yapımı için yeni araç Flow'u tanıttı

(blog.google)

2 puan yazan GN⁺ 2025-05-21 | 1 yorum | WhatsApp'ta paylaş

Google DeepMind, Veo 3, Imagen 4 ve Flow'u tanıtarak video, görsel ve film yapımı araçlarını çarpıcı biçimde genişletti
Veo 3, ses dahil video üretimi, gerçekçi fizik yansıtımı ve dudak senkronizasyonu gibi yetenekler sunuyor
Imagen 4, ince ayrıntı betimleme ve tipografi işleme yeteneğindeki gelişim sayesinde çıktı üretiminde avantaj sağlıyor
Flow, farklı modelleri bir araya getirerek doğal dil tabanlı film yapımını mümkün kılan yeni bir yaratıcı araç
Tüm üretilen içeriklere SynthID filigranı ekleniyor ve bununla birlikte sunulan tespit aracı şeffaflığı güçlendiriyor

Yeni üretken medya modelleri ve araçlarıyla yaratıcılığınızı ortaya koyun

Google, en yeni üretken medya modelleri olan Veo 3, Imagen 4 ve yeni film yapım aracı Flow'u duyurdu
Bu modeller görsel, video ve müzik üretiyor ve üreticilerin hayal ettiği dünyaları gerçeğe dönüştürmesine yardımcı oluyor
Google DeepMind, araçları birlikte tasarlamak için video yapımcıları, müzisyenler ve sanatçılarla çalıştı ve sorumlu yapay zeka kullanımını vurguladı

Veo 3: Ses içeren gelişmiş video üretimi

Veo 3, Veo 2'ye göre daha yüksek kalitede videolar üretiyor ve ilk kez arka plan sesleri, diyaloglar gibi sesleri içeren video üretimini mümkün kılıyor
Metin veya görsel tabanlı prompt'lar ile gerçekçi fizik temelli video üretimi yapılabiliyor ve dudak senkronizasyonu da isabetli
Gemini uygulaması, Flow ve Vertex AI üzerinden ABD'de Ultra plan kullanıcılarına sunuluyor

Veo 2: Üretici geri bildirimlerine dayalı yeni özellikler

Veo 2'ye, üreticilerden gelen geri bildirimler doğrultusunda şu özellikler eklendi:
- Referans tabanlı video üretimi: Karakter, stil ve nesneler görsel olarak girilerek tutarlı videolar üretilebiliyor
- Kamera kontrolleri: Pan, yakınlaştırma, dolly gibi kamera hareketleri ayarlanabiliyor
- Outpainting: Kareyi genişleterek dikeyden yataya geçiş ve sahnenin doğal biçimde büyütülmesi sağlanabiliyor
- Nesne ekleme ve kaldırma: Nesnenin boyutu, gölgesi ve etkileşimleri de hesaba katılarak doğal düzenleme yapılabiliyor
Bu özellikler Flow içinde kullanılabiliyor ve Vertex AI API'sine kademeli olarak uygulanacak

Flow: Veo için optimize edilmiş yapay zeka film yapım aracı

Flow, Veo, Imagen ve Gemini'yi birleştirerek doğal dil üzerinden sahne, karakter ve stil tanımlamayı ve bunları videoya dönüştürmeyi mümkün kılıyor
ABD'deki AI Pro ve Ultra plan kullanıcılarına sunuluyor; zamanla diğer ülkelere de genişletilmesi planlanıyor

Imagen 4: Çözünürlük, ayrıntı ve tipografide gelişim

Imagen 4, ayrıntılı doku betimleme, fotogerçekçi ve soyut stiller desteği ve 2K çözünürlükte çıktı sunuyor
Tipografi yetenekleri de geliştirildiği için kart, poster ve çizgi roman üretiminde avantaj sağlıyor
Gemini uygulaması, Vertex AI, Slides, Docs ve Whisk'te kullanılabiliyor; ayrıca 10 kata kadar daha hızlı bir sürüm de yakında gelecek

Lyria 2: Etkileşimli müzik üretimi

Müzisyenlere yönelik Music AI Sandbox içinde yer alan bu model, yaratıcı denemeleri destekliyor ve yeni müzikleri keşfetmeyi mümkün kılıyor
YouTube Shorts, Vertex AI ve MusicFX DJ'de kullanılabiliyor; ayrıca API ve AI Studio üzerinden gerçek zamanlı etkileşim de sunuyor

SynthID ile yapay zeka tarafından üretilen içerikler tespit edilebiliyor

2023'te başlatılan SynthID, görsel, video, ses ve metin dahil 10 milyardan fazla yapay zeka üretimi içeriğe filigran ekledi
Yeni kullanıma sunulan SynthID Detector sayesinde kullanıcılar da içeriğin üretim kaynaklı olup olmadığını anlayabiliyor
Google, üretken yapay zekanın yaratıcılığı destekleyecek yönde kullanılmasını sağlamak için sorumlu araç tasarımı ve açık iş birliğini sürdürdüğünü belirtiyor

1 yorum

GN⁺ 2025-05-21

Hacker News yorumu

Bizzat test ettiğimde Imagen 4'ün performansının Imagen 3'e kıyasla kayda değer biçimde iyileşmediğini ve prompt doğruluğunun kabaca %60 civarında olduğunu gördüm
- Neden başarılı olduğunda tek deneme yapılıp başarısız olan modelin birden fazla kez tekrarlandığını merak ettim
  Bu testin “model doğru yapabiliyor mu”yu mu yoksa “sık sık doğru yapıyor mu”yu mu ölçtüğünü merak ediyorum
  Başarı oranı ya da başarı eşiği belirlenip deneme sayısı sabitlenerek ölçülmesinin daha uygun olacağını düşünüyorum
- "The Yarrctic Circle"da OpenAI 4o kazandı ama cutlass tutmaması, güzel görünmesine rağmen bakış açısının anlamsız olması ve anatomik olarak bacakların fiilen %150 daha uzun olması gibi temel açılardan tamamen hatalıydı
  Bu sonuçların mevcut modellerin sınırlarını göstermesi açısından ilginç bir kaynak olduğunu düşünüyorum
- "Not the Bees" kazananındaki el, sürücününkinden tamamen farklı göründüğü için bunun gerçekten geçmiş sayılması zor gibi duruyor
- Gerçekte Imagen 4 mü yoksa Imagen 3 mü kullanıldığını nasıl doğruladıklarını merak ediyorum
  Gemini kullanılan modeli söylemiyor, Vertex AI kullanıp kullanmadıkları da belirsiz
- Test ölçütlerinin zorluğu için daha zor örnekler öneriyorum
  - ağzına kadar dolu bir şarap kadehi
  - akrep ve yelkovanı 10 ve 2'yi gösteren bir saat (yani V göstermeyen bir saat)
  - 9 adımlı bir IKEA raf montaj şeması
  - her türlü jimnastik ya da akrobasi vb.
Artık profesyonel araçların açık kaynak sürümlerin oldukça önüne geçtiği hissi var
wan ya da hunyuan gibi ücretsiz modeller de harika ama Google ya da Runway'in en yeni çıktıları bir seviye yukarıda gibi geliyor
Özellikle düzenleme araçları—hareket, yön, kesitler, ses ekleme gibi özellikler—salt üretim gücünün ötesinde büyük bir fark yaratıyor
Büyük şirketlerin açıkça reklam ajansları/Hollywood alanını hedef aldığı bir hava var
Bu araçların yakında sektör standardı hâline geleceği günün düşünülenden daha erken gelebileceğini sanıyorum
Hâlâ bir iki nesil daha gelişmeleri gerekiyor ama sonuçların çok etkileyici olduğu düşüncesindeyim
- Açık kaynak kullanım kolaylığında geri kalsa da, profesyonel ortamda custom lora, control net gibi özelliklerle üretim sürecinin ortasında istenen unsurların eklenebilmesi önemli bir avantaj
  Yerelde üretim yaparken, aşırı katı olabilen platform içerik denetiminden kaçınmak da mümkün
  comfy UI yeni başlayanlar için zor olsa da, büyük ölçüde kontrolsüz kapalı araçları kullanmaktansa küçük YouTube kanalları ve küçük prodüksiyonlarda açık kaynak araçların hâlâ çokça tercih edileceğini düşünüyorum
- GAI'nin gerçek varlığı, kalite farkı ortadan kalktığında doğrulanabilir
  O noktada her şeyi istenen kalitede kodlayabilmek mümkün olacak demektir
- Ajans/Hollywood hedeflemesinin asıl amacının reklam alanı olduğu görüşü
- Tencent Hunyuan ekibinin ilerleyişine dair bir analiz
  Hunyuan Image 2.0 duyuruldu ve text-to-image/image-to-image kalite ile hızı çok etkileyici
  Krea'nın sunduğu tüm işlevleri uygulayan gerçek zamanlı bir 2D çizim tuval uygulaması yapmış durumdalar
  Öncekinden farklı olarak bu kez kapalı kaynak olması üzücü
  Hunyuan 3D 2.0 da iyiydi ama 3D 2.5 henüz yayımlanmadı
  Hunyuan Video, Wan'a kıyasla ilerleme göstermiyor ama Wan son dönemde VACE adlı multimodal/editing katmanıyla dikkat çekiyor
  Comfy topluluğunun da VACE ve Wan ile çok etkileyici sonuçlar ürettiğine dair bir değerlendirme
Düşük bütçeli bağımsız filmlerin yönetmenlik ve oyunculuk açısından eksikleri olsa bile izleyicide dalma, kahkaha ve duygusal etki yaratabilmesinin sebebi, genel olarak tutarlı bir kalite çizgisine sahip olmaları
Buna karşılık yapay zeka video içeriklerinde her bir klip tek başına çok iyi görünse de, birçok klibi tek bir yapımda birleştirip izleyicinin dalmışlığını koruma konusunda hâlâ sınırlar olduğu görüşü var
Giriş bölümü ya da ses yoluyla hikâyenin “kırmızı ipliğini (tutarlı çekiciliğini)” koruyan içeriklerde yapay zeka videoları işe yarayabilir ama Hollywood'un henüz endişeleneceği bir aşamada olmadığı düşünülüyor
Film greninin gibi unsurların ve 24p formatının hâlâ neden sanatsal bir tercih olduğundan da söz ediliyor
- NeuralViz YouTube kanalını öneriyorlar
  180 bin aboneli, yapay zeka video tabanlı bir sinematik evren kuruyorlar ve son derece eğlenceli bir iş
  “Birden çok yapay zeka video klibini bir araya getirip insanı içine çeken bir iş yapmak uzak gelecek” iddiasının pratikte şimdiden çürüdüğünü savunuyorlar
- Yapay zeka video içeriğinin Hollywood üzerindeki etkisi, fotoğrafın resim sanatı üzerindeki etkisine benziyor
  Yapay zeka yerlisi video, Hollywood'un klasik üç perdeli yapısından çok farklı olabilir ama izleyici oraya kayarsa Hollywood da sonunda aynı yolu izleyecektir görüşü
- İzlenebilecek iyi içerik zaten fazlasıyla var
  Asıl sorun içerik kalitesi değil, dağıtım ve erişim gücü; Google gibi dünyanın en büyük kültürel dağıtıcılarından birinin sanat dünyasının acı çektiği asıl meseleyi görmezden gelip alakasız bir tarafa güç harcadığı eleştirisi yapılıyor
Artık herkesin en az bir kez yapay zeka üretimi bir videoyu görüp gerçek sanmış olduğu bir noktaya geldik
Çok bariz örnekleri anlamak kolay ama maruz kaldıkça yapay zeka videoları giderek daha doğal biçimde hayatımıza giriyor
Google'ın Darren Aronofsky'nin yapay zeka stüdyosu Primordial Soup ile işbirliği yapıyor olması dikkat çekiyor
SAG-AFTRA grevi sırasında Hollywood'da yapay zeka kullanım yasağı konuşulmuştu; bu yeni stüdyonun neden etkilenmediğini merak ediyorum
- Primordial Soup sendikayla bağlantılı bir şirket olmadığı için grev anlaşmasına tabi değil
  Bu yüzden sendikal oyuncu çalıştıramazlar ama şirketin niteliği gereği bu büyük bir sorun gibi görünmüyor
Bu çalışmanın teknik seviyesi şaşırtıcı derecede yüksek; ses ve videonun senkronu gerçekten mükemmel ve diyaloglar da ayrı bir ses modeli kullanılmış kadar iyi olduğundan etkileniyorum
Baykuş videosu ile yaşlı adam videosunda hafif bir uncanny valley hissi aldım; kâğıt katlama videosunda ise biraz tehditkâr ve saldırgan bir hava sezdim
- Son 20 yıldaki muazzam ilerleme gerçekten hissediliyor
  Eskiden rahatsız edici derecede gerçekçi videolar üretmek için dev bir geliştirme ekibi, sanatçılar, süper bilgisayar kümeleri ve uzun render süreleri gerekirdi; şimdi büyük kümeler ve çıkarım süresi yeterli
- Sayfanın alt kısmındaki örgü karakter versiyonunda bu his çok daha iyiydi; gerçeklikten biraz uzaklaştıkça uncanny valley'den kaçınmanın kolaylaştığına dair bir içgörü var
- Baykuş videosunda yapay zeka görsellerine özgü tipik bir “parlaklık” vardı, yaşlı adam videosu ise çok etkileyiciydi
- Kâğıt katlama (origami) işinde videodan çok ses daha gerçekçi geldi; herkesin kendine yansıyan bir şey görmesi gibi
Bu şaşırtıcı teknoloji sayesinde geliştirme ekibine içtenlikle hayran kaldım
Aynı zamanda büyük bir hayal kırıklığı da hissediyorum
Yapay zekanın yaratıcı olmayan işleri daha çok otomatikleştirmesini ve yaratıcıların yapay zeka içerik selinde boğulmamasını umuyorum
- Yaratıcı olmayan işlerin otomasyonu da yakında gelecek ama daha yüksek doğruluk gerektiği için daha zor ve daha uzun sürecek deniyor
  Yapay zeka doğruluğu şimdilik %80 civarında ama kalan %20'yi kapatmak asıl yorucu yolculuk
  Hızlı bir uçakla (teknolojiyle) varsanız bile son adımın (kusursuzluğun) trafik sıkışıklığı gibi engellerle dolu olduğu benzetmesi yapılıyor
- Bu konu açıldığında çok fazla gatekeeping görüyorum ama yapay zekanın daha fazla insanın üretime erişmesini sağlayacak olmasını olumlu bulan bir görüş var
  Yapay zekanın açacağı yeni yaratım imkânlarını görmek için heyecan duyuluyor
- Yaratıcı olmayan işler için gereken verilerin başkalarının rızası olmadan toplanmasının daha zor olduğu görüşü de var
- Eskiden sanat eserleri, özellikle dijital olanlar, bu kadar kolay dağıtılamıyordu
  Müzikte de benzerdi; kayıt teknolojisinden önce gerçek olan yalnızca canlı performanstı
  Bugünün dijital çağının aslında sanat tarihi açısından istisnai bir dönem olabileceği yorumu yapılıyor
- “Yapay zeka yaratıcıları yapay zeka ile üretilmiş iş yığınlarının altına gömüyor” deniyor ama yapay zekaya incelikli prompt vermek de bir tür yaratım
  Asıl yaratıcı olmayan emeğin, saatlerce elle model kurup rigging yapmak olduğu görüşü de dile getiriliyor
Yapay zeka modellerinin yaratıcılığı üretip sanatçının yaratıcı vizyonunu gerçekleştirmesine yardım ettiği fikri ilginç geliyor
Yeni çağda rol “bir şey yapmak”tan çok “ortaya çıkarmak”a kayarken
Metin tabanlı prompt ile üretimin gerçekten bir “vizyon” olup olmadığı, “süreç” olmadan sanat için bir yol kalıp kalmadığı gibi yaratımın özü üzerine düşünceler ortaya çıkıyor
Yaratıcılık kavramının kendisi de böylece ince ince yeniden tanımlanıyor
- Bu yeniden tanımlama sürecinde üretim araçlarının 2-3 büyük platform tarafından tekelleştirileceği eleştirisi var
  Onlar için son derece kullanışlı bir yeniden tanımlama olduğu söyleniyor
- Yaratıcı vizyonun tek bir prompt içine sıkışabileceğine inanmak için, bence hayal gücünün kendisine sınırlı yaklaşmak gerekir
  Sanatın özü, çıktısı, süreci ve bunların birbirleriyle ilişkisi üzerine ne kadar konuşulsa az
  Bunu veri yapılarındaki pointer ile verinin kendisini karıştırmaya benzeten ilginç bir analoji yapılıyor
- Metin prompt'ları çok kısa ama prompt takibi yeteneği geliştikçe değişim kaçınılmaz olacak
  Nasıl bir yazılım mühendisi kaynak koduyla vizyonunu hayata geçiriyorsa, yaratıcı alanlar da dönüşecek öngörüsü var
- LLM şirketlerinin insanları kendi hizmetlerine bağımlı kılıp tüm ekonomik faaliyetlerden aracı payı alma stratejisi izlediği görüşü de dile getiriliyor
- Opera/tiyatro/el emeği sanat da benzer bir süreç yaşadı ve insanlar sonunda giderek daha kolay ve tüketmesi daha rahat olana yöneldi
  (dijital müzik/TV/dijital sanat)
  Önceki biçimleri yüksek sanat olarak gören küçük bir kesimin kaldığı analiz ediliyor
Veo3'ü gerçekten kullanmış biri var mı diye merak ediyorum
Demo videolar etkileyici ama Sora kullanırken gerçek kullanım deneyimi çoğu zaman hayal kırıklığı yaratıyor ve sonuçlar çok tutarsız oluyordu; bunu kişisel deneyim olarak paylaşmak istedim

Google, Veo 3, Imagen 4 ve film yapımı için yeni araç Flow'u tanıttı

Yeni üretken medya modelleri ve araçlarıyla yaratıcılığınızı ortaya koyun

Veo 3: Ses içeren gelişmiş video üretimi

Veo 2: Üretici geri bildirimlerine dayalı yeni özellikler

Flow: Veo için optimize edilmiş yapay zeka film yapım aracı

Imagen 4: Çözünürlük, ayrıntı ve tipografide gelişim

Lyria 2: Etkileşimli müzik üretimi

SynthID ile yapay zeka tarafından üretilen içerikler tespit edilebiliyor

İlgili okumalar

1 yorum

Hacker News yorumu