2 puan yazan GN⁺ 2025-05-21 | 1 yorum | WhatsApp'ta paylaş
  • Google DeepMind, Veo 3, Imagen 4 ve Flow'u tanıtarak video, görsel ve film yapımı araçlarını çarpıcı biçimde genişletti
  • Veo 3, ses dahil video üretimi, gerçekçi fizik yansıtımı ve dudak senkronizasyonu gibi yetenekler sunuyor
  • Imagen 4, ince ayrıntı betimleme ve tipografi işleme yeteneğindeki gelişim sayesinde çıktı üretiminde avantaj sağlıyor
  • Flow, farklı modelleri bir araya getirerek doğal dil tabanlı film yapımını mümkün kılan yeni bir yaratıcı araç
  • Tüm üretilen içeriklere SynthID filigranı ekleniyor ve bununla birlikte sunulan tespit aracı şeffaflığı güçlendiriyor

Yeni üretken medya modelleri ve araçlarıyla yaratıcılığınızı ortaya koyun

  • Google, en yeni üretken medya modelleri olan Veo 3, Imagen 4 ve yeni film yapım aracı Flow'u duyurdu
  • Bu modeller görsel, video ve müzik üretiyor ve üreticilerin hayal ettiği dünyaları gerçeğe dönüştürmesine yardımcı oluyor
  • Google DeepMind, araçları birlikte tasarlamak için video yapımcıları, müzisyenler ve sanatçılarla çalıştı ve sorumlu yapay zeka kullanımını vurguladı

Veo 3: Ses içeren gelişmiş video üretimi

  • Veo 3, Veo 2'ye göre daha yüksek kalitede videolar üretiyor ve ilk kez arka plan sesleri, diyaloglar gibi sesleri içeren video üretimini mümkün kılıyor
  • Metin veya görsel tabanlı prompt'lar ile gerçekçi fizik temelli video üretimi yapılabiliyor ve dudak senkronizasyonu da isabetli
  • Gemini uygulaması, Flow ve Vertex AI üzerinden ABD'de Ultra plan kullanıcılarına sunuluyor

Veo 2: Üretici geri bildirimlerine dayalı yeni özellikler

  • Veo 2'ye, üreticilerden gelen geri bildirimler doğrultusunda şu özellikler eklendi:

    • Referans tabanlı video üretimi: Karakter, stil ve nesneler görsel olarak girilerek tutarlı videolar üretilebiliyor
    • Kamera kontrolleri: Pan, yakınlaştırma, dolly gibi kamera hareketleri ayarlanabiliyor
    • Outpainting: Kareyi genişleterek dikeyden yataya geçiş ve sahnenin doğal biçimde büyütülmesi sağlanabiliyor
    • Nesne ekleme ve kaldırma: Nesnenin boyutu, gölgesi ve etkileşimleri de hesaba katılarak doğal düzenleme yapılabiliyor
  • Bu özellikler Flow içinde kullanılabiliyor ve Vertex AI API'sine kademeli olarak uygulanacak

Flow: Veo için optimize edilmiş yapay zeka film yapım aracı

  • Flow, Veo, Imagen ve Gemini'yi birleştirerek doğal dil üzerinden sahne, karakter ve stil tanımlamayı ve bunları videoya dönüştürmeyi mümkün kılıyor
  • ABD'deki AI Pro ve Ultra plan kullanıcılarına sunuluyor; zamanla diğer ülkelere de genişletilmesi planlanıyor

Imagen 4: Çözünürlük, ayrıntı ve tipografide gelişim

  • Imagen 4, ayrıntılı doku betimleme, fotogerçekçi ve soyut stiller desteği ve 2K çözünürlükte çıktı sunuyor
  • Tipografi yetenekleri de geliştirildiği için kart, poster ve çizgi roman üretiminde avantaj sağlıyor
  • Gemini uygulaması, Vertex AI, Slides, Docs ve Whisk'te kullanılabiliyor; ayrıca 10 kata kadar daha hızlı bir sürüm de yakında gelecek

Lyria 2: Etkileşimli müzik üretimi

  • Müzisyenlere yönelik Music AI Sandbox içinde yer alan bu model, yaratıcı denemeleri destekliyor ve yeni müzikleri keşfetmeyi mümkün kılıyor
  • YouTube Shorts, Vertex AI ve MusicFX DJ'de kullanılabiliyor; ayrıca API ve AI Studio üzerinden gerçek zamanlı etkileşim de sunuyor

SynthID ile yapay zeka tarafından üretilen içerikler tespit edilebiliyor

  • 2023'te başlatılan SynthID, görsel, video, ses ve metin dahil 10 milyardan fazla yapay zeka üretimi içeriğe filigran ekledi
  • Yeni kullanıma sunulan SynthID Detector sayesinde kullanıcılar da içeriğin üretim kaynaklı olup olmadığını anlayabiliyor
  • Google, üretken yapay zekanın yaratıcılığı destekleyecek yönde kullanılmasını sağlamak için sorumlu araç tasarımı ve açık iş birliğini sürdürdüğünü belirtiyor

1 yorum

 
GN⁺ 2025-05-21
Hacker News yorumu
  • Bizzat test ettiğimde Imagen 4'ün performansının Imagen 3'e kıyasla kayda değer biçimde iyileşmediğini ve prompt doğruluğunun kabaca %60 civarında olduğunu gördüm

    • Neden başarılı olduğunda tek deneme yapılıp başarısız olan modelin birden fazla kez tekrarlandığını merak ettim
      Bu testin “model doğru yapabiliyor mu”yu mu yoksa “sık sık doğru yapıyor mu”yu mu ölçtüğünü merak ediyorum
      Başarı oranı ya da başarı eşiği belirlenip deneme sayısı sabitlenerek ölçülmesinin daha uygun olacağını düşünüyorum
    • "The Yarrctic Circle"da OpenAI 4o kazandı ama cutlass tutmaması, güzel görünmesine rağmen bakış açısının anlamsız olması ve anatomik olarak bacakların fiilen %150 daha uzun olması gibi temel açılardan tamamen hatalıydı
      Bu sonuçların mevcut modellerin sınırlarını göstermesi açısından ilginç bir kaynak olduğunu düşünüyorum
    • "Not the Bees" kazananındaki el, sürücününkinden tamamen farklı göründüğü için bunun gerçekten geçmiş sayılması zor gibi duruyor
    • Gerçekte Imagen 4 mü yoksa Imagen 3 mü kullanıldığını nasıl doğruladıklarını merak ediyorum
      Gemini kullanılan modeli söylemiyor, Vertex AI kullanıp kullanmadıkları da belirsiz
    • Test ölçütlerinin zorluğu için daha zor örnekler öneriyorum
      • ağzına kadar dolu bir şarap kadehi
      • akrep ve yelkovanı 10 ve 2'yi gösteren bir saat (yani V göstermeyen bir saat)
      • 9 adımlı bir IKEA raf montaj şeması
      • her türlü jimnastik ya da akrobasi vb.
  • Artık profesyonel araçların açık kaynak sürümlerin oldukça önüne geçtiği hissi var
    wan ya da hunyuan gibi ücretsiz modeller de harika ama Google ya da Runway'in en yeni çıktıları bir seviye yukarıda gibi geliyor
    Özellikle düzenleme araçları—hareket, yön, kesitler, ses ekleme gibi özellikler—salt üretim gücünün ötesinde büyük bir fark yaratıyor
    Büyük şirketlerin açıkça reklam ajansları/Hollywood alanını hedef aldığı bir hava var
    Bu araçların yakında sektör standardı hâline geleceği günün düşünülenden daha erken gelebileceğini sanıyorum
    Hâlâ bir iki nesil daha gelişmeleri gerekiyor ama sonuçların çok etkileyici olduğu düşüncesindeyim

    • Açık kaynak kullanım kolaylığında geri kalsa da, profesyonel ortamda custom lora, control net gibi özelliklerle üretim sürecinin ortasında istenen unsurların eklenebilmesi önemli bir avantaj
      Yerelde üretim yaparken, aşırı katı olabilen platform içerik denetiminden kaçınmak da mümkün
      comfy UI yeni başlayanlar için zor olsa da, büyük ölçüde kontrolsüz kapalı araçları kullanmaktansa küçük YouTube kanalları ve küçük prodüksiyonlarda açık kaynak araçların hâlâ çokça tercih edileceğini düşünüyorum
    • GAI'nin gerçek varlığı, kalite farkı ortadan kalktığında doğrulanabilir
      O noktada her şeyi istenen kalitede kodlayabilmek mümkün olacak demektir
    • Ajans/Hollywood hedeflemesinin asıl amacının reklam alanı olduğu görüşü
    • Tencent Hunyuan ekibinin ilerleyişine dair bir analiz
      Hunyuan Image 2.0 duyuruldu ve text-to-image/image-to-image kalite ile hızı çok etkileyici
      Krea'nın sunduğu tüm işlevleri uygulayan gerçek zamanlı bir 2D çizim tuval uygulaması yapmış durumdalar
      Öncekinden farklı olarak bu kez kapalı kaynak olması üzücü
      Hunyuan 3D 2.0 da iyiydi ama 3D 2.5 henüz yayımlanmadı
      Hunyuan Video, Wan'a kıyasla ilerleme göstermiyor ama Wan son dönemde VACE adlı multimodal/editing katmanıyla dikkat çekiyor
      Comfy topluluğunun da VACE ve Wan ile çok etkileyici sonuçlar ürettiğine dair bir değerlendirme
  • Düşük bütçeli bağımsız filmlerin yönetmenlik ve oyunculuk açısından eksikleri olsa bile izleyicide dalma, kahkaha ve duygusal etki yaratabilmesinin sebebi, genel olarak tutarlı bir kalite çizgisine sahip olmaları
    Buna karşılık yapay zeka video içeriklerinde her bir klip tek başına çok iyi görünse de, birçok klibi tek bir yapımda birleştirip izleyicinin dalmışlığını koruma konusunda hâlâ sınırlar olduğu görüşü var
    Giriş bölümü ya da ses yoluyla hikâyenin “kırmızı ipliğini (tutarlı çekiciliğini)” koruyan içeriklerde yapay zeka videoları işe yarayabilir ama Hollywood'un henüz endişeleneceği bir aşamada olmadığı düşünülüyor
    Film greninin gibi unsurların ve 24p formatının hâlâ neden sanatsal bir tercih olduğundan da söz ediliyor

    • NeuralViz YouTube kanalını öneriyorlar
      180 bin aboneli, yapay zeka video tabanlı bir sinematik evren kuruyorlar ve son derece eğlenceli bir iş
      “Birden çok yapay zeka video klibini bir araya getirip insanı içine çeken bir iş yapmak uzak gelecek” iddiasının pratikte şimdiden çürüdüğünü savunuyorlar
    • Yapay zeka video içeriğinin Hollywood üzerindeki etkisi, fotoğrafın resim sanatı üzerindeki etkisine benziyor
      Yapay zeka yerlisi video, Hollywood'un klasik üç perdeli yapısından çok farklı olabilir ama izleyici oraya kayarsa Hollywood da sonunda aynı yolu izleyecektir görüşü
    • İzlenebilecek iyi içerik zaten fazlasıyla var
      Asıl sorun içerik kalitesi değil, dağıtım ve erişim gücü; Google gibi dünyanın en büyük kültürel dağıtıcılarından birinin sanat dünyasının acı çektiği asıl meseleyi görmezden gelip alakasız bir tarafa güç harcadığı eleştirisi yapılıyor
  • Artık herkesin en az bir kez yapay zeka üretimi bir videoyu görüp gerçek sanmış olduğu bir noktaya geldik
    Çok bariz örnekleri anlamak kolay ama maruz kaldıkça yapay zeka videoları giderek daha doğal biçimde hayatımıza giriyor

  • Google'ın Darren Aronofsky'nin yapay zeka stüdyosu Primordial Soup ile işbirliği yapıyor olması dikkat çekiyor
    SAG-AFTRA grevi sırasında Hollywood'da yapay zeka kullanım yasağı konuşulmuştu; bu yeni stüdyonun neden etkilenmediğini merak ediyorum

    • Primordial Soup sendikayla bağlantılı bir şirket olmadığı için grev anlaşmasına tabi değil
      Bu yüzden sendikal oyuncu çalıştıramazlar ama şirketin niteliği gereği bu büyük bir sorun gibi görünmüyor
  • Bu çalışmanın teknik seviyesi şaşırtıcı derecede yüksek; ses ve videonun senkronu gerçekten mükemmel ve diyaloglar da ayrı bir ses modeli kullanılmış kadar iyi olduğundan etkileniyorum

  • Baykuş videosu ile yaşlı adam videosunda hafif bir uncanny valley hissi aldım; kâğıt katlama videosunda ise biraz tehditkâr ve saldırgan bir hava sezdim

    • Son 20 yıldaki muazzam ilerleme gerçekten hissediliyor
      Eskiden rahatsız edici derecede gerçekçi videolar üretmek için dev bir geliştirme ekibi, sanatçılar, süper bilgisayar kümeleri ve uzun render süreleri gerekirdi; şimdi büyük kümeler ve çıkarım süresi yeterli
    • Sayfanın alt kısmındaki örgü karakter versiyonunda bu his çok daha iyiydi; gerçeklikten biraz uzaklaştıkça uncanny valley'den kaçınmanın kolaylaştığına dair bir içgörü var
    • Baykuş videosunda yapay zeka görsellerine özgü tipik bir “parlaklık” vardı, yaşlı adam videosu ise çok etkileyiciydi
    • Kâğıt katlama (origami) işinde videodan çok ses daha gerçekçi geldi; herkesin kendine yansıyan bir şey görmesi gibi
  • Bu şaşırtıcı teknoloji sayesinde geliştirme ekibine içtenlikle hayran kaldım
    Aynı zamanda büyük bir hayal kırıklığı da hissediyorum
    Yapay zekanın yaratıcı olmayan işleri daha çok otomatikleştirmesini ve yaratıcıların yapay zeka içerik selinde boğulmamasını umuyorum

    • Yaratıcı olmayan işlerin otomasyonu da yakında gelecek ama daha yüksek doğruluk gerektiği için daha zor ve daha uzun sürecek deniyor
      Yapay zeka doğruluğu şimdilik %80 civarında ama kalan %20'yi kapatmak asıl yorucu yolculuk
      Hızlı bir uçakla (teknolojiyle) varsanız bile son adımın (kusursuzluğun) trafik sıkışıklığı gibi engellerle dolu olduğu benzetmesi yapılıyor
    • Bu konu açıldığında çok fazla gatekeeping görüyorum ama yapay zekanın daha fazla insanın üretime erişmesini sağlayacak olmasını olumlu bulan bir görüş var
      Yapay zekanın açacağı yeni yaratım imkânlarını görmek için heyecan duyuluyor
    • Yaratıcı olmayan işler için gereken verilerin başkalarının rızası olmadan toplanmasının daha zor olduğu görüşü de var
    • Eskiden sanat eserleri, özellikle dijital olanlar, bu kadar kolay dağıtılamıyordu
      Müzikte de benzerdi; kayıt teknolojisinden önce gerçek olan yalnızca canlı performanstı
      Bugünün dijital çağının aslında sanat tarihi açısından istisnai bir dönem olabileceği yorumu yapılıyor
    • “Yapay zeka yaratıcıları yapay zeka ile üretilmiş iş yığınlarının altına gömüyor” deniyor ama yapay zekaya incelikli prompt vermek de bir tür yaratım
      Asıl yaratıcı olmayan emeğin, saatlerce elle model kurup rigging yapmak olduğu görüşü de dile getiriliyor
  • Yapay zeka modellerinin yaratıcılığı üretip sanatçının yaratıcı vizyonunu gerçekleştirmesine yardım ettiği fikri ilginç geliyor
    Yeni çağda rol “bir şey yapmak”tan çok “ortaya çıkarmak”a kayarken
    Metin tabanlı prompt ile üretimin gerçekten bir “vizyon” olup olmadığı, “süreç” olmadan sanat için bir yol kalıp kalmadığı gibi yaratımın özü üzerine düşünceler ortaya çıkıyor
    Yaratıcılık kavramının kendisi de böylece ince ince yeniden tanımlanıyor

    • Bu yeniden tanımlama sürecinde üretim araçlarının 2-3 büyük platform tarafından tekelleştirileceği eleştirisi var
      Onlar için son derece kullanışlı bir yeniden tanımlama olduğu söyleniyor
    • Yaratıcı vizyonun tek bir prompt içine sıkışabileceğine inanmak için, bence hayal gücünün kendisine sınırlı yaklaşmak gerekir
      Sanatın özü, çıktısı, süreci ve bunların birbirleriyle ilişkisi üzerine ne kadar konuşulsa az
      Bunu veri yapılarındaki pointer ile verinin kendisini karıştırmaya benzeten ilginç bir analoji yapılıyor
    • Metin prompt'ları çok kısa ama prompt takibi yeteneği geliştikçe değişim kaçınılmaz olacak
      Nasıl bir yazılım mühendisi kaynak koduyla vizyonunu hayata geçiriyorsa, yaratıcı alanlar da dönüşecek öngörüsü var
    • LLM şirketlerinin insanları kendi hizmetlerine bağımlı kılıp tüm ekonomik faaliyetlerden aracı payı alma stratejisi izlediği görüşü de dile getiriliyor
    • Opera/tiyatro/el emeği sanat da benzer bir süreç yaşadı ve insanlar sonunda giderek daha kolay ve tüketmesi daha rahat olana yöneldi
      (dijital müzik/TV/dijital sanat)
      Önceki biçimleri yüksek sanat olarak gören küçük bir kesimin kaldığı analiz ediliyor
  • Veo3'ü gerçekten kullanmış biri var mı diye merak ediyorum
    Demo videolar etkileyici ama Sora kullanırken gerçek kullanım deneyimi çoğu zaman hayal kırıklığı yaratıyor ve sonuçlar çok tutarsız oluyordu; bunu kişisel deneyim olarak paylaşmak istedim