OpenAI Sora: Metinden Video Üreten Yapay Zeka Modeli Tanıtıldı

(openai.com)

12 puan yazan GN⁺ 2024-02-16 | 6 yorum | WhatsApp'ta paylaş

Sora, metin komutlarına göre gerçekçi ve hayal gücü yüksek sahneler üreten bir yapay zeka modeli
Kullanıcının prompt'una sadık kalırken görsel kaliteyi koruyor ve 1 dakikaya kadar video üretebiliyor
Ayrıntılı senaryolar sunan çeşitli prompt'lara göre üretilen video örnekleri tanıtılıyor
- Bu sayfadaki tüm videolar doğrudan Sora tarafından üretildi ve hiç düzenlenmedi
Sora şu anda risk değerlendirmesi için 'red team' ekiplerine sunuluyor ve görsel sanatçılar, tasarımcılar ve film yapımcılarından geri bildirim alıyor
OpenAI, araştırmadaki ilerlemeyi paylaşarak dışarıdan geri bildirim almak ve yapay zeka yeteneklerinin geleceğini kamuya göstermek istiyor

Sora'nın yetenekleri

Karmaşık sahneler, çok sayıda karakter, belirli hareketler ile konu ve arka planın doğru ayrıntılarını üretebiliyor
Yalnızca kullanıcının prompt'unu değil, fiziksel dünyada şeylerin nasıl var olduğunu da anlıyor

Sora'nın güvenliği

OpenAI, Sora'yı ürünlerine entegre etmeden önce çeşitli güvenlik önlemleri almayı planlıyor
Buna yanıltıcı içeriği tespit eden araçların geliştirilmesi ve videonun Sora tarafından üretilip üretilmediğini ayırt edebilen bir sınıflandırıcının geliştirilmesi de dahil

Araştırma teknolojisi

Sora, gürültüyle dolu bir videodan başlayıp gürültüyü kademeli olarak temizleyerek video üreten bir diffusion modelidir
GPT modellerine benzer bir transformer mimarisi kullanarak üstün ölçeklenme performansı sunar

GN⁺'un görüşü

Sora, metin tabanlı komutlarla video üreten yenilikçi bir yapay zeka teknolojisi olarak yaratıcı profesyonellere yeni olanaklar sunuyor
Güvenlik önlemleri ve geri bildirimler sayesinde gerçek dünyadaki kullanımı öğrenmede ve yapay zeka sistemlerini kademeli olarak güvenli hale getirmede önemli bir rol oynuyor
Bu teknolojinin, gelecekte AGI'ye (yapay genel zeka) ulaşma yolunda önemli bir kilometre taşı olacağı düşünülüyor

6 yorum

draupnir 2024-02-17

Gerçekten hayran kalmaktan başka bir şey gelmiyor insanın içinden.
7 trilyon alır herhalde...?

laeyoung 2024-02-16

Bunun gerçek bir video mu yoksa yapay zekanın oluşturduğu bir video mu olduğunu kabaca bakınca anlamak zor.

edunga1 2024-02-16

Vay... bir an önce denemek istiyorum.
Difüzyon modeli denilen şey, stable diffusion ile aynı yöntem demek oluyor, değil mi?

dothx 2024-02-16

stock photo veya stock video pazarının işi zor görünüyor..

xguru 2024-02-16

Üretim kalitesi inanılmaz. Bu kadar hızlı gelişiyor mu?

GN⁺ 2024-02-16

Hacker News görüşleri

Bir kullanıcı, teknik başarıya rağmen gelecek hakkında endişelerini dile getiriyor. Toplumsal güvenlik ağlarının yetersiz olduğunu ve evrensel temel gelir (UBI) fikrine yaklaşılmadığını düşünüyor. Ayrıca tek bir şirketin fazla güç sahibi olmasından korktuğunu belirtiyor.
Başka bir kullanıcı, bilgisayar tarafından üretilen hareket kalitesinden çok etkilendiğini söylüyor. Özellikle motion capture'dan farklı olarak, bilgisayar animasyonunda gerçekçi hareket üretmenin zor olduğunu ancak bu kez son derece gerçek hissettirdiğini ifade ediyor.
Bir başka kullanıcı, görüntü/video yönünün ötesinde, modelin fizik ve nesneler arasındaki ilişkileri anlama becerisinin önemini vurguluyor. Başarısız örnekler olarak anılan vakaların aslında modelin dünyayı güçlü biçimde kavradığını gösteren önemli örnekler olduğunu değerlendiriyor.
The Hollywood Reporter'a göre, sektördeki birçok kişi yapay zeka araçlarının gelişmesi nedeniyle işleri konusunda korku duyuyor. Bazıları sektörden ayrılmayı düşünüyor ve yapay zeka araçlarının özellikle reklam prodüksiyonu alanında istihdamı etkilemesi bekleniyor.
Bir kullanıcı, şu anda kamuya açıklanmış modellerin çok ötesine geçen bir başarıdan söz ediyor.
Başka bir kullanıcı, Tokyo videosunda fark edilen küçük bir hataya dikkat çekerek, üretilen içeriklerde her zaman bu tür hatalar olup olmayacağını ve çocukluktan itibaren bu içeriklere maruz kalan çocukların bu hatalara karşı duyarsızlaşıp duyarsızlaşmayacağını sorguluyor.
Bir kullanıcı, Gemini 1.5 modelinin eski kalmış gibi göründüğünü ve Google'ın bunu bir blog yazısıyla duyurmasına şaşırdığını ifade ediyor.
Bir programcı, yapay zekadaki ilerleme karşısında uğursuz bir his taşıdığını, bunun yalnızca işini kaybetme korkusunun ötesinde olduğunu söylüyor. Videonun kalitesini ise inanılmaz derecede etkileyici buluyor.
Bir kullanıcı, videonun nasıl üretildiğine dair teknik bir soru sorarak modelin sahnenin geometrik yapısını ve kamerayı nasıl ayırdığını merak ediyor.
Son kullanıcı, teknolojik ilerlemenin kültürel değişim getireceğini düşünüyor ve insanların tiyatroda canlı oyunlar, konferanslar ve konserleri daha fazla görmek isteyeceğini söylüyor. Vinyl'in yeniden popülerleşmesi gibi, tiyatroların da yeniden ilgi görebileceğini öngörüyor.