VASA-1: Tek Bir Fotoğraf ve Sesle Konuşan Yüzü Gerçek Zamanlı Üretmek

(microsoft.com)

4 puan yazan GN⁺ 2024-04-20 | 2 yorum | WhatsApp'ta paylaş

Microsoft Research, VASA-1 adlı yeni bir projeyi tanıttı
Tek bir insan fotoğrafı ve gerçek zamanlı ses girdisiyle, gerçekçi konuşan yüz videoları üreten bir teknoloji
Sesle senkronize biçimde dudaklar ve yüz ifadeleri doğal şekilde hareket ediyor; gerçek bir insanın konuşmasıyla neredeyse ayırt edilemeyecek kadar gerçekçi
Ana bakış yönü, kafa mesafesi ve duygu ofseti gibi isteğe bağlı sinyalleri koşul olarak alan bir diffusion modeli kullanıyor; ana bakış yönü (öne, sola, sağa, yukarı), kafa mesafesi ölçeği ve duygu ofsetine (nötr, mutlu, öfkeli, şaşkın) göre üretim sonuçları sunuyor
Çevrimdışı toplu işleme modunda 512x512 boyutunda video karelerini saniyede 45 kare hızında üretiyor
Çevrimiçi streaming modunda saniyede 40 kareye kadar destekliyor ve yalnızca 170 ms ön bekleme süresi gerektiriyor (1 adet NVIDIA RTX 4090 GPU bulunan masaüstü PC)

GN⁺'nin görüşü

Bu tür bir teknoloji pratikte kullanılabilir hale gelirse sanal insan, yapay zeka avatarı ve metaverse gibi birçok alanda değerlendirilebilir. Özellikle oyun, film ve animasyon gibi eğlence sektörlerinde yoğun talep görmesi bekleniyor
Öte yandan bunun kötüye kullanılarak sahte haber üretimi veya ünlülerin yüzleriyle deepfake videolar oluşturulması gibi olumsuz etkiler de endişe yaratıyor. Kötü niyetli kullanımı önlemek için teknik ve kurumsal önlemlere ihtiyaç duyulacak
Benzer teknolojiler arasında NVIDIA'nın duyurduğu Audio2Face de bulunuyor. Bunlar çoğunlukla yalnızca önceden eğitilmiş belirli kişilerin yüzlerini üretebilirken, VASA-1'in yeni yüzleri de gerçek zamanlı üretebilmesi onu farklılaştırıyor
Geliştirme ekibine göre VASA-1 hâlâ erken aşamada ve görüntü kalitesi ile kararlılığı daha da iyileştirmeyi planlıyorlar. Ticarileşmesi zaman alacak gibi görünse de bir gün günlük hayatımızda bu tür yapay insanlarla karşılaşmamız muhtemel

2 yorum

tomriddle7 2024-04-22

그것이 알고싶다 1394. bölümde, fotoğraf ve sesle bir ünlüyü taklit edip para sızdırma vakası gösterilmişti; bu tür şeylerde kötüye kullanılabileceği için endişe verici görünüyor.

GN⁺ 2024-04-20

Hacker News görüşü

Özet:

Microsoft'un VASA-1'i, yalnızca tek bir fotoğraf ve bir ses kaydıyla deepfake üretebiliyor. Deepfake teknolojisi giderek daha hızlı, daha iyi, daha kolay ve daha ucuz hale gelecek gibi görünüyor.
Öte yandan kredi kartı şirketleri sesli kimlik doğrulamayı devreye aldı, ancak herkesin sosyal ağlardan kısa bir ses klibi alıp bir sesi kopyalayabileceği gerçeğinin farkında değiller. Şirketler çağın gerisinde kalmış durumda.
VASA-1, EMO kadar iyi değil. Sahte görünen vücut hareketleri var ve dudak senkronunun düzgün olmadığı birçok bölüm bulunuyor. Göz hareketleri ile genel baş ve vücut hareketleri doğal görünmüyor.
Bu teknolojinin tek amacı, casusların başkalarını istismar etmesine hizmet etmek gibi görünüyor. Bundan sonra her telefon görüşmesi ve görüntülü toplantıda kimlik doğrulaması mı gerekecek?
Bu makale, Diffusion Transformers kullandığını belirtiyor. Açık kaynak uygulama, Facebook Research'ün PyTorch uygulaması ancak ticari olmayan bir lisansa sahip. Buna karşılık gelen MIT veya Apache lisanslı bir seçenek olup olmadığını merak ediyorum.
Gördüğümüz şeylerin gerçekliğini garanti edecek bir tür yönetişim çerçevesine ihtiyacımız var. Ancak fotoğraf/video üzerinde oynama yapıldığında imzanın bozulması gibi nedenlerle bu kolay bir sorun değil.
Bu kesinlikle çılgın bir teknoloji ve gelecekte daha da iyi olacak. Deepfake'in hâlâ uzakta olduğunu düşünüyordum ama internette artık daha dikkatli olmak gerekecek gibi.
Seçimlere müdahale için muhteşem bir teknolojik ilerleme!

VASA-1: Tek Bir Fotoğraf ve Sesle Konuşan Yüzü Gerçek Zamanlı Üretmek

GN⁺'nin görüşü

İlgili okumalar

2 yorum

Hacker News görüşü