- Microsoft Research, VASA-1 adlı yeni bir projeyi tanıttı
- Tek bir insan fotoğrafı ve gerçek zamanlı ses girdisiyle, gerçekçi konuşan yüz videoları üreten bir teknoloji
- Sesle senkronize biçimde dudaklar ve yüz ifadeleri doğal şekilde hareket ediyor; gerçek bir insanın konuşmasıyla neredeyse ayırt edilemeyecek kadar gerçekçi
- Ana bakış yönü, kafa mesafesi ve duygu ofseti gibi isteğe bağlı sinyalleri koşul olarak alan bir diffusion modeli kullanıyor; ana bakış yönü (öne, sola, sağa, yukarı), kafa mesafesi ölçeği ve duygu ofsetine (nötr, mutlu, öfkeli, şaşkın) göre üretim sonuçları sunuyor
- Çevrimdışı toplu işleme modunda 512x512 boyutunda video karelerini saniyede 45 kare hızında üretiyor
- Çevrimiçi streaming modunda saniyede 40 kareye kadar destekliyor ve yalnızca 170 ms ön bekleme süresi gerektiriyor (1 adet NVIDIA RTX 4090 GPU bulunan masaüstü PC)
GN⁺'nin görüşü
- Bu tür bir teknoloji pratikte kullanılabilir hale gelirse sanal insan, yapay zeka avatarı ve metaverse gibi birçok alanda değerlendirilebilir. Özellikle oyun, film ve animasyon gibi eğlence sektörlerinde yoğun talep görmesi bekleniyor
- Öte yandan bunun kötüye kullanılarak sahte haber üretimi veya ünlülerin yüzleriyle deepfake videolar oluşturulması gibi olumsuz etkiler de endişe yaratıyor. Kötü niyetli kullanımı önlemek için teknik ve kurumsal önlemlere ihtiyaç duyulacak
- Benzer teknolojiler arasında NVIDIA'nın duyurduğu Audio2Face de bulunuyor. Bunlar çoğunlukla yalnızca önceden eğitilmiş belirli kişilerin yüzlerini üretebilirken, VASA-1'in yeni yüzleri de gerçek zamanlı üretebilmesi onu farklılaştırıyor
- Geliştirme ekibine göre VASA-1 hâlâ erken aşamada ve görüntü kalitesi ile kararlılığı daha da iyileştirmeyi planlıyorlar. Ticarileşmesi zaman alacak gibi görünse de bir gün günlük hayatımızda bu tür yapay insanlarla karşılaşmamız muhtemel
2 yorum
그것이 알고싶다1394. bölümde, fotoğraf ve sesle bir ünlüyü taklit edip para sızdırma vakası gösterilmişti; bu tür şeylerde kötüye kullanılabileceği için endişe verici görünüyor.Hacker News görüşü
Özet: