Infinity AI'ye giriş
- Infinity AI, insan merkezli bir video modeli eğiten bir şirket
- Ses girdisiyle çalışan bir video diffusion transformer'ı eğiten ilk örnek
- Bu model, gerçekten konuşan, etkileyici ve gerçekçi karakterler üretebiliyor
Nasıl kullanılır
- Infinity AI'nin aracını kullanarak bir senaryo girildiğinde, karakterin konuştuğu bir video üretilebiliyor
- Örnekler:
- "Mona Lisa'nın 'Neye bakıp gülüyorsun?' dediği video"
- "Kırmızı şapkalı, 3D Pixar tarzı bir cücenin Bağımsızlık Bildirgesi'ni okuduğu video"
- "Elon Musk'ın Frank Sinatra'nın 'Fly Me To The Moon' şarkısını söylediği video"
Mevcut AI araçlarının sorunları
- Mevcut üretken yapay zeka video modellerinde karakterler konuşamıyordu
- Mevcut konuşan avatar şirketleri, var olan videonun üzerine dudak senkronu ekleme yaklaşımını kullanıyordu
- Bu da sesle uyuşmayan yüz ifadeleri ve jestlere yol açarak "uncanny valley" etkisi yaratıyordu
V1 modelinin sınırlamaları
- Dudak senkronu yaklaşımının, jest uyumsuzluğunun dışında da çeşitli sınırlamaları vardı
- Sınırlı oyuncu kütüphanesi ve hayali karakterleri canlandıramama sorunu
V2 modelindeki iyileştirmeler
- Tek bir görüntü, ses ve diğer koşul sinyallerini girdi olarak alıp video üreten uçtan uca bir video diffusion transformer modeli eğitildi
- Bunun, insan hareketi ve duygularındaki karmaşıklığı ve inceliği yakalamak için en iyi yaklaşım olduğuna inanılıyor
- Modelin yavaş olması bir dezavantaj
Modelin avantajları
- Birden fazla dili işleyebiliyor
- Bir miktar fizik öğrenmiş durumda (ör. küpeler doğru şekilde sallanıyor)
- Farklı türde görüntüleri canlandırabiliyor (resim, heykel vb.)
- Şarkı söylemeyi işleyebiliyor
Modelin dezavantajları
- Hayvan görüntülerini işleyemiyor (yalnızca insan benzeri görseller mümkün)
- Sık sık kareye eller ekliyor (çok can sıkıcı ve dikkat dağıtıcı)
- Çizgi tarzı görsellerde yeterince sağlam değil
- Kişi kimliğini bozabiliyor (özellikle ünlülerde belirgin)
Modeli dene
GN⁺ özeti
- Infinity AI'nin video modeli, ses girdisiyle gerçekçi karakterler üretebilen ilk örnek
- Mevcut yapay zeka araçlarının sınırlamalarını aşıyor ve uçtan uca video diffusion transformer modeliyle insan hareketini ve duygularını daha iyi yakalıyor
- Birden fazla dili ve çeşitli görüntü türlerini işleyebilmesi avantaj sağlarken, hayvan görüntülerini işleyememesi ve kareye eller eklemesi gibi dezavantajları bulunuyor
- Benzer işlevlere sahip diğer projeler arasında Runway ve Luma yer alıyor
1 yorum
Hacker News yorumu